
La malédiction des données
Le big data se présente comme l’agent d’une révolution épistémologique, comme le catalyseur d’un nouveau régime de vérité.
Philippe Lemoine
On dit parfois que les données sont le pétrole du xxie siècle. La comparaison est hasardeuse mais elle a au moins ceci de juste que le pétrole est à l’origine de ce que les économistes ont appelé la malédiction de la rente et que nos économies pourraient bien connaître demain la malédiction des données.
Qu’entend-on par malédiction de la rente ? C’est l’idée, vérifiée par plusieurs études empiriques, que les pays riches en matières premières, notamment en pétrole, et qui ont fondé leur développement sur cet avantage de la nature, ont connu des taux de croissance plus faibles que ceux des pays équivalents privés de cet atout. Parmi les explications avancées, l’insécurité liée à la volatilité du cours des matières premières ; un effet de taux de change, car l’exportation de l’or noir enchérit la monnaie et nuit à la compétitivité-prix des industries naissantes ; et surtout un effet de rente, puisque certains États pétroliers, n’ayant aucun besoin de lever l’impôt, n’encouragent pas les nationaux à créer de la richesse.
Parler de malédiction des données, c’est donc rappeler que la donnée n’est créatrice de valeur que si elle est combinée à d’autres facteurs et qu’il serait dangereusement illusoire de vouloir s’en remettre isolément à elle. Pour mesurer ce danger, il n’est pas inutile de prendre un peu de recul et de suivre l’irrésistible ascension de la donnée qui nous a conduit à un certain vertige face au big data.
L’irrésistible ascension de la donnée
La donnée est un trou noir conceptuel. Personne ne sait définir clairement son statut. Cette malléabilité en fait un attracteur puissant au cours de tous les grands cycles qui marquent l’histoire bientôt centenaire des technologies de l’information : 1936-1960, le cycle de l’ordinateur, depuis l’invention de son modèle théorique jusqu’à sa mise sur le marché ; 1960-1984, le cycle de l’informatique de gestion, des gros ordinateurs ibm jusqu’aux ordinateurs personnels ; 1984-2008, le cycle d’Internet et de l’informatisation de la société, avec le déploiement du réseau et l’informatisation des grands systèmes de transport, de santé, d’énergie, d’éducation ; et, depuis 2008, un nouveau cycle, celui de la transformation numérique de l’économie et de la société.
À l’origine, après la définition du concept de machine universelle par Alan Turing, la mise au point des ordinateurs découle de l’idée qu’il faut rompre avec un modèle épistémo-technologique selon lequel la prééminence du raisonnement, du programme, devait se traduire par une matérialité, par la fabrication de circuits logiques « en dur » qui traitaient un ensemble de données que l’on stockait depuis la mécanographie sur des cartes perforées. Le trait de génie du mathématicien John von Neumann fut de considérer que le programme était une donnée comme une autre et que l’architecture technique n’avait pas à les différencier. C’est de cette confusion qu’est né l’ordinateur.
Victorieuse, la donnée apparaissait dès lors comme dangereuse. Ne fallait-il pas se méfier de ce mélange ? Durant le cycle de l’informatique de gestion, le grand adage était « garbage in, garbage out » : si des déchets entrent dans un système, ils doivent aussi en sortir. Une grande part de l’énergie investie dans la programmation était alors consacrée à imaginer des contrôles : contrôles de présence, contrôles de cohérence, contrôles de vraisemblance. À l’heure des réseaux sociaux et des « fake news », cette culture du contrôle semble s’être évaporée.
Le seul danger de la donnée n’est pourtant pas celui de l’erreur, de la donnée fausse. L’autre danger, c’est l’infobésité, l’excès de données insignifiantes. Là encore, la donnée fonctionne comme trou noir, comme catalyseur d’un nouveau progrès des technologies de l’information. L’étape suivante, celle d’Internet, provient en effet précisément du projet d’utiliser la puissance du réseau pour empêcher à la source la prolifération des données sans valeur. Le Web naît à la fin des années 1980 au Centre européen de recherche nucléaire (Cern). Il se pose dans ce centre un problème d’accès des chercheurs à la documentation scientifique, mais plus encore, un problème d’excès d’informations, lié aux gigantesques anneaux que sont les accélérateurs de particules, en particulier les collisionneurs. Dans ces immenses tunnels, des faisceaux contenant des milliards d’électrons et de positrons circulent à la vitesse de la lumière et entrent en collision 2 000 fois par seconde. Chaque heure, les instruments enregistrent ainsi des milliards d’observations, mais le taux de collisions utiles à la compréhension de la composition de la matière est extrêmement faible : au mieux, quelques-unes par an. Toutes les autres mesures n’ont aucun intérêt : le projet de Tim Berners-Lee et Robert Cailliau de créer un système hypertexte distribué sur le réseau informatique naît de ce besoin de mettre au point une architecture technique permettant d’écraser à la source les données inutiles.
Pour tous les fabricants de tuyaux, de mémoires, d’ordinateurs, le big data est une bonne nouvelle.
Énergie noire, la donnée est toutefois extrêmement résiliente. Avec le passage à l’ère numérique, la donnée rayonne plus que jamais. Pour tous les fabricants de tuyaux, de mémoires, d’ordinateurs, le big data est une bonne nouvelle. La chute des prix de transport, de stockage, de traitement est en effet impressionnante et cela aurait été une catastrophe si cette spirale déflationniste s’était combinée au succès d’approches sobres en données. Mais on revenait de loin ! Comment s’est déroulée cette dernière phase, qui débouche sur la représentation du gisement de données comme nouvelle source de richesse ?
Gloire aux données
À l’âge numérique, le big data s’impose à la conjonction de trois champs de forces que l’on peut appeler les trois « V » : volume, valeur, vérité.
Volume : c’est la spectaculaire inflation du volume des données disponibles qui caractérise d’abord le big data. Selon le cabinet de conseil Idc (International Data Corporation), la production mondiale annuelle de données croît à un rythme comparable à la célèbre loi de Moore : elle double tous les deux ans. D’ici 2020, elle devrait atteindre 44 zettaoctets, c’est-à-dire 10 puissance 21 ! D’où vient cette explosion ? Les articles scientifiques ne représentent qu’une très faible part de cet ensemble. Les gros volumes, ce sont les données de connexion, les messages électroniques et Sms, les traces de recherches, les commentaires sur les réseaux sociaux, les vidéos en tous genres, les mesures effectuées par les objets connectés… Les données structurées sous forme de fichiers de gestion ne représentent plus qu’une mince couche dans les « lacs de données » (data lakes) profonds qui s’imposent dans les grandes organisations comme extensions des anciennes banques de données. Tout un ensemble d’outils permet de capter, de stocker, d’interroger et d’analyser ces gigantesques amoncellements de données.
Valeur : les grandes plateformes d’intermédiation électronique tirent une valeur boursière considérable de l’exploitation systématique des flux de données qu’elles captent méthodiquement. En juillet 2017, la capitalisation des Gafam s’élevait à 2 995 milliards de dollars : 785 pour Apple, 652 pour Google, 564 pour Microsoft, 500 pour Amazon, 494 pour Facebook. Soit un montant plus important que le Pib de la France (2 420 milliards de dollars). Pour toutes les entreprises de la planète, ce gonflement des valeurs boursières opère comme un marqueur de la voie à suivre. Il faut accumuler et exploiter le big data si l’on veut prospérer.
Vérité : au-delà d’une révolution technologique et économique, le big data se présente comme l’agent d’une révolution épistémologique, comme le catalyseur d’un nouveau régime de vérité. Les propositions commerciales s’affinent grâce à la localisation des clients et à l’identification précoce de leurs préoccupations. La maintenance devient prédictive en analysant les vibrations, les usures, les gaz d’échappement. La police, la justice et la santé se veulent également prédictives. Les sciences sociales elles-mêmes fouillent ce qui s’échange sur les réseaux sociaux pour répondre à des questionnements sur les liens entre l’intime et le collectif et, à l’heure de la mondialisation, pour échapper aux limites nationales des grandes enquêtes statistiques.
Le bouleversement épistémologique ne s’arrête toutefois pas à cette exploitation humaine du big data. L’amoncellement de données est avant tout le socle à partir duquel progresse l’intelligence artificielle. Le « machine learning », l’apprentissage automatique, est en effet la grande voie de développement de l’intelligence artificielle aujourd’hui, visant, par l’entraînement des automates sur d’immenses jeux de données, à les amener à reconnaître des formes et à sophistiquer des algorithmes de traitement. La qualité du machine learning est directement corrélée au volume du big data : nombre de cas, variété et qualité des attributs, pertinence des données renseignées. Il existe certes des exemples, comme celui des jeux structurés par des règles (comme les échecs ou le jeu de go), où il a récemment été démontré que des réseaux neuronaux permettant à une machine d’apprendre en jouant contre elle-même un très grand nombre de parties pouvaient être plus efficaces qu’un apprentissage à partir d’une base de parties réellement jouées par des humains (voir AlphaGo Zero, octobre 2017). Mais, en règle générale, c’est le ratissage de données du réel qui alimente la structuration de l’intelligence artificielle.
La malédiction des données
Lorsque le big data cesse d’être pensé comme une simple ressource et devient une idéologie du salut, on s’approche de la malédiction des données. L’arbre « data » finit par cacher l’ampleur du tsunami numérique. La transformation numérique est en effet violente et trois aspects de cette violence risquent d’échapper à ceux qui s’en remettraient à l’illusion d’une richesse garantie par leur gisement de données.
La première violence à l’œuvre est celle du siphonage de la valeur qui s’opère au détriment des entreprises classiques en faveur des grandes plateformes d’intermédiation. Dans le rapport sur la transformation numérique de l’économie française que j’ai remis en 2014 au gouvernement, j’évaluais la part de marché de la France dans la captation de valeur réalisée à l’échelle mondiale par les géants du numérique à une ponction annuelle de 60 milliards d’euros prélevés sur les résultats de ses entreprises. Comment est-il possible d’y résister ? Pas seulement en s’équipant massivement de technologies ; des études ont montré que les résultats des entreprises qui s’équipent, mais sans se transformer, s’effritent encore plus que ceux des entreprises qui ne font rien. Investir dans une politique massive de collecte, de stockage, d’analyse des données ? Cela ne saurait tenir lieu de stratégie de transformation. Le modèle même du grand groupe façon « corporation », issu de la seconde révolution industrielle, est mis à mal par la révolution numérique. La part de la politique y est trop importante, les coûts fixes des sièges sont sans utilité, l’innovation et l’initiative sont trop bridées à tous les niveaux. Tout l’art est de conjuguer les données avec un marketing clair des services, une conception renouvelée de la valeur ajoutée et un design intuitif, esthétique et limpide. C’est tellement éloigné de la culture de nombreuses grandes organisations qu’elles sont condamnées à subir des stratégies de surtraitance de la part d’opérateurs numériques : ces derniers viennent s’interposer entre elles et leurs marchés, proposant aux personnes des formules souples et séduisantes d’agrégation de services, en s’appuyant pour les délivrer sur les acteurs existants, mais aux conditions de prix et de marge qu’ils ont définies.
La seconde violence que masque une certaine idéologie des données, c’est la négation de ce ressort nouveau dans la révolution numérique : le rôle moteur joué par les personnes. C’est pourtant ce qui caractérise le cycle commencé en 2008, et ce n’est pas un hasard si l’on parle de digital en anglais et de numérique en français, deux mots qui viennent de l’électronique grand public. Ce sont en effet les personnes qui se sont équipées massivement de smartphones et de tablettes qui font la course en tête. Au-delà de l’équipement, elles inventent les usages, défrichent de nouvelles façons de communiquer, d’échanger, de faire du troc, de produire, de partager. Les entreprises courent derrière pour capter ces innovations et imaginer des modèles d’affaires pour les rentabiliser. À l’image des acteurs les plus agiles du numérique, un élément clé de la transformation des entreprises traditionnelles devrait être d’apprendre à créer d’autres rapports avec les personnes, d’abolir les vieilles catégories figées de producteur ou de consommateur, d’apprendre les mécanismes de l’ouverture, de l’intelligence collective et de la co-conception.
Au lieu de cela, l’idéologie data-centrique conduit vers l’impasse de vouloir redonner vie à une vieille lune : la patrimonialisation des données. Plutôt que d’acter le rôle moteur des personnes, on veut les voir comme des dominés qui seraient prêts à céder leurs données personnelles contre monnaie sonnante et trébuchante. On étend la logique du gisement de richesses et on laisse entendre aux personnes qu’elles seraient détentrices d’un trésor caché. Mais combien les idéologues et les opportunistes qui prétendent cela pensent-ils que le marché pourrait rémunérer ceux qui vendraient leurs données ? Hors de toute mise en perspective collective, hors de tout autre travail, les données ne valent rien ou pas grand-chose : quelques euros par an, quelques dizaines d’euros tout au plus. Les grands bénéficiaires de cette patrimonialisation seraient d’ailleurs les renards laissés libres de plumer, en toute légalité, le poulailler libre. Mieux vaut faire payer des impôts aux géants du numérique et promouvoir des instruments juridiques, comme le droit européen à la protection des données, qui défendent la liberté des personnes dans le futur numérique !
La troisième violence que l’idéologie du big data a parfois tendance à voiler, c’est celle de la cybercriminalité publique et privée. Toutes les stratégies qui visent à amasser de grands volumes de données sont aujourd’hui menacées par le risque d’un hold-up informationnel. On sait qu’il en existe plusieurs types : vol massif, évaporation progressive, espionnage économique, virus, thromboses et chantage. Et, naturellement, on ne peut pas traiter de la même façon les comportements des hackers privés, mafieux ou non, et ceux des hackers publics, dépendant ou non des services secrets. Mais les frontières sont parfois ténues… Depuis Snowden et les révélations sur les pratiques engendrées par la loi anti-terroriste du Patriot Act aux États-Unis, on sait que les données sensibles sur les personnes détenues par les entreprises peuvent être détournées. Il n’y a pas de réponse technique absolue à ces risques. La meilleure réponse est celle de la vigilance de toute l’entreprise, à commencer par celle de son dirigeant. Mais l’expérience montre que les dirigeants préfèrent rêver aux perspectives heureuses du digital que de se confronter aux dures réalités de la cybersécurité.
Hors de toute mise en perspective collective, les données ne valent rien ou pas grand-chose.
La législation française n’étant pas a priori favorable à la constitution de mégabases de données polyvalentes, nous n’avons pas connu en France de vols aussi massifs que ceux que connaissent les entreprises américaines. Pour des entreprises affaiblies par la difficulté de se transformer, ces scandales liés aux vols de données ont cependant un effet catastrophique. Ils viennent ruiner le capital confiance dont pouvait continuer de jouir une marque et finir de liquider ses forces.
Les monarchies pétrolières connaissent la malédiction de la rente. Dominées par les grandes plateformes, séparées des personnes par un matelas imaginaire de patrimoine numérique, soumises à la cybercriminalité publique et privée, les entreprises ou les nations qui voudraient s’en remettre au seul big data se condamneraient à la malédiction des données.