Les données massives n’enterrent pas la science de papa

La révolution des Big Data signe-t-elle la fin de la pensée, comme on l’entend parfois ? Les scientifiques du futur se contenteront-ils de passer sans trop réfléchir d’énormes quantités de données à la moulinette algorithmique ? Ce serait méconnaître à la fois la nature de la science et de notre intellect.

TEXTE | Lionel Pousaz

La science avance par hypothèses et vérifications expérimentales. Et si elle puisait directement à la source du réel, plutôt que de démarrer avec une intuition, forcément biaisée? Le savoir peut-il approcher une forme d’objectivité parfaite? C’est ce que promettaient les Big Data, il y a une quinzaine d’années, quand elles ont débarqué en fanfare dans le monde de la recherche. Il suffisait de déverser dans une machine des quantités de données disparates – météorologie, trafic automobile, densité de population, clics sur des pages web – et de laisser un algorithme digérer le tout. Des corrélations devaient apparaître, auxquelles l’on n’avait souvent pas même songé. Au final, on obtenait un modèle prédictif sur la consommation des ménages, les émissions de CO2, l’utilisation des médias… On s’en doute, en pratique les choses se sont révélées un peu plus complexes.

L’idée sous-jacente aux données massives ne date pas d’hier. Le premier data center a vu le jour en 1965, sous l’impulsion de l’administration américaine des impôts. Il s’agissait de stocker des dizaines de millions de déclarations fiscales sur le fleuron de la technologie d’alors – des bandes magnétiques – pour accélérer leur traitement, fournir des statistiques et traquer les fraudeurs. Cette même année, la science-fiction abordait également le sujet – ironiquement, dans un monde imaginaire où les ordinateurs sont proscrits, parce qu’ils visent à imiter l’intelligence humaine. Dans son roman culte Dune, Frank Herbert¹ inventait les mentats: des individus formés pour prendre la place des machines interdites et penser comme elles. «J’ai toujours été fier de voir les choses ainsi qu’elles sont vraiment, déclare par exemple le mentat Thufir Hawat. C’est la fatalité réservée au mentat. On ne peut pas arrêter d’analyser ses données.»

Au tournant du millénaire, ce rêve de science-fiction semblait sur le point de se réaliser – cette fois-ci, bien sûr, avec l’aide des machines. Les banques, les commerces ou l’administration accumulaient des quantités toujours plus grandes de données sur nos transactions, nos achats, nos comportements en ligne. Pour la première fois, le génome humain était disponible sur support numérique. Les stockages informatiques, puis l’intelligence artificielle, repoussaient les limites du possible. À cette époque pas si lointaine, la littérature spécialisée débordait d’enthousiasme pour cette science du futur «exempte d’hypothèses» (hypothesis-free) ou «agnostique». Biaisée à la racine, la science expérimentale devait être dévissée de son socle grâce à la pure analyse des données. La vision était caricaturale, comme souvent avec les nouvelles approches et technologies. Mais ces élans passionnés n’annonçaient pas moins une révolution.

L’omniprésence des Big Data, des sciences fondamentales à l’ingénierie

Aujourd’hui, les Big Data sont partout. Elles ont bouleversé les sciences et se sont imposées jusque dans les domaines les plus terre à terre. Elles fournissent des modèles prédictifs aux ingénieurs, aux épidémiologistes, aux architectes. Comment ont-elles transformé la démarche scientifique? Ont-elles définitivement enterré les approches traditionnelles?

À la Haute école d’ingénierie et d’architecture de Fribourg – HEIA-FR – HES-SO, Marc Vonlanthen utilise les données massives pour construire des modèles thermiques de bâtiments. «Historiquement, les Big Data désignent une manière d’engranger l’information avec les moyens informatiques apparus au début du XXIe siècle. Mais aujourd’hui, le terme signifie à la fois le stockage des données, leur traitement et l’automatisation des prises de décision. En langage courant, c’est l’équivalent de data sciences.»

Le chercheur modélise la consommation énergétique de quartiers de la ville de Fribourg. En laissant l’algorithme grouper les constructions en clusters, il développe une méthode plus flexible et moins gourmande en ressources de calcul que les modèles traditionnels. Il utilise également l’approche Big Data pour analyser et prévoir la consommation des patinoires, avec ses collègues Jean Hennebert et André Rotzetta. Il croise – ou, plus exactement, il charge – un algorithme de croiser et de corréler des données diverses: puissance des lumières, nombre de spectateurs, météorologie…

Mais cette démarche est loin d’être «hypothesis- free» selon Marc Vonlanthen. Dès le départ, c’est l’humain qui choisit les données. Il suit pour cela son intuition, plus qu’un raisonnement analytique. «Quand vous vous intéressez à la consommation énergétique, vous devez émettre des suppositions sur les données les plus pertinentes. Par exemple, vous n’allez pas apporter grand-chose si vous encombrez votre modèle avec des informations sur la couleur des maillots des joueurs de hockey.» Une fois les données sélectionnées, collectées et mises en forme, l’algorithme lance son travail. Il dégage des corrélations statistiques, des événements récurrents liés à la consommation énergétique du bâtiment. En les projetant vers le futur, le modèle permet d’établir des prédictions.

Pour sa première étude de patinoire, Marc Vonlanthen avait adopté la démarche classique : une modélisation physique, qui reproduisait au plus près les caractéristiques de la construction, comme la structure ou les propriétés des matériaux. «Le gros problème de l’approche traditionnelle est que vous devez refaire tout le travail à chaque bâtiment. Avec les data sciences, on peut concevoir un modèle sans même toucher aux équations de transfert de chaleur. Surtout, on peut l’adapter facilement à un autre bâtiment.» Le chercheur ne fait pas entièrement l’économie des modèles classiques. Ils permettent encore de vérifier ou d’interpréter les résultats. «Mais ils n’ont clairement plus le rôle central qu’ils avaient auparavant.»

Certifier le café avec des satellites

Les Big Data n’ont pas relégué l’intelligence humaine au placard: les étapes cruciales du choix et de la préparation des données sont encore loin d’être automatisées, selon Andres Perez- Uribe. © Guillaume Perret | Lundi13

Pour Andres Perez-Uribe, professeur à la Haute École d’Ingénierie et de Gestion du Canton de Vaud – HEIG-VD – HES-SO, les Big Data se résument surtout à une question de quantité – comme leur nom le suggère: «C’est simple, on parle de données massives quand il y en a trop pour les aborder sans une grosse infrastructure dédiée.» Le chercheur développe notamment un système de certification des plantations de café au Vietnam, basé sur l’analyse automatisée d’images satellites. Pour assurer que les cultures n’ont pas empiété sur les forêts tropicales, le système scrute à toute vitesse des milliers de clichés pris de l’espace.

De plus en plus performante, l’intelligence artificielle apprend à distinguer les surfaces boisées naturelles et les parcelles agricoles. Sur place, des inspecteurs confirment ou infirment les résultats de la machine. Ils contribuent ainsi à l’apprentissage du système, qui devient de plus en plus indépendant. Comme son confrère fribourgeois, Andres Perez-Uribe considère que les Big Data n’ont pas relégué l’intelligence humaine au placard. Les étapes cruciales du choix et de la préparation des données sont encore loin d’être automatisées. «Actuellement, la grande difficulté ne concerne pas la quantité des données, mais leur qualité. Il faut s’assurer qu’elles apportent vraiment de l’information.»

Les Big Data face à la science traditionnelle

Au XVIIIe siècle, le philosophe Emmanuel Kant développait dans sa Critique de la raison pure une théorie qui allait marquer la philosophie des sciences. Il distinguait deux formes de raisonnement. La première s’appelle le jugement analytique: il se limite à relever les propriétés déjà connues d’un objet donné. Par exemple, «il n’y a pas de célibataire marié». Dans la deuxième, le philosophe démarquait une forme de jugement dit synthétique. Ce raisonnement ajoute un élément supplémentaire à notre connaissance, mais nécessite l’appui de l’expérience pour le vérifier – ou l’invalider. Par exemple, «le CO2 est impliqué dans les changements climatiques». «Les jugements synthétiques forment le socle de la démarche scientifique traditionnelle», explique Marc Vonlanthen. Ils impliquent à la fois une intuition, une sorte d’acte créatif (la formulation de l’hypothèse) et une méthode rigoureuse (la vérification par l’expérience).

Les Big Data vont-elles avoir raison du jugement synthétique? Signeront-elles la «fin de la pensée», comme on l’entend parfois? Pour Marc Vonlanthen, la prophétie est erronée – voire dangereuse, si elle sert de prétexte pour remiser au placard les approches traditionnelles. «Les data sciences n’auraient jamais permis d’accoucher de l’évolution, de la relativité générale, de la physique quantique et de toutes les théories passées et futures qui font avancer notre compréhension du monde.» En outre, l’approche Big Data est particulièrement démunie face aux événements rares, note le chercheur: «Elle ne dit pas plus que ce qui est déjà contenu dans les données.» En d’autres termes, les data sciences nécessitent des événements récurrents et comparables, qui lui permettent de dégager des corrélations, des séries – par exemple entre le public d’une patinoire et la consommation d’électricité.

«Ces limites sont évidentes en cosmologie, explique Marc Vonlanthen. S’il faut comprendre certains types rares de trous noirs ou d’explosions de supernovas, on a besoin de l’approche théorique traditionnelle. C’est encore plus vrai pour l’Univers dans son ensemble, parce que nous n’en avons qu’un seul à disposition et aucun point de comparaison.» Andres Perez-Uribe insiste également sur le fait que les Big Data ne dégagent que des corrélations, et non des causalités. Les rapprochements de l’algorithme sont parfois porteurs d’une explication, et parfois fortuits. Seule l’intelligence humaine peut le déterminer.

Il cite en exemple une étude sur un logiciel de reconnaissance d’images, capable de détecter la présence de chevaux. Du moins, c’est ce que croyaient ses développeurs. Pour entraîner l’algorithme, les scientifiques lui soumettaient deux séries de photographies – l’une aléatoire, et l’autre avec une figure d’équidé. Achetés à une banque d’images, les clichés équestres comportaient tous un symbole de copyright. En fait de cheval, c’est ce que l’intelligence artificielle avait appris à distinguer! «Il s’agit d’un cas d’école, explique Andres Perez-Uribe. Je le cite en exemple à mes étudiants.»

Près de vingt ans après l’explosion des Big Data, et trente-trois ans après que le terme eut été utilisé pour la première fois par l’informaticien américain John Mashey, l’approche est mature et enseignée dans presque toutes les filières techniques. Passé l’enthousiasme parfois naïf des premières années, les chercheurs et ingénieurs comprennent désormais la portée, mais aussi les limites des données massives. On aurait tort de les négliger: la science expérimentale est loin d’être enterrée, et les héritiers de Newton, Darwin ou Einstein n’ont pas encore dit leur dernier mot.

Quand les données cessent de nous appartenir

De nombreux experts s’accordent sur un point: la quantité phénoménale de données dans les mains des géants du web fait peser un risque sur les démocraties. Nous avons confié à des acteurs privés le soin de gérer – et d’exploiter – des tranches complètes de notre vie familiale, professionnelle, médicale et sociale. Google ne détient pas seulement d’énormes volumes de données: il maîtrise le cadre et les outils avec lesquels les traiter, qu’il met à la disposition des chercheurs. C’est sur ces outils que se forment les étudiants du monde entier.

Architecte au sein du collectif fabric|ch et professeur à l’ECAL/École cantonale d’art de Lausanne – HES-SO, Christophe Guignard mène une réflexion originale sur le sujet: «Nos données sont délocalisées, stockées dans des fermes de serveurs quelque part aux États-Unis ou ailleurs sur la planète. Avec les designers et chercheurs du projet Inhabiting and Interfacing the Cloud(s), nous proposons de nous réapproprier ces outils et cette infrastructure, à l’échelle locale. Par exemple, nous avons développé du mobilier qui inclut serveurs et stockage informatique, afin de rapatrier chez soi les données personnelles confiées habituellement aux géants américains du web.»

Le designer aimerait contribuer au rétablissement du web des origines, libre et décentralisé. L’équipe de Inhabiting and Interfacing the Cloud(s) a non seulement conçu le hardware, mais aussi développé une partie software pour déployer des réseaux locaux indépendants. «Notre idée un peu provocatrice, c’est d’habiter physiquement avec nos données. Aujourd’hui, on pourrait dire que l’on baigne dedans, que nous alimentons par nos actions et nos données un système global d’information qui nous dépasse. Il s’agit de rétablir un certain équilibre entre nos vies physique et numérique, grâce au design.» L’enjeu est politique – avec des questions de droit à la vie privée ou de processus démocratiques. Mais il est aussi poétique, explique Christophe Guignard: «La poétique, c’est par exemple quand les mots dépassent leur sens premier, parce qu’on les a agencés pour dire quelque chose d’autre. C’est ce que l’on devrait faire avec nos données : construire un environnement qui a du sens.»