Depuis quelques mois et encore davantage ces dernières semaines, on voit émerger un point récurrent dans les déclarations des spécialistes de l’IA : les cadors du secteur commencent à manquer cruellement de données réelles pour entraîner leurs produits, les forçant ainsi à se rabattre sur des données synthétiques créées… par d’autres modèles IA. Cette industrie aborde donc un virage important qu’il va falloir négocier avec beaucoup de précautions.
Pour resituer le contexte, les performances des modèles de machine learning qui fleurissent un peu partout depuis quelques années dépendent entièrement de la quantité et de la qualité des données que les développeurs leur font ingurgiter pendant le processus d’entraînement. Pour produire des modèles comme GPT, les entreprises comme OpenAI doivent donc collecter des quantités absolument énormes de données issues du monde réel.
Le souci, c’est qu’il ne s’agit pas d’une ressource infinie, et qu’il devient de plus en plus difficile de satisfaire l’appétit dévorant de cette industrie. En fait, cette démarche est même en train de se heurter à un mur. Il y a 8 mois déjà, une étude de l’institut Epoch avait prévenu que l’intégralité des textes produits par l’humanité aurait probablement été ingurgitée par des modèles IA entre 2026 et 2032.
Une recrudescence des modèles IA “consanguins”
Depuis, de nombreuses personnalités disposant d’une certaine expertise dans le domaine ont affirmé que c’était déjà le cas aujourd’hui. On peut citer Ilya Suskever, un éminent chercheur en IA qui a notamment officié en tant que directeur scientifique d’OpenAI pendant des années avant de partir fonder sa propre entreprise.
Plus récemment, c’est Elon Musk qui a livré une interprétation similaire lors d’une interview pendant le CES 2025. Même s’il n’est pas chercheur lui-même, il dispose quand même d’un certain recul sur ce sujet en tant que dirigeant d’xAI, et a affirmé que nous avions « pratiquement épuisé la somme cumulative des connaissances humaines ».
Watch Stagwell’s CEO Mark Penn interview Elon Musk at CES! https://t.co/BO3Z7bbHOZ
— Live (@Live) January 9, 2025
Connaissant les enjeux technologiques et économiques, cette tendance met toute l’industrie dans une position délicate. Il faut forcément trouver de nouvelles sources de données. Et puisque celles du monde réel commencent à manquer, il ne reste qu’une seule solution : créer de nouvelles données d’entraînement entièrement synthétiques grâce à d’autres modèles IA !
La plupart des grandes entreprises du secteur, comme OpenAI, Meta, Microsoft ou Anthropic ont déjà largement pivoté vers cette stratégie. D’après les analystes du cabinet Gartner, près de 60 % des données utilisées par les cadors de l’IA en 2024 étaient déjà synthétiques. Et cela ne les a pas empêchés de produire des modèles très performants… pour le moment. Car ce n’est pas un hasard si de nombreux experts pointent cette tendance du doigt : elle implique en effet un risque bien réel qu’elle participe à une dégradation globale de la qualité des modèles.
Le souci, bien illustré par le célèbre adage « garbage in, garbage out » (des déchets à l’entrée, des déchets à la sortie), c’est qu’un modèle IA ne sera toujours que le reflet des données à sa disposition. S’il est construit sur la base d’informations erronées, trompeuses ou biaisées, il aura encore plus tendance à générer des données bancales. Or, les systèmes actuels sont loin d’être parfaits. Par définition, les données synthétiques qu’ils produisent sont moins représentatives du monde réel que celles générées par des humains. En poussant les modèles à digérer des données créées par leurs pairs, on ouvre la voie à un phénomène que l’on peut assimiler à une sorte de consanguinité numérique qui pourrait être assez problématique.
Un changement de trajectoire pour l’industrie
Le vrai souci, c’est que cette dynamique pourrait contribuer à une propagation exponentielle des erreurs et des biais. Sur le long terme, cela pourrait déboucher sur un effet boule de neige susceptible d’empoisonner durablement de très nombreux modèles IA. Une perspective préoccupante, étant donné que cette technologie pèse de plus en plus lourd au niveau économique et que de nombreuses industries commencent à la placer au cœur de leur activité.
Cela signifie-t-il que toute cette industrie est sur le point d’atteindre un point de rupture et d’imploser du jour au lendemain ? Probablement pas. La plupart des experts, dont Sutskever, prêchent pour leur paroisse et semblent convaincus que cela ne réduit en rien le potentiel de l’IA en général. Selon eux, la pénurie de données réelles ne change pas le fait qu’il s’agit d’une technologie transformatrice qui va profondément changer la trajectoire de notre civilisation.
Mais tous s’accordent à dire que cette dynamique va aussi forcer l’industrie à évoluer ; il s’agit d’un vrai tournant qui marque le début d’une nouvelle ère dans la recherche en IA, et va forcer les acteurs à aborder le développement de ces modèles d’une manière différente. Par conséquent, il conviendra de garder un œil sur les solutions que les géants de l’IA vont trouver permettre au processus d’innovation de suivre son cours malgré l’augmentation de cette « consanguinité » numérique, car cette grande transition s’annonce assez fascinante.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.