Passer au contenu

ChatGPT passe le test de Turing… et ça ne veut pas dire grand chose

Des chercheurs ont une nouvelle fois montré les LLM modernes sont extrêmement doués lorsqu’il s’agit d’imiter la façon de communiquer des humains. Mais en ce faisant, ils ont aussi rappelé qu’il ne s’agissait en aucun cas d’un test d’intelligence pure, et qu’il va falloir développer de nouveaux types de tests.

GPT-4.5 et LLaMa-3.1, les grands modèles de langage d’OpenAI et de Meta, ont récemment passé avec succès une version mise à jour du fameux Test de Turing, qui permet de mesurer la capacité d’un modèle à se faire passer pour un humain dans une conversation textuelle… mais gare aux erreurs d’interprétation.

La version originale du test, imaginée par l’illustre Alan Turing en 1950, repose sur des interactions entre un interrogateur humain qui discute simultanément avec deux « témoins » — une machine et un autre humain. Ces deux témoins ont le même objectif : convaincre leur interlocuteur qu’ils sont le véritable humain. Si l’assesseur ne parvient pas à identifier la machine régulièrement (dans plus de 50 % des cas), on peut alors considérer que cette dernière a passé le test.

Dans ces travaux conduits par l’Université de San Diego, aux États-Unis, les chercheurs ont opté pour une version différente du test original. Comme souvent dans ces variantes modernes, les chercheurs ont fourni aux deux modèles des requêtes textuelles (ou prompts) leur indiquant d’adopter une “personnalité”aussi humaine que possible, notamment en employant un langage assez familier et en intégrant ce que les chercheurs appellent des “indices socio-émotionnels” destinés à brouiller les pistes.

Dans leur étude, publiée sur le serveur de prépublication ArXiv, les auteurs ont conclu que les deux modèles avaient passé le test haut la main. LLaMa 3.1 a été jugé plus convaincant que son adversaire humain dans 56 % des cas, tandis que GPT-4.5 a même atteint un score impressionnant de 73 %.

Le test de Turing teste les humains plus que les machines

Sur les réseaux sociaux, de nombreux internautes et créateurs de contenu se sont empressés d’affirmer qu’il s’agissait d’un grand tournant dans l’histoire de cette technologie, et d’un signe clair que nous sommes en train d’entrer dans l’ère de l’intelligence artificielle dite “générale”. Il s’agit pourtant d’une interprétation très sensationnaliste, assez déconnectée des véritables implications de cette étude.

Ce qui est important, c’est que même si les versions modernes du test de Turing sont beaucoup plus solides que l’originale d’un point de vue méthodologique, l’objectif n’a jamais été de comparer les capacités intellectuelles d’un modèle IA et d’un humain. Cela reste un jeu d’imitation dont le seul objectif est de tester la capacité de ces outils à se faire passer pour des humains — une distinction absolument cruciale dans ce contexte. En pratique, il s’agit davantage de tester la crédulité humaine que les capacités ‘intellectuelles’ du modèle.

Ce point devient particulièrement évident lorsqu’on retire ces fameux ‘prompts de personnalisation’ de l’équation. Sans eux, le score de GPT-4.5 a par exemple chuté à 36 %. Cela prouve encore une fois que son succès lors de la première expérience n’est pas un signe d’intelligence à proprement parler. Ces résultats montrent simplement qu’une fois paramétrés correctement, les LLM modernes sont extrêmement compétents lorsqu’il s’agit d’extraire les marqueurs linguistiques de l’identité humaine, et de les distiller efficacement dans une conversation.

Il convient aussi de rappeler que ce n’est pas la première fois qu’un grand modèle de langage parvient ainsi à berner des interlocuteurs en chair et en os de cette manière, loin de là. Le premier exemple documenté (ELIZA, un chatbot rudimentaire conçu par des ingénieurs du MIT), a déjà réussi à duper quelques personnes… dès 1965 !

Il est d’ailleurs intéressant de constater que ce même ELIZA a tout de même obtenu un score de 23 % dans cette nouvelle étude, alors que ses capacités de ‘raisonnement’ sont à des années-lumière de celles des LLM modernes. Selon les auteurs, cela s’explique par le fait que les dialogues générés par ce chatbot préhistorique ne correspondaient pas à l’idée que les humains d’aujourd’hui se font d’un modèle IA. En d’autres termes, cela montre une nouvelle fois que le test de Turing reste surtout une manière d’évaluer les humains, plutôt qu’un véritable benchmark IA.

Tester l’ “intelligence” des modèles IA, un vrai défi technique

Cela nous amène à l’autre implication de cs travaux. Dans leur papier, les auteurs de l’étude insistent sur le fait que l’intelligence est un phénomène « complexe et protéiforme » qu’aucun test unifié, et certainement pas celui de Turing, n’est aujourd’hui capable de quantifier rigoureusement.

Pour déterminer si un LLM atteindra un jour le stade de l’intelligence artificielle générale, avec des capacités de raisonnement supérieures à celles des humains, il faudra donc développer de nouveaux types de tests… et probablement exclure notre espèce l’équation. En effet, il y a peu de chance que nous soyons encore capables de juger objectivement la situation si nous sommes un jour confrontés à de telles IA surhumaines.

Il sera donc très intéressant de suivre les projets des chercheurs qui travaillent sur les benchmarks IA. Dans le contexte actuel, où de nombreux experts estiment qu’une intelligence artificielle générale pourrait émerger d’ici quelques années, ils vont devoir redoubler d’ingéniosité pour trouver des manières de jauger les différents modèles en excluant les biais humains de l’équation, et le processus qui permettra d’y parvenir sera sans doute assez fascinant.

Le texte de l’étude est disponible ici.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

Mode