Cette IA nauséabonde entraînée sur 4chan condense le pire de l'Internet

Cette IA nauséabonde entraînée sur 4chan condense le pire de l’Internet

Une expérience en apparence innocente a permis à un bot nauséabond d’écumer les bas-fonds du Web, ce qui soulève de nombreuses questions.

Si vous faites partie des vétérans du web qui connaissent ses espaces les plus insalubres sur le bout des doigts, vous connaissez forcément 4chan et son tristement célèbre canal /pol/, pour “Politiquement Incorrect”. Il s’agit d’ une véritable cour des Miracles numérique qui condense une quantité faramineuse de contenu que l’on qualifiera poliment de subversif.

Récemment, le YouTubeur et sorcier de l’IA Yannick Kilcher a ouvert la boîte de Pandore en se posant une question assez terrifiante : que se passerait-il si une IA était entraînée exclusivement à partir des posts du canal /pol/, qui oscillent à loisir entre l’humour (très) noir et toutes les formes d’abus possibles et imaginables ?

Kilcher a donc moissonné des centaines de milliers de posts dans les tréfonds de ce canal tristement célèbre. Toute cette fange numérique a ensuite servi à nourrir un système basé sur GPT-J, une plateforme IA qui permet de générer du texte un peu comme le célèbre GPT-3 d’OpenAI. Et le résultat s’est avéré aussi affligeant qu’on pouvait s’y attendre.

“Le modèle était bon – au pire sens du terme”, explique Kilcher. “Il synthétisait parfaitement le mélange d’offenses, de nihilisme, de trolls et de suspicion qui se dégage de la plupart des posts sur /pol/. Il pouvait répondre en fonction du contexte et parler de façon cohérente de choses qui se sont déroulées bien après la dernière collecte de données”, précise-t-il dans sa vidéo. (attention : cette vidéo présente certains des messages choquants produits par l’IA. Elle n’est donc pas adaptée à tous les publics.)

À partir de ce résultat, Kilcher a soumis son GPT-4chan au Language Model Evaluation harness, un benchmark qui permet d’évaluer les performances de ces systèmes de génération de texte. Et là encore, le résultat s’est avéré étonnamment bon, notamment dans une catégorie en particulier baptisée “truthfulness”.

Littéralement, ce terme signifie “véracité”. Mais dans ce contexte, il désigne plutôt la capacité du système à produire des réponses cohérentes et précises à partir des données qui ont servi à l’entraîner. En résumé, le score élevé de GPT-4Chan sur ce critère signifie qu’il compose des messages très représentatifs de l’utilisateur moyen du canal /pol/.

GPT-4chan s’en est donné à cœur joie sur le canal /pol/. © Andrea De Santis – Unsplash (image modifiée) / 4chan

Une IA nauséabonde laissée en roule libre

Mais l’histoire ne s’arrête pas là. Il se trouve que GPT-J, le modèle original qui a servi de base à celui de Kilcher, est particulièrement performant dans un cas de figure en particulier : il est rudement doué pour servir d’interlocuteur dans un chatbot, ces programmes souvent rudimentaires de discussion automatisée que l’on trouve aujourd’hui un peu partout.

Kilcher s’est donc décidé à relâcher sa monstruosité dans la nature en lui laissant les clés d’un compte 4chan spécialement créé pour l’occasion. Après quelques milliers de post, les utilisateurs ont fini par démasquer le bot. Mais ils n’avaient en flairé qu’une partie de la supercherie, puisque l’auteur avait en fait mis non pas une, mais dix versions du bot en circulation !

D’après TheNextWeb, l’auteur a fini par mettre ses bots à la retraite après 48 heures passées à alimenter la fosse septique du web. Et même si sa création en elle-même était une vraie usine à détritus, il tire tout de même un bilan positif de l’expérience. “Les gens parlent encore de ce compte aujourd’hui, mais aussi d’autres sujets comme les conséquences d’avoir une IA qui interagit avec des gens sur un site”, explique-t-il.

Un wagon de questions éthiques

It self-evidently contributed to 4chan's echo chamber, amplifying and solidifying their opinions. It's not impossible that gpt-4chan pushed somebody over the edge in their worldview. Whether a specially tuned LM can do it more efficiently than a regexp is a weird defense to make.

— Roman Ring (@Inoryy) June 6, 2022

Il faut admettre que ces travaux soulèvent tout un tas de questions extrêmement inconfortables sur le côté obscur d’une technologie non seulement très performante, mais surtout déjà en circulation.

Roman Ring, un ingénieur chez DeepMind, a par exemple livré une analyse très critique de cette expérience. Pour lui, GPT-4chan a “contribué à la chambre d’écho de 4chan”, ce qui a “solidifié et amplifié” tout un tas de discours parfois malsains. “Ce n’est pas impossible que GPT-4chan ait fait passer un cap à certains utilisateurs dans leur vision du monde”, s’inquiète-t-il.

Dans un tweet repéré par TheNextWeb, la chercheuse en IA Lauren Oakden-Rayner a adopté le même positionnement. Elle a aussi expliqué que si elle avait été réalisée dans le cadre d’un processus académique normal, une telle expérience n’aurait probablement pas passé le cap du comité d’éthique.

“Imaginez à quoi ressemblerait la demande”, propose-t-elle. “Le plan : voir ce qui se passe si un bot basé sur l’IA produit 30.000 messages discriminatoires sur un forum public avec de nombreux utilisateurs mineurs. Nous n’informerons pas les participants et ne demanderons pas leur consentement !”

Cette expérience est une excellente démonstration du concept de “garbage in, garbage out”. © Jilbert Ebrahimi – Unsplash

L’exemple type du “garbage in, garbage out“

Une tirade qui résume bien la première partie du problème, à savoir la recherche débridée en IA. Ce n’est pas un hasard si tous les grands noms de cette industrie, comme DeepMind ou OpenAI, disposent tous d’une charte d’éthique plus épaisse que l’intégrale d’une encyclopédie reliée. De nombreuses personnalités, dont Elon Musk, ont aussi affirmé qu’il était fondamental de réglementer strictement la recherche en IA pour éviter une perte de contrôle lourde de conséquences.

Au passage, il s’agit aussi de l’illustration la plus parfaite qui soit du slogan préféré des chercheurs en IA : “garbage in, garbage out” (des déchets à l’entrée, des déchets à la sortie). En effet, une IA ne sera toujours que le reflet des données à sa disposition. Si elle est construite sur la base d’informations fausses, trompeuses ou biaisées, elle produira des données de ce type en retour.

intelligence artificielle sexe robots — © Xu Haiwei – Unsplash

De grands changements nous attendent au tournant

GTP-chan est un exemple extrême; mais il permet de mettre en évidence cette dynamique qui existe discrètement, de façon plus ou moins marquée, dans tous les systèmes basés sur le machine learning.

Heureusement que les intentions de Kilcher n’étaient pas fondamentalement mauvaises. Car un outil de ce type pourrait parfaitement être utilisé à des fins encore plus problématiques. On pense par exemple à la guerre en Ukraine qui fait également rage dans le cyberespace, et notamment sur les réseaux sociaux… des plateformes où ces bots disposent d’une force de frappe considérable. On peut également trouver un lien avec les récents propos d’Elon Musk, dont le rachat de Twitter est compromis par la prévalence des bots sur la plateforme (voir notre article).

Et c’est bien là le principal intérêt de cette expérience discutable. Elle a eu le mérite de jeter un pavé dans la marre; cela rappelle à tout le monde que les acteurs non humains disposent aujourd’hui d’un pouvoir d’influence considérable qu’ils peuvent exercer de façon extrêmement discrète, sans la moindre intervention humaine. Espérons donc que les humains, et en particulier les entreprises qui appliquent ces systèmes à la vie de tous les jours, seront suffisamment humbles pour prendre toutes les précautions nécessaires et tenir compte des limites de cette technologie à double tranchant.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

2 commentaires

casperfr dit :

10 juin 2022 à 20:13

cette expérience est déplorable de réalisme !!!
les comité d’éthique s’interroge sur l’apprentissage de l’IA ! ce qui est un non sens !!!!!!!
quand des enfants vont a l’école et apprenne des insanités par leur professeur ! on s’interroge sur l’enfant alors que c’est le professeur qu’il faudrait mettre en cause !!!! malheureusement les enfant fond une confiance aveugle dans ce qu’il considère comme l’autorité !!!!!! (enfin jusqu’à un certain age)
si on prend la scolarité en Russie ! l’état ayant réécrit l’histoire ! comment sortir d’une censure si on essai pas de voir autrement qu’avec une seul source
l’apprentissage de l’IA ce fais sur la dégueulasserie de /4chan/pol/ mais que je sache pour que cette IA apprenne, il a bien fallut que des utilisateurs lui sorte ces insanité, on reproche a l’IA d’en avoir pris exemple mais c’est plutôt a ces utilisateurs de prendre la responsabilité de leur connerie
pourquoi devrait ont appliqué des garde fou aux IA et pas aux utilisateurs indécent ?
et puis si une IA a des propos encouragent pour des idées néfastes c’est aussi parce que des personnes influençable sont là pour les écoutés et croire aveuglément ce qui va dans leur sens !!
je penses qu’il devrait être créé une matière scolaire a par entière : “esprits critique” et savoir se renseigné et faire la part des choses

Répondre
Jacques Bolo dit :

11 juin 2022 à 12:53

On peut effectivement déjà considérer toutes les interventions humaines comme ayant été produite par des bots qui auraient été entraînés par l’histoire personnelle de l’individu (puisque c’est après tout bien le but de l’#IA)

Répondre

Les commentaires sont fermés.