Chaque jour, de nouveaux outils basés sur le machine learning font leur apparition, et de plus en plus de personnes se mettent à les utiliser. Ces modèles IA occupent désormais une place importante dans notre écosystème technologique, pour le meilleur et pour le pire… et pourtant, nous avons encore toutes les peines du monde à comprendre comment ils fonctionnent en coulisses. Le PDG d’Anthropic, l’entreprise derrière le LLM Claude, se donne deux ans pour résoudre ce problème générationnel.
Dans un essai publié sur son blog, intitulé “L’urgence de l’interprétabilité”, Dario Amodei commence par rappeler que les modèles IA occupent désormais une place importante à plusieurs niveaux de notre société, pour le meilleur et pour le pire. Cette technologie progresse aujourd’hui à une vitesse remarquable, et les modèles d’aujourd’hui sont capables de réaliser des prouesses qui relevaient encore de la science-fiction il y a tout juste dix ans.
La boîte noire de l’IA
Mais cette montée en puissance spectaculaire a tendance à occulter un facteur qui passe souvent sous les radars du grand public : le problème de l’interprétabilité, communément appelé “boîte noire de l’IA”.
En effet, les réseaux de neurones artificiels sur lesquels reposent ces outils sont des entités formidablement abstraites. On sait qu’on peut fournir des données à un modèle pour l’entraîner, obtenir un résultat à la sortie grâce au processus d’inférence… mais tout ce qui se déroule entre les deux a tendance à être beaucoup trop labyrinthique et nébuleux pour être compréhensible par les humains.

« Lorsqu’un système d’IA générative fait quelque chose, comme résumer un document financier, nous n’avons aucune idée, à un niveau spécifique ou précis, des raisons pour lesquelles il fait les choix qu’il fait – pourquoi il choisit certains mots plutôt que d’autres, ou pourquoi il fait parfois une erreur alors qu’il est généralement précis », résume Amodei.
« Les personnes extérieures au domaine sont souvent surprises et alarmées d’apprendre que nous ne comprenons pas le fonctionnement de nos propres créations », ajoute-t-il. Cet étonnement est parfaitement compréhensible : après tout, c’est la première fois dans l’histoire de notre civilisation qu’une technologie aussi mal comprise occupe une place si importante dans la société.
Des enjeux sociaux, technologiques et commerciaux
Cette situation pose un tas de questions assez inconfortables, notamment sur le thème de la sécurité. C’est particulièrement vrai dans le contexte actuel, où plusieurs acteurs majeurs de l’industrie sont désormais focalisés sur la création d’une intelligence artificielle générale dotée de connaissances et de capacités de raisonnement largement supérieures à celles de n’importe quelle personne en chair et en os.
De nombreux spécialistes, dont Amodei, estiment qu’il serait très imprudent de déployer de tels systèmes avant d’avoir trouvé un moyen de comprendre réellement comment ils fonctionnent. « Nous pourrions avoir des systèmes d’IA équivalents à un pays entier de génies rassemblés dans un data center dès 2026 ou 2027. Je suis très préoccupé par l’idée de déployer de tels systèmes sans une meilleure maîtrise de l’interprétabilité », explique-t-il dans son essai.
Il ajoute aussi que cette dimension sécuritaire n’est pas le seul argument qui devrait pousser les acteurs de l’IA à s’attaquer au problème de la boîte noire. Pour lui, il ne s’agit pas seulement d’une question de sécurité : cette démarche pourrait aussi déboucher sur des avantages commerciaux significatifs. En substance, les premières entités qui parviendront à déchiffrer le fonctionnement de leurs créations seront aussi les mieux placées pour repousser les limites de la technologie — par exemple en supprimant complètement les hallucinations, ces cas où les LLM perdent complètement les pédales et se mettent à débiter des réponses aberrantes ou factuellement erronées.
L’industrie se met au diapason
Pour toutes ces raisons, Amodei explique que la quête de l’interprétabilité devrait désormais être érigée en priorité absolue pour toute l’industrie, et même la communauté scientifique en général. « L’interprétabilité suscite moins d’attention que le déluge constant de publications de modèles, mais elle est sans doute plus importante », estime-t-il. « Les chercheurs en IA des entreprises, des universités ou des organisations à but non lucratif peuvent accélérer l’interprétabilité en travaillant directement sur celle-ci. »
La bonne nouvelle, c’est que certaines entités mènent déjà des travaux très sérieux sur la question. Une part significative des recherches actuelles dans ce domaine a déjà pour objectif de créer ce qu’Amodei décrit comme une “IRM extrêmement précise et exacte, qui révélerait pleinement le fonctionnement interne d’un modèle d’IA”. Quelques progrès très prometteurs ont déjà commencé à émerger, par exemple du côté de DeepMind. Fin 2023, l’entreprise nobélisée pour ses travaux sur la structure des protéines a présenté FunSearch, un modèle basé sur une architecture évolutive qui lui permet de décrire comment il est parvenu à telle ou telle solution.
Anthropic, de son côté, est aussi en train d’investir dans ce processus. En mars dernier, la firme a par exemple publié un corpus de recherche très intéressant sur la “biologie des grands modèles de langage”. Ces travaux ont mis en évidence l’existence d’une poignée de “circuits” qui pourraient permettre de suivre le fil du raisonnement des LLM. En parallèle, elle a aussi investi dans une startup qui travaille spécifiquement sur l’interprétabilité des modèles.
Amodei espère que cette démarche permettra de “détecter de manière fiable la plupart des problèmes de modèle” d’ici 2027, date à laquelle des entreprises comme OpenAI espèrent atteindre le stade de l’intelligence artificielle générale. Il sera donc très intéressant de suivre tous ces travaux sur l’interprétabilité, car il s’agit sans conteste d’un point de friction majeur qui va largement conditionner la trajectoire de cette technologie transformatrice dans les prochaines années. Rendez-vous dans deux ans pour un nouvel état des lieux.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.