En ce moment, pour ceux qui s’intéressent aux nouvelles technologies, il est quasiment impossible de passer une journée entière sans avoir des nouvelles de ChatGPT. L’incroyable chatbot dopé au machine learning d’OpenAI n’en finit plus d’impressionner. Cet algorithme capable de proposer un avis sur un grand débat très français, d’aider des étudiants à tricher ou même de participer à la lutte contre la maladie d’Alzheimer affiche déjà un potentiel monstrueux, et ce n’est qu’un début.
Comme son nom l’indique, ChatGPT est basé sur GTP. C’est un modèle de génération de texte qui fait déjà office de référence dans ce domaine depuis quelque temps, bien avant l’arrivée du chatbot. Actuellement, ce modèle en est à la version 3 — ou plus précisément, GPT-3.5 depuis décembre dernier.
C’est en partie grâce aux nouveautés comprises dans cette nouvelle mise à jour que le chatbot affiche des performances à ce point bluffantes. Il n’y a qu’à jeter un coup d’œil aux millions d’exemples qui pullulent déjà sur le Web pour comprendre que l’arrivée de la version 3.5 a représenté une évolution majeure dans le monde de la génération de texte. Mais le plus impressionnant, c’est qu’il ne s’agit que d’un avant-goût de ce qui nous attend. Car GPT va encore passer à la vitesse supérieure avec la sortie de GPT-4.
Un nouveau modèle au potentiel encore plus important
À cette occasion, certains observateurs s’attendent à une explosion du nombre de paramètres. Dans le contexte du machine learning, ce terme désigne des variables internes, pas explicitement définies par les développeurs, dont le modèle doit estimer la valeur à partir des données ingurgitées. Sur le papier, plus le nombre de paramètres est élevé, plus le réseau de neurones artificiels pourra être représentatif des données qui ont servi à l’entraîner.
https://twitter.com/SimonHoiberg/status/1613089457116258306?fbclid=IwAR3ank7YjtObQ2ytkIWbLLBNIr83RNBfBd53FTL9Q4LTpdzfEeXmufclg5Y
Très vulgairement, augmenter le nombre de paramètres à disposition revient plus ou moins à augmenter la « puissance » de l’algorithme, c’est-à-dire sa capacité à produire des résultats cohérents dans des cas de plus en plus complexes. C’est quelque chose qui s’est déjà vérifié jusqu’à présent ; sur ce critère en particulier, GPT a déjà fait des bonds de géants. Il est passé d’environ 1,5 milliard de paramètres avec le rudimentaire GPT-1 à 175 milliards de paramètres avec son impressionnant GPT-3.5.
Certains estiment qu’il faut s’attendre à une nouvelle explosion du nombre de paramètres dans la prochaine version. Dans une interview accordée à Wired, le PDG d’un partenaire d’OpenAI suggérait que GPT-4 pourrait atteindre les 100 000 milliards de paramètres. En d’autres termes, un ChatGPT doté de cette nouvelle version devrait proposer des réponses encore plus fines, nuancées et précises que par le passé.
La question centrale du nombre de paramètres
Mais en l’état, il faut encore être prudent par rapport à ces annonces. Sam Altman, PDG et co-fondateur d’OpenAI, a tenu un discours différent. Selon The Decoder, lors d’une conférence baptisée LessWrong, il a insisté sur le fait qu’il s’agissait d’un objectif à long terme, et absolument pas d’un objectif prioritaire de GPT-4.
De plus, la firme n’a pas forcément intérêt à se focaliser sur le nombre de paramètres. Pour référence, c’est un peu le même problème qu’on trouve dans le monde du hardware. Augmenter la cadence des cœurs d’un processeur permet d’augmenter la puissance de calcul; mais il est aussi possible de se focaliser sur l’amélioration de l’architecture pour progresser à ce niveau. En d’autres termes, il n’y a pas que la taille qui compte !
Pour rester sur l’exemple du CPU, dans la plupart des cas, augmenter la fréquence et le nombre des cœurs implique aussi de faire exploser la quantité d’énergie nécessaire. Et, par extension, les contraintes thermiques, et le coût de l’opération. Par analogie, ce constat vaut aussi pour les réseaux de neurones, même si cela se traduit d’une façon différente. Si l’on augmente le nombre de paramètres d’un modèle, on s’expose à une hausse énorme de la puissance de calcul nécessaire pour faire tourner le modèle. Avec tout ce que cela implique au niveau opérationnel.
Et il y a encore d’autres écueils potentiels, plus spécifiques au machine learning. On peut par exemple citer la problématique du surapprentissage, ou overfitting en anglais. Très sommairement, ce terme désigne une situation où le réseau de neurones avec énormément de paramètres a trop bien travaillé à partir des données qui ont servi à l’entraîner. Dans ce cas, le modèle propose donc des résultats cohérents sur ce matériel en particulier. Mais il rencontre des difficultés à extrapoler ses conclusions pour exploiter de nouvelles données. Plutôt embêtant, sachant que c’est précisément de la finalité de cet entraînement.
En résumé, mieux vaut donc prendre ces fameux 100 000 milliards de paramètres avec des pincettes. Pour y voir plus clair, il faudra attendre que les sorciers d’OpenAI nous livrent une fiche technique complète et une date de sortie officielle.
Des enjeux énormes et des précautions bienvenues
Cette dernière reste d’ailleurs tout aussi mystérieuse que le nombre de paramètres. On constate un écart flagrant entre l’enthousiasme de certains observateurs et la relative frilosité de Sam Altman. Les premiers suggèrent régulièrement que la sortie de GPT-4 n’est plus très loin. Le PDG, en revanche, refuse systématiquement d’annoncer la moindre deadline précise. De plus, il a répété à plusieurs reprises qu’il n’avait aucun scrupule à faire patienter son public très longtemps afin de proposer un produit abouti (voir cet article de The Decoder).
Certes, il y a de quoi être impatient de découvrir cette nouvelle version. Mais cette prudence méthodique affichée par Altman est une excellente chose. Chacun a pu constater l’impact phénoménal que ChatGPT a pu avoir en quelques semaines à peine. On peut donc s’estimer heureux qu’OpenAI prenne son temps pour installer des garde-fous avant de mettre une version encore bien plus puissante à disposition. Car en cas de précipitation, son impact sur la société pourrait être considérable, que ce soit en termes de désinformation, de propriété intellectuelle, d’éducation, dans le monde académique…
Avec ChatGPT, OpenAI a bien conscience d’avoir ouvert une véritable boîte de Pandore de première catégorie. On peut donc se satisfaire du fait que Sam Altman ait la tête sur les épaules. Il reste un grand partisan du principe de précaution, et c’est assez rare pour être souligné dans les entreprises financées par Elon Musk. Espérons qu’il maintiendra sa ligne de conduite face au sulfureux milliardaire friand d’innovation tous azimuts. Cela permettra peut-être à OpenAI de continuer cette grande transition générationnelle sans se prendre les pieds dans le tapis.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Dans la liste non exhaustive des gardes fous, j’espère que Sam ALTMAN introduira celui consistant à reconnaitre un esprit malfaisant puisqu’ils ont déjà commencé à sévir après quelques semaines de sortie GPT3. Sinon la boite de Pandore ne sera qu’un toy à côté de ce qui arrivera à tous les coups.