D’après un article de The Information relayé par le Business Insider, Google vient de repousser discrètement le déploiement de Gemini, son modèle IA multimodal de nouvelle génération. Il faudra attendre l’année prochaine pour découvrir cet algorithme présenté comme un véritable tournant générationnel.
Le récent imbroglio autour du limogeage de Sam Altman ne semble pas avoir affaibli OpenAI. Après le retour triomphant du PDG, l’entreprise continue de faire la pluie et le beau temps dans le domaine de l’IA grand public, notamment avec son incontournable ChatGPT.
Le grand public commence à peine à s’habituer à la présence de cette entité qui transforme le monde numérique. Mais en coulisses, la prochaine étape de la révolution de l’IA est déjà en train de se préparer. Tous les spécialistes semblent unanimes : l’avenir n’appartient plus aux modèles de langage exclusifs, mais aux modèles multimodaux.
Qu’est-ce qu’une IA multimodale ?
Il s’agit de systèmes qui sont capables de comprendre et de produire non seulement du texte, mais aussi d’autres supports multimédias comme des images ou de l’audio. Une fois matures, ces modèles multimodaux offriront un tas de nouvelles possibilités : concevoir un faire-part à partir d’une description à haute voix, produire un site web fonctionnel sur la base d’un schéma, générer une recette grâce à une photo de votre frigo, résoudre un problème de maths en fournissant une capture d’écran de l’énoncé…
Tous les grands acteurs de l’IA poursuivent actuellement cet objectif, à commencer par OpenAI. Par exemple, à la fin du mois de septembre, l’entreprise a commencé à déployer de nouvelles fonctionnalités censées permettre à son chatbot de « voir, d’entendre et de parler ».
L’offensive de Google reportée
Mais la concurrence ne veut pas se laisser distancer. Cela concerne notamment Google. Lors de sa conférence I/O en mai 2023, le titan du numérique a dévoilé Gemini, un projet de modèle multimodal présenté comme révolutionnaire. Il était censé être déployé à la fin de cette année ; les analystes s’attendaient donc à ce que la période des fêtes soit marquée par un âpre combat entre ChatGPT et ce nouveau prétendant au trône.
Mais selon les sources de The Information, ce duel au sommet a finalement été reporté à l’année prochaine à cause de quelques difficultés techniques. Gemini aurait encore du mal à interpréter correctement les requêtes formulées dans les autres langues. Ces lacunes auraient convaincu les pilotes du projet de repousser le déploiement afin de pouvoir arrondir les angles.
Une stratégie parfaitement compréhensible de la part de la firme de Redmond. Jusqu’à présent, la plupart des modèles d’IA générative (y compris ChatGPT) ont suscité de vives polémiques à la sortie. Une erreur que Google a tout intérêt à éviter, sachant que le succès de ces produits est intimement lié à leur image. Si Gemini évite de se prendre les pieds dans le tapis dans les premières semaines, il sera plus à même de tenir la dragée haute au produit d’OpenAI.
Que peut-on attendre de Gemini ?
À l’heure actuelle, il est encore impossible de savoir exactement ce que Google nous réserve avec Gemini. La firme est restée relativement discrète pour le moment. Il faudra donc attendre de pouvoir manipuler le modèle pour se faire une idée.
Mais ce qui est sûr, c’est que les sources proches du dossier ne tarissent pas d’éloges à son sujet. Par exemple, en août, des chercheurs également cités par le Business Insider ont affirmé que Gemini était nettement plus performant que GPT-4 sur la génération de texte. Même Demis Hassabis, le très estimé PDG de Google DeepMind, suggère qu’il représente une menace sérieuse pour le chatbot d’OpenAI. Une revendication pour le moins intrigante, sachant qu’aucun LLM n’a réussi à lui tenir la dragée haute jusqu’à présent.
Mais surtout, Gemini serait déjà particulièrement avancé sur ces fameuses fonctionnalités multimodales. « J’ai vu des choses assez bluffantes », a expliqué une haute dignitaire de Google au Business Insider. « Par exemple, quand j’essaie de faire un gâteau, je peux lui demander de me dessiner des images qui décrivent les étapes du glaçage d’un gâteau à trois étages. Et ce sont des images entièrement nouvelles, pas issues de l’Internet ».
La force de frappe de Google suffira-t-elle à détrôner ChatGPT ?
Ces performances, Gemini les devrait en grande partie à la force de frappe financière de Google. Avec une valeur totale estimée à plus de 1500 milliards de dollars, Alphabet (la maison-mère de Google) a accès à une puissance de calcul nettement plus importante que tous ses concurrents directs.
C’est effectivement un paramètre très important, puisqu’il conditionne directement la vitesse d’entraînement de ces énormes modèles IA. Mais les performances de ces programmes ne dépendent pas uniquement de la puissance de calcul brute. Il faut aussi tenir compte de l’architecture du modèle, de la qualité et de la quantité de données à disposition, et d’un tas de tours de passe-passe algorithmiques qui nécessitent une grande expertise. Or, jusqu’à preuve du contraire, OpenAI dispose encore d’une avance significative sur ce terrain.
Il serait donc très présomptueux d’enterrer ChatGPT dès à présent. Mais quoi qu’il en soit, il conviendra de suivre attentivement la trajectoire de Gemini ; s’il est aussi performant que ce que suggère Google, la course à l’IA pourrait véritablement s’emballer, avec tout ce que cela implique pour notre écosystème numérique.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.