Nvidia affiche en ce moment des résultats financiers absolument ahurissants, en grande partie grâce à son statut de plaque tournante de l’écosystème IA. Mais de nouveaux acteurs sont en train de s’engouffrer dans la brèche du hardware spécialisé dans le machine learning. Récemment, c’est une jeune startup baptisée Groq qui est entrée dans l’arène avec une nouvelle puce qui pourrait bien devenir la meilleure amie des grands modèles de langage comme GPT.
Ces puces, Groq les appelle des LPU, pour « Language Processing Units » (Unités de traitement de langage en français). Comme leur nom l’indique, il s’agit de matériel spécifiquement taillé pour les LLM, ces grands modèles de langage qui alimentent les chatbots IA comme ChatGPT.
Une alternative prometteuse aux GPU
Leur particularité, c’est qu’elles sont construites sur une architecture radicalement différente de celles des puces généralistes, comme le processeur dont votre ordinateur est équipé. L’entreprise parle même d’un d’un « nouveau type de système d’unités de traitement de bout en bout ».
Aujourd’hui, l’écosystème IA repose quasi exclusivement sur des GPU. Ce matériel est optimisé pour découper de grandes quantités d’informations en plus petits morceaux afin de pouvoir les traiter en parallèle, c’est-à-dire simultanément, dans une multitude de cœurs différents. Ce mode de fonctionnement fait des merveilles dans certains cas, par exemple lorsqu’il s’agit de calculer les couleurs d’un grand nombre de pixels pour repousser les limites de la fidélité graphique. Cette spécialisation dans le parallélisme est aussi essentielle pour les performances de nombreux supercalculateurs de pointe.
Mais Groq estime que cette façon de traiter des données n’est pas la mieux adaptée aux LLM. Car pour traiter ainsi des informations en parallèle, il faut avoir recours à des composants spécialisés dans la répartition et la planification de toutes ces tâches — un maître d’œuvre, en somme. Or, ces composants que l’on retrouve sur tous les GPU modernes font aussi émerger quelques contraintes supplémentaires. Par exemple, il faut conserver une synchronisation parfaite entre tous les cœurs, équilibrer la répartition de la charge de travail pour rentabiliser chaque cycle d’horloge au maximum, et ainsi de suite.
Groq a donc choisi de simplifier l’équation. Elle a spécialisé sa puce dans le traitement séquentiel des informations. Ici, les opérations sur les données sont réalisées les unes après les autres plutôt qu’en parallèle. « L’architecture du LPU s’écarte du modèle SMID (Single Instruction, Multiple Data) utilisé par les GPU et favorise une approche qui élimine la dépendance au hardware de planification complexe. Cela permet d’utiliser chaque cycle d’horloge de façon très efficace et de maintenir une latence stable pendant les opérations », explique Jay Scambler, un expert cité par CDO Trends.
L’autre souci avec les GPU, c’est qu’on ne peut pas en relier autant que l’on veut dans un même système pour augmenter les performances. Le rendement est dégressif ; cela signifie qu’au-delà d’un certain point, ajouter des GPU supplémentaires apporte de moins en moins de puissance au système. Les LPU, en revanche, ne souffrent pas de cette limite; le gain de puissance reste linéaire. En d’autres termes, la puissance du système continue d’augmenter au même rythme au fur et à mesure que l’on ajoute des LPU.
Des performances stupéfiantes
Cette approche produit des résultats assez époustouflants en termes de vitesse. D’après les premiers benchmarks, les chatbots alimentés par les puces de Groq sont capables de générer des résultats complexes en une fraction de seconde, bien au-delà de ce que les leaders du secteur sont en mesure de proposer avec des GPU.
The first public demo using Groq: a lightning-fast AI Answers Engine.
It writes factual, cited answers with hundreds of words in less than a second.
More than 3/4 of the time is spent searching, not generating!
The LLM runs in a fraction of a second.https://t.co/dVUPyh3XGV https://t.co/mNV78XkoVB pic.twitter.com/QaDXixgSzp
— Matt Shumer (@mattshumer_) February 19, 2024
Un benchmark d’Artificial Analysis estime même que ChatGPT pourrait fonctionner 13 fois plus vite s’il tournait sur les LPU de Groq. Une tendance confirmée par nos tests. Nous avons mené un petit comparatif rudimentaire en opposant deux chatbots. D’un côté, nous avons sélectionné ChatGPT en version GPT-4. De l’autre, nous avons utilisé le dernier modèle de Mistral, un des champions français de l’IA générative. Le premier tournait directement sur les serveurs d’OpenAI grâce à des ensembles de GPU Nvidia H100. Le second, hébergé sur les serveurs de Goq et disponible à cette adresse, était alimenté par ces fameux LPU.
Nous leur avons posé la même question, à savoir « Qu’est-ce qu’un ordinateur quantique ? ». Et le moins que l’on puisse dire, c’est que le second n’a fait qu’une bouchée du premier. ChatGPT nous a répondu à une vitesse d’environ 25 tokens par seconde (T/s) ; Mistral dopé aux LPU, de son côté, a généré sa réponse… à plus de 525 T/s ! Un chiffre qui illustre bien le potentiel de ces LPU dans le cadre des chatbots IA.
Le premier vrai rival d’Nvidia dans le hardware IA ?
Quelques experts estiment donc que Groq pourrait commencer à semer la zizanie dans l’industrie de l’IA. Car à l’heure actuelle, tous les cadors du secteur ne jurent que par les GPU H100 d’Nvidia. Ce matériel est extrêmement convoité par OpenAI, Microsoft, Meta et consorts, qui cherchent tous à en acquérir des centaines de milliers.
L’appétit de ces entreprises pour ce hardware spécialisé est tel que le géant vert ne parvient même plus à suivre le rythme en termes de production. Plusieurs de ces entreprises étudient donc d’autres pistes pour s’affranchir de leur dépendance à Nvidia. Récemment, nous avons par exemple appris qu’OpenAI discutait avec des investisseurs à Taïwan et au Moyen-Orient pour commencer à produire ses propres puces IA.
Mais lorsqu’on observe les performances de ces LPU, on peut légitimement commencer à se demander si ces géants de l’IA n’auraient pas intérêt à créer des partenariats avec Groq. Sur le papier, cela ressemble à une alternative extrêmement séduisante, aussi bien au niveau technique qu’économique. On sait par exemple qu’OpenAI cherche à collecter près de 7000 milliards pour la création de ses fameuses puces. Jonathan Ross, le PDG de Groq, affirme dans une interview à VentureBeat qu’il pourrait leur fournir une puissance de calcul équivalente pour… 700 milliards à peine.
Certes, il s’agit probablement d’un pronostic très généreux de la part d’une jeune entreprise qui fait tout pour surfer sur cette soudaine vague de popularité. Mais le potentiel de Groq semble évident, et il est tout à fait possible qu’elle finisse par s’imposer comme un cador du hardware de l’IA. Tout sauf anecdotique, sachant que l’on parle d’une niche dominée de la tête et des épaules par un véritable titan qui semble quasiment indéboulonnable à l’heure actuelle.
Il sera donc très intéressant d’observer la trajectoire de l’entreprise sur les mois à venir. Si elle atteint ses objectifs et que ses LPU répondent aux attentes de ses clients potentiels, nous pourrions bien assister à l’émergence du premier vrai concurrent sérieux à Nvidia — et par extension, à une grande redistribution des cartes dans toute l’industrie de l’IA. Affaire à suivre.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.