Passer au contenu

Microsoft dévoile un modèle IA radicalement différent… et étonnamment performant

Le nouveau LLM à “1 bit” de l’entreprise est si léger et efficace qu’il peut tourner sur un CPU au lieu de s’appuyer sur de nombreux GPU.

Des chercheurs de Microsoft affirment avoir le grand modèle de langage (LLM) à 1 bit, ou « bitnet », le plus puissant à ce jour. Appelé BitNet b1.58 2B4T, il est si efficient qu’il peut apparemment tourner sur un CPU.

Tous les modèles IA sont construits autour d’un ensemble de poids et de biais, des valeurs numériques qui définissent l’importance des liens entre les différents neurones virtuels qui composent le réseau. Ces valeurs sont stockées dans des nombres à virgule flottante (ou floats dans le jargon de la programmation) dont le nombre de décimales, et donc la précision, dépend du nombre de bits qui lui sont attribués. Un poids encodé dans un float à 16 bits, par exemple, sera nettement plus précis qu’un poids à 8 bits.

Cela peut faire une différence considérable dans le processus d’inférence — les opérations à travers lesquelles un modèle IA déjà entraîné réalise des prédictions à partir de nouvelles données. Plus les valeurs des poids sont précises, plus le modèle peut théoriquement arriver à des conclusions cohérentes et qualitatives. Mais il y a un revers de la médaille : plus ces paramètres sont précis, plus la puissance de calcul et la quantité de mémoire nécessaires pour les traiter augmentent.

Cela pousse les développeurs à faire un choix tranché : faut-il privilégier les performances brutes ou l’efficacité ? Les LLM de pointe, comme GPT, optent traditionnellement pour des paramètres à 16 ou 32 bits, et donnent donc la priorité aux performances aux dépens des ressources nécessaires. Mais il existe aussi une autre catégorie de modèles, appelés bitnets, où le nombre de bits attribués à chaque paramètre est réduit au strict minimum pour privilégier l’efficacité. En substance, il s’agit de LLM compressés où chaque poids est encodé dans un seul bit – et même un petit peu plus en réalité (voir plus bas). Au lieu de travailler avec des valeurs nuancées, comme 1,0494098344, ces modèles se contentent seulement de trois valeurs de poids possibles : -1, 0, et 1.

Traditionnellement, les cadors de l’IA ont souvent ignoré ces bitnets, jugés trop peu performants par rapport aux standards d’industrie. Mais Microsoft affirme désormais avoir changé la donne avec son BitNet b1.58 2B4T, qui comporte environ 2 milliards de paramètres à “1,58 bit”, comme son nom l’indique.

Si cette phrase vous a fait tiquer, c’est tout à fait normal : les fractions de bits n’existent pas. En pratique, un seul bit ne peut  stocker que deux valeurs (0 et 1), et pour y enregistrer une troisième valeur (-1), il faut utiliser un petit tour de passe-passe algorithmique appelé quantification ternaire (voir cet article de recherche). C’est une technique d’encodage qui permet de compresser l’ensemble des pondérations. A l’échelle du modèle entier, chaque valeur de poids occupe donc un peu plus d’un bit en moyenne – 1,58, en l’occurrence.

Enfin un bitnet performant

Il semble offrir des performances tout à fait respectables, et même très impressionnantes lorsqu’on considère les limites inhérentes à ce type de modèle. Certes, il est très loin de rivaliser avec le GPT d’OpenAI, dont la dernière version utilise environ 1750 milliards de paramètres à 16 bits. Mais les chercheurs de Microsoft affirment qu’il surpasse notamment Llama 3.2 1B de Meta, Gemma 3 1B de Google, et Qwen 2.5 1.5B d’Alibaba sur plusieurs benchmarks communs.

Et ses avantages ne se limitent pas aux performances brutes. Il est aussi plus rapide que tous les autres modèles de même taille, et nécessite une quantité de mémoire largement moins importante. En fait, il est si efficace qu’il peut même tourner sur un seul CPU. Cela peut sembler anodin, mais c’est une différence énorme par rapport à GPT et consorts, qui exploitent de très nombreux GPU pour réaliser une ribambelle d’opérations en parallèle.

Un produit pas encore mature, mais prometteur

Il y a toutefois un bémol : la compatibilité. Sur la page HuggingFace où le modèle est mis à disposition, Microsoft insiste sur le fait qu’il faut disposer de matériel spécialisé et hautement optimisé pour exploiter les performances de ce bitnet. En d’autres termes, il reste de nombreux obstacles à la démocratisation de ces LLM compressés.

Mais il s’agit tout de même d’un progrès substantiel, et il sera intéressant de voir jusqu’où les entreprises seront capables de pousser les performances de ces petits modèles à l’avenir.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

Mode