Le 11 mars dernier, Elon Musk a annoncé que son entreprise xAI allait publier Grok, son irrévérencieux chatbot dopé à l’IA, au format open source. Jusqu’à présent, il était accessible uniquement sur le réseau social X (ex-Twitter), via l’abonnement X Premium+ à 16 € par mois. Aujourd’hui, Musk a honoré sa promesse : le code de base est désormais disponible sur la plateforme GitHub.
L’ensemble a été publié sous licence Apache 2.0. Cela signifie que les entreprises et les développeurs sont autorisés à l’exploiter de n’importe quelle manière, y compris à des fins commerciales. Une bonne nouvelle pour ceux qui disposent des compétences nécessaires, car il s’agit d’un modèle assez avancé, comme en témoigne son nombre de paramètres plutôt impressionnant.
Un LLM innovant
Dans le domaine du machine learning, le terme de « paramètre » désigne l’ensemble des poids et des biais, des valeurs numériques qui définissent l’importance des liens entre les différents neurones virtuels qui composent le réseau. Il s’agit d’un critère très important pour estimer les performances d’un modèle IA — et Grok n’a pas à rougir à ce niveau.
Avec 314 milliards de paramètres, il est loin des références actuelles, comme GPT-4 qui affiche plus de 1750 milliards de paramètres. En revanche, il affiche une avance substantielle sur les autres grands modèles open source actuels, comme LLaMa 2 de Meta (70 milliards de paramètres). Mais comme dans d’autres domaines, la taille ne fait pas tout ; le nombre de paramètres ne suffit pas à déterminer les performances. Ces dernières dépendent aussi fortement de l’architecture du modèle. Or, xAI explique que son bébé implémente une approche innovante et assez unique, du moins pour le moment.
Ces grands modèles de langage (LLM) sont des algorithmes prédictifs dont l’objectif est d’interpréter et de générer du texte sous forme de tokens — des chaînes de caractères de tailles variables qui représentent des mots, des bouts de mots ou des concepts. En général, l’ensemble des neurones et des paramètres sont mis à contribution pour générer la suite de la séquence. Grok, en revanche, ne consacre que 25 % de ses paramètres à la production de chaque token. D’après l’entreprise, cette stratégie permet d’augmenter considérablement les performances du modèle.
Grok utilise aussi d’autres concepts d’architecture originaux, et les experts semblent assez enthousiastes à ce sujet. Plusieurs pointures de l’IA, comme Boris Dayma, ont déjà fait part de leur intérêt par rapport aux innovations apportées par Grok.
Few comments on Grok-1 code release in JAX!https://t.co/FpDCrCgz3l
Looking quickly:
– model nicely written
– partition rules for sharding follow the old style of t5x
– they used haiku but it wouldn't be too hard to update to flax
– they use shard_map on the MoE layers for…— Boris Dayma 🖍️ (@borisdayma) March 17, 2024
Pas de données d’entraînement
Si tant d’utilisateurs attendaient la publication avec impatience, ce n’est pas seulement pour l’exploiter directement. En effet, de nombreux spécialistes étaient simplement curieux de savoir sur quelles données xAI s’était appuyé pour entraîner son modèle. Malheureusement, ces derniers vont être déçus, car le repository GitHub ne contient qu’une infime partie des données d’entraînement. Cela ne change rien à l’usage, mais cela signifie qu’il est impossible de déterminer précisément où l’entreprise est allée piocher ses données. Plusieurs experts rejettent donc le terme d’ » open source », et préfèrent parler d’un modèle « open weights ».
It is still an open-weights (not open source) model
— Thomas Capelle (@capetorch) March 17, 2024
Auparavant, certains observateurs ont suggéré que Grok pourrait avoir été entraîné à partir des posts des utilisateurs sur X. Or, sans ces données d’entraînement, il n’y a aucun moyen de le vérifier. C’est une information qui serait pourtant intéressante, car cela pourrait expliquer en partie la “personnalité” irrévérencieuse qui fait partie des arguments principaux du chatbot. En effet, Grok est présenté comme un modèle débridé, contrairement aux leaders du marché, comme ChatGPT ou Gemini de Google qui veillent à rester politiquement corrects pour éviter d’endommager leurs images de marque.
Un pied de nez aux modèles fermés
Mais cela ne signifie pas qu’Elon Musk n’a que faire de son image, bien au contraire. Car au-delà des considérations purement techniques, la publication de Grok peut aussi être interprétée comme une décision stratégique, et même idéologique et politique.
Pour rappel, l’annonce est arrivée peu après que le milliardaire ait intenté un procès à OpenAI. Il reproche à l’entreprise, qu’il a participé à fonder et à financer avant de la quitter suite à des dissensions internes, d’avoir « trahi » son accord fondateur en renonçant à son modèle open source et en s’alliant à Microsoft.
Dans ce contexte, la publication très médiatisée de Grok peut être interprétée comme une forme d’activisme. En mettant un modèle performant à disposition, il espère certainement imposer une pression de sélection au reste de l’industrie. Car plus le public aura accès à des modèles open source gratuits et performants, plus les entreprises qui produisent des modèles commerciaux fermés seront attendues au tournant. Elles devront prouver la supériorité de leurs produits pour justifier leurs tarifs, et le moindre écart en termes de confidentialité et de propriété intellectuelle risque d’être jugé plus sévèrement. Reste à voir si cette démarche va fonctionner.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.