Après GPT-4, voici Dolly, une IA gratuite et éthique

ChatGPT n’a pas que des avantages, et certains rêvent de créer un modèle open source capable de remplacer le chatbot dans le quotidien des utilisateurs.

Difficile de penser à autre chose que ChatGPT lorsqu’on évoque les progrès technologiques de ce début d’année 2023. Inconnu du grand public il y a tout juste quelques mois, le chatbot propulsé par le modèle d’intelligence artificielle GPT-4 ne cesse de nous surprendre. Il faut dire que si Open AI n’est pas la seule à s’être lancée dans les LLM (Large Langage Model), la diffusion massive de ChatGPT couplée à ses progrès fulgurants ont rapidement hissé le chatbot au rang de phénomène mondial.

Reste que tout comme Bard, l’IA conversationnelle de Google, ChatGPT résulte d’une initiative privée, avec des codes sources plus ou moins opaques, et des pratiques qui commencent sérieusement à inquiéter les législateurs. En Italie notamment, la plateforme d’Open AI a été bloquée en urgence pour suspicion de non-respect du RGPD. La France pourrait bientôt lui emboîter le pas, après le dépôt de plusieurs plaintes à la CNIL (Commission nationale de l’informatique et des libertés).

Databricks : l’IA en mieux ?

Face à l’hégémonie déjà bien installée de ChatGPT, une autre société américaine du nom de Databricks entend renverser la tendance, en proposant une IA open source, gratuite, et surtout totalement transparente. Ce 12 avril dernier, l’entreprise a publié Dolly 2.0, son propre LLM destiné à concurrencer GPT-4.

Sur le papier, GPT-4 n’a pas vraiment de souci à se faire. La seconde version de Dolly se base sur 12 milliards de paramètres, ce qui est bien peu face à GPT, qui intégrait déjà 175 milliards de paramètres dans sa version 3.5. De son côté, la quatrième et dernière itération du modèle de langage d’Open AI piocherait dans 100 000 milliards de paramètres pour fonctionner correctement. Reste que plusieurs tests réalisés ces derniers mois tendent à prouver que le nombre de paramètres n’est pas forcément un facteur linéaire pour calculer la performance d’une IA.

De son côté, Databricks explique aussi que le mode d’entrainement de Dolly n’a pas été le même que celui suivi par ChatGPT. Ainsi dans un communiqué, on apprend que l’ensemble des données aurait été obtenu “par crowdsourcing parmi les employés“. Le code source de Dolly 2.0 est en effet accessible de manière totalement libre et gratuite, ce qui par extension, induit que n’importe quel particulier ou entreprise peut utiliser le LLM de Databricks, le personnaliser, et le partager à des tiers.

L’éthique en ligne de mire

En entrainant Dolly 2.0 avec des données extérieures à GPT-4, Databricks explique vouloir mettre au point un nouveau modèle d’IA, plus respectueux d’un bout à l’autre de la chaîne. Rappelons qu’il y a quelques mois, une enquête du New York Times révélait qu’Open AI avait exploité des travailleurs kenyans sous-payés pour entrainer GPT. Plus récemment, des failles de sécurité avaient compromis les historiques et les données bancaires de certains utilisateurs de ChatGPT.

Reste qu’il faudra sans doute patienter encore un peu pour savoir comment évoluera Dolly. Il n’est pas exclu que Databricks ne décide finalement de suivre le même chemin qu’Open AI en privatisant ses algorithmes à l’avenir. L’annonce d’une IA open source sonne toutefois comme la promesse d’une nouvelle ère, qui permettrait de rendre l’intelligence artificielle accessible à tous.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.