Ironie, quand tu nous tiens : OpenAI accuse DeepSeek d'avoir copié ChatGPT

DeepSeek, l’entreprise chinoise qui met l’industrie américaine de l’IA à feu et à sang depuis quelques jours, se retrouve désormais au centre d’une polémique pas dénuée d’ironie : elle est accusée par l’entreprise de Sam Altman d’avoir pillé son modèle IA… qui lui-même été entraîné grâce à des quantités massives de données plagiées aux quatre coins du web sans autorisation.

Pour resituer le contexte, l’arrivée du modèle de DeepSeek a fait l’effet d’une bombe dans l’industrie américaine. Il est en effet capable de rivaliser avec le célèbre ChatGPT alors qu’il a été développé pour une somme dérisoire en comparaison et qu’il est proposé au format open source, contrairement au modèle d’OpenAI qui est verrouillé à double tour. De nombreux analystes y ont donc vu un signe que l’approche actuelle de l’industrie était en train de devenir obsolète, à tel point que la cote des géants du secteur à Wall Street a dégringolé de manière absolument spectaculaire.

DeepSeek accusé de “distillation“

Dans une interview au Financial Times, OpenAI a toutefois apporté sa propre explication au succès phénoménal de DeepSeek : s’il est si performant, c’est apparemment parce qu’il est directement dérivé de son propre produit ChatGPT.

Plus spécifiquement, l’état-major de l’entreprise avoir trouvé des preuves de distillation. Il s’agit d’une technique qui consiste à transférer des données d’un modèle lourd et complexe, dont l’entraînement a nécessité énormément de travail, à un autre modèle plus petit. L’idée, c’est de conserver une grande partie des performances du modèle original dans cette nouvelle mouture pour arriver à un modèle très efficace, massivement optimisé en termes de performances.

C’est une approche couramment utilisée par les développeurs, qui s’en servent pour créer des variantes plus légères rapides et économiques de leurs modèles les plus performants. Or, le fait de distiller le modèle d’un concurrent peut être considéré comme du vol de technologie, d’où le fait que ce soit spécifiquement proscrit par les conditions d’utilisation de ChatGPT. En substance, OpenAI accuse donc l’entreprise chinoise d’avoir volé le fruit de plusieurs années de travail acharné pour entraîner son modèle à moindres frais.

Faites ce que je dis, pas ce que je fais

Si ces allégations sont fondées, la frustration de Sam Altman et de ses collègues est compréhensible — et pourtant, les réactions à cette annonce ont globalement été plus moqueuses que compatissantes. En effet, OpenAI est loin d’être une victime innocente dans ce dossier. Cela fait plusieurs années que l’entreprise est très régulièrement accusée d’avoir entraîné ses modèles à succès en pillant sauvagement des quantités astronomiques de données protégées par le droit d’auteur et la propriété intellectuelle aux quatre coins du Web. Une façon de procéder qui lui a déjà valu de nombreux procès.

Le New York Times attaque ChatGPT et Copilot pour “violation du droit d’auteur”

Le PDG a même justifié ces pratiques de manière assez maladroite. Il a souvent invoqué le fair use et l’intérêt public — un argument difficilement recevable dans ce contexte puisque ChatGPT est un produit commercial dont la recette de cuisine est un secret bien gardé. En outre, il a aussi expliqué qu’il était désormais « impossible » pour son entreprise de travailler sans exploiter des données sous copyright — une sortie qui a largement été interprétée comme un aveu à demi mots.

ChatGPT peut-il progresser sans enfreindre le droit d’auteur ? OpenAI dit non

Pour résumer, OpenAI accuse donc son homologue chinois d’avoir exploité son travail sans autorisation, alors qu’elle a elle-même construit une grande partie de son modèle commercial sur le pillage de données. Ironie, quand tu nous tiens…

Pour l’heure, il est toutefois impossible pour le grand public de déterminer rigoureusement si DeepSeek a effectivement distillé ChatGPT, car OpenAI n’a pas publié de détails techniques sur les preuves qu’elle affirme avoir trouvé. Mais pour le géant américain, c’est une belle opportunité de mettre des bâtons dans les cours à son nouveau concurrent qui représente une menace existentielle pour son modèle économique, puisqu’il s’agit d’un produit open source qui peut être décortiqué et réutilisé par n’importe qui.

OpenAI joue la carte de la souveraineté

« Nous savons que les entreprises basées en Chine — et d’autres — tentent constamment de distiller les modèles des principales sociétés américaines d’IA », a déclaré OpenAI dans les colonnes de Bloomberg. « En tant que leader de l’industrie de l’IA, nous nous engageons dans des contre-mesures pour protéger notre propriété intellectuelle, y compris un processus minutieux pour déterminer quelles capacités de pointe doivent être incluses dans les modèles publiés, et nous pensons qu’à mesure que nous progressons, il est d’une importance cruciale que nous travaillions en étroite collaboration avec le gouvernement pour protéger au mieux les modèles les plus performants contre les efforts des adversaires et des concurrents pour s’emparer de la technologie américaine. »

Cette façon de se poser en victime risque fort de faire froncer quelques sourcils chez les observateurs. Parler de propriété intellectuelle dans ce contexte est tout de même osé, car si personne ne renie le travail immense abattu par les ingénieurs d’OpenAI, il convient de rappeler que l’entreprise n’aurait jamais pu atteindre de tels résultats sans exploiter le travail d’autres personnes — souvent sans rémunération.

Mais ces arguments patriotiques, basés sur la souveraineté technologique des États-Unis, vont sans doute toucher la corde sensible des régulateurs. Il est de notoriété publique que la Chine et les États-Unis entretiennent une grande rivalité politique, économique et technologique qui risque fort de s’accentuer avec le retour au pouvoir de Donald Trump. Dans ce contexte, il est tout à fait possible que les régulateurs américains décident de bannir purement et simplement DeepSeek, comme elle l’a été pour la première fois en Italie.

Tout juste lancé, DeepSeek est déjà interdit en Europe

Mais le cas échéant, cela ne suffira peut-être pas à protéger OpenAI des retombées de cette affaire, car la bombe de l’entreprise chinoise a déjà explosé — et il y a une vraie possibilité que cette onde de choc continue de faire vaciller la tech américaine sur le long terme. Il conviendra donc de surveiller attentivement la suite de ce feuilleton qui pourrait marquer le début d’un grand changement de paradigme en faveur de l’IA open source, comme l’a suggéré Yann LeCun.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.