Passer au contenu

L’IA programmeuse d’OpenAI accusée d’avoir volé du code sur GitHub

Copilot est au cœur d’une tempête juridique après avoir “emprunté” du code sans se soucier de la propriété intellectuelle.

À l’été 2021, le titan de l’intelligence artificielle OpenAI dévoilait Copilot. Ce système basé sur l’intelligence artificielle, développé en partenariat avec Microsoft et GitHub, permet de générer du code en fonction du contexte pour aider un développeur en temps réel, bien au-delà de ce que propose la simple autocomplétion traditionnelle. Depuis, le programme a fait son petit bout de chemin ; il est utilisé au quotidien par un nombre croissant de professionnels.

Mais il a aussi pris quelques libertés qui sont en train d’avoir des conséquences très concrètes. D’après IEEE Spectrum, le programme est accusé d’avoir pillé sans vergogne le travail de nombreux développeurs sans le moindre respect pour les droits d’auteurs. GitHub, Microsoft et OpenAI sont donc visés par un recours collectif.

Quand les IA font leur marché

Comme toutes les IA génératives, Copilot a besoin d’être entraîné avec de grandes quantités de matériel plus ou moins comparable à ce que les utilisateurs cherchent à produire. Dans ce cas, il s’agit de code informatique. C’est précisément pour cette raison qu’OpenAI s’est associé à GitHub.

Il s’agit d’une plateforme incontournable dans le monde de la programmation informatique. Des tas de développeurs,  professionnels ou indépendants, utilisent cette plateforme pour stocker, suivre et partager leurs productions, ainsi que pour gérer le déploiement des différentes versions des programmes associés.

Or, il se trouve qu’une part non négligeable de ces repositories sont publics. Une véritable aubaine pour OpenAI. Ces centaines de millions de lignes de code en accès libre représentent une ressource formidable; la firme ne pouvait pas rêver mieux pour enseigner les rudiments de la programmation à Copilot. Aujourd’hui, les propositions de l’algorithme sont directement basées sur tout le matériel qu’il a épluché au cours de son entraînement.

Un gros problème de traçabilité

Mais qui dit accès libre ne dit pas forcément libre de tout droit d’auteur. C’est une distinction que les auteurs du programme semblent avoir plus ou moins balayée sous le tapis, et qui leur vaut aujourd’hui un procès. Les plaignants reprochent à Copilot d’utiliser tel quel des extraits de leur code certes accessible, mais tout de même légalement protégé.

Ils regrettent aussi que le programme ne fasse aucune mention de l’auteur original du code dont les suggestions sont tirées. Même chose pour la copie de la licence. Cela signifie que l’utilisateur final pas aucun moyen de savoir si les propositions de Copilot sont basées sur du matériel protégé.

La communauté open source est assez divisée sur ce sujet. Certains développeurs considèrent que l’entraînement de Copilot relève du « fair use », ce concept qui autorise l’utilisation de contenu sous copyright dans des conditions très particulières (critique, analyse, enseignement…).

Mais lorsqu’il s’agit du code généré, cela pose un gros problème de traçabilité. « Nous avons développé des processus pour sécuriser l’espace open source, et ça nécessite de la traçabilité, de l’observabilité, et de la vérification. Copilot, en revanche, obscurcit la provenance originale de ces extraits de code », affirme Sal Kimmich, un des membres du collectif à l’origine de ce recours collectif.

C’est un gros problème pour les développeurs professionnels. Car si Copilot propose du contenu propriétaire sans le mentionner explicitement, cela peut conduire des développeurs à se rendre coupable de violations du droit d’auteur, éventuellement à leur insu. Et cela pourrait avoir des conséquences tout sauf négligeables en termes éthiques, mais aussi judiciaires. « J’ai besoin de pouvoir identifier la provenance de la licence originale ou de la propriété intellectuelle [du code généré] pour savoir si je dois l’éviter », précise Kimmich dans une interview à IEEE Spectrum.

Un précédent déterminant pour le futur de l’IA générative

Il conviendra donc d’observer la réponse d’OpenAI, Microsoft et surtout GitHub à cette situation avec une attention toute particulière. En effet, les retombées de ce procès pourraient largement dépasser le cadre de Copilot ; nous pourrions bien être en train d’assister à la mise en place d’un précédent extrêmement important. Le verdict de ce procès pourrait bien conditionner tout un pan dur futur de l’intelligence artificielle générative.

Car Copilot n’est pas le seul algorithme à fonctionner sur ce principe; il en existe des tas d’autres qui décortiquent de grandes quantités de contenu public pour se faire la main. On peut citer les programmes de génération de texte ou d’image qui pullulent en ce moment sur le web ; en pratique, ils produisent tous du matériel susceptible de tomber sous le coup du droit d’auteur alors qu’ils ont été construits à partir d’autres contenus potentiellement protégés. Et ce paradoxe n’est qu’un petit arbre qui cache toute une forêt de questions particulièrement épineuses. De nombreux spécialistes de la discipline attendent donc beaucoup de ce procès ; ils espèrent que cela permettra de clarifier la situation autour des IA génératives.

« Cela va, je l’espère, nous donner une ligne directrice pour définir ce qui est légal, ce qui est l’un des principaux enjeux pour ceux qui travaillent sur l’IA appliquée au matériel open source », explique Stella Biderman, une chercheuse en IA interviewée par IEEE Spectrum.

Il s’agirait en tout cas d’un énorme pas en avant. Cela permettrait d’ouvrir la voie à une utilisation plus large de ces outils révolutionnaires. Car s’il y a bien un point sur lequel tout le monde est d’accord, même les usagers les plus critiques, c’est que cette technologie dispose d’un potentiel quasiment infini dans des tas de domaines divers et variés. Il serait donc dommage de s’en priver… mais ce n’est pas non plus une excuse pour priver des professionnels de la reconnaissance qu’ils méritent. Affaire à suivre !

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Mode