Meta accusé d’avoir entraîné ses modèles IA avec du contenu piraté

Une nouvelle affaire qui illustre bien les rapports compliqués que les tauliers de l’IA entretiennent avec la notion de propriété intellectuelle.

Meta (Facebook, Instagram…) aurait exploité des versions piratées de livres couverts par le droit d’auteur afin d’entraîner les modèles IA développés par son entreprise, affirment les plaignants d’un procès récemment déposé aux États-Unis et repéré par TechCrunch.

Cette action en justice repose sur des communications internes de Meta dans lesquelles Mark Zuckerberg aurait personnellement approuvé l’exploitation de la base LibGen, une vaste archive de livres et d’articles en ligne dont la majorité du contenu est considéré comme piraté.

Le dirigeant aurait choisi de procéder ainsi malgré les réticences de son équipe, qui l’a apparemment mis en garde par rapport à l’origine légalement discutable de ce matériel numérique — non pas pour des raisons éthiques, mais parce qu’elle pourrait impacter les négociations entre la firme et les entités qui commencent à mettre en place une législation sur l’exploitation du contenu pour entraîner des modèles. « Une couverture médiatique suggérant que nous avons utilisé un ensemble de données connu pour être piraté, comme LibGen, pourrait nuire à notre capacité à négocier avec les régulateurs », cite le texte.

La chasse aux données de la Big Tech

Cette situation est une bonne illustration d’une dynamique assez préoccupante pour les géants de l’IA. Pour entraîner leurs modèles qui sont au cœur d’un grand bras de fer technologique et économique, ils doivent les alimenter avec des quantités colossales de contenu généralement glané directement sur Internet. Or, même si la législation varie en fonction des régions, une grande partie de ce contenu est couvert par de nombreuses lois sur la propriété intellectuelle et le droit d’auteur.

Théoriquement, les auteurs devraient donc pouvoir refuser l’utilisation de leur contenu ou, à défaut, être rémunérés par les entreprises… mais en pratique, c’est très rarement le cas. Meta, Google ou OpenAI, pour ne citer qu’eux, ont pris l’habitude d’exploiter le relatif vide juridique qui existe autour de l’IA générative pour continuer à moissonner ces contenus sans contrepartie pour une raison très simple : tout le modèle économique de ces entreprises dépend directement de cet approvisionnement en données. Droit d’auteur ou pas, ils n’ont donc pas du tout l’intention d’y renoncer, et les justifications invoquées sont souvent très discutables.

OpenAI, par exemple, s’est illustré à plusieurs reprises à ce niveau. En janvier 2024, son fondateur et PDG Sam Altman, avait argué qu’il était désormais « impossible » d’entraîner des modèles comme ChatGPT sans avoir recours à du contenu couvert par le droit d’auteur. En parallèle, il continue de défendre bec et ongles la légitimité de sa démarche en invoquant systématiquement le fair use, cette doctrine légale américaine qui permet l’utilisation de contenu couvert par le droit d’auteur… à condition qu’elle relève de l’intérêt public. Un argument jugé irrecevable par de nombreux auteurs et groupes de presse victimes de ce “pillage”, dans la mesure où OpenAI est une entreprise privée à but lucratif.

Une zone grise juridique

La problématique est quasiment identique dans le cas de Meta. Le groupe a également été visé par plusieurs plaintes pour infraction au droit d’auteur, et les plaignants de ce nouveau procès arguent que ce nouveau dossier montre sans l’ombre d’un doute qu’il continue à exploiter sans vergogne le travail d’autres auteurs.

Il conviendra donc de suivre le déroulement de cette affaire, mais aussi et surtout l’évolution du cadre législatif qui entoure l’entraînement des modèles d’IA générative. Pour l’instant, il n’y a pas encore de verdict majeur qui pourrait faire office de référence, et tous ces dossiers restent donc largement dépendants de l’interprétation des juges qui en héritent ; reste à voir si une de ces affaires finira par établir un précédent majeur, et si les grandes puissances de l’IA (les États-Unis, la Chine, et dans une moindre mesure l’Europe) réussiront à trouver un terrain d’entente pour protéger les auteurs sans trop brider le processus d’innovation.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.