IA : pour entraîner ses modèles, la Big Tech est en train de piller YouTube

Plusieurs cadors de la tech comme Nvidia, Apple, Anthropic ou Salesforce font leur marché sur la célèbre plateforme vidéo pour entraîner des modèles IA à fort potentiel commercial, sans la moindre contrepartie. Une situation qui rappelle l’importance de la traçabilité des données.

Depuis que l’industrie de la tech s’est lancée dans une vaste course à l’intelligence artificielle sous toutes ses formes, il y a une thématique qui revient régulièrement sur la table : le droit d’auteur et la protection de la propriété intellectuelle. Alors que des tas de nouveaux modèles d’IA générative fleurissent chaque jour, il devient de plus en plus difficile de déterminer l’origine des données utilisées lors du processus d’entraînement. Ce flou incite les acteurs de cette industrie à mettre leurs scrupules de côté lorsqu’ils cherchent de quoi satisfaire l’appétit dévorant de leurs créations à fort potentiel commercial, souvent en exploitant le travail des autres sans la moindre rémunération.

Lorsque les premières IA génératives commerciales sont arrivées sur le marché, les artistes visuels ont été les premiers à s’indigner de cette tendance. La situation a progressivement empiré lorsque des corporations comme Adobe ont avancé leurs pions. Et désormais, cette pratique semble être devenue la norme dans la Big Tech. C’est en tout cas ce qui ressort d’une enquête de Proof News co-publiée par Wired ; selon les deux médias américains, plusieurs poids lourds dont Nvidia et Apple n’hésitent plus à utiliser les vidéos YouTube de nombreux créateurs pour entraîner leurs modèles sans contrepartie.

La Pile de la discorde

Cette affaire tourne autour de l’entreprise à but non lucratif EuletherAI, et plus spécifiquement de son projet « The Pile ». Il s’agit d’un vaste jeu de données contenant des livres, des articles Wikipédia, ou encore les transcriptions textuelles de plus de 150 000 vidéos YouTube moissonnées sur près de 50 000 chaînes différentes.

À l’origine, The Pile était présenté comme une ressource pour l’entraînement d’IA à destination des développeurs solo ou petites entreprises qui n’ont pas les moyens de concurrencer les titans de la tech. Mais EuletherAI a apparemment oublié de tenir compte du cynisme et de l’opportunisme commercial de ces derniers. Si l’on en croit le rapport de Wired et Proof News, ils n’ont eu aucun scrupule à piocher dedans.

Les créateurs amers et impuissants

Ces manœuvres ont explosé au grand jour lorsque certains créateurs très populaires ont commencé à s’indigner de la situation. On peut notamment citer Marques Brownlee, alias MKBHD, un vidéaste à succès qui fait partie des influenceurs les plus suivis de l’écosystème tech. Il est connu pour ses tests de produits en vogue, et notamment ceux d’Apple pour qui il a souvent été une vitrine de première catégorie. Or, l’investigation de Wired et Proof News a révélé que la firme à la Pomme avait utilisé ses vidéos contenues dans The Pile pour entraîner ses IA, ce que l’intéressé n’a pas vraiment apprécié.

« Apple a collecté des données pour ses IA auprès de plusieurs entreprises. L’une d’entre elles a récupéré des tonnes de données et transcriptions de vidéos YouTube, dont les miennes. Apple évite techniquement d’être mis en cause puisque ce ne sont pas eux qui récoltent ces données, mais c’est un problème qui va évoluer pendant longtemps », a réagi MKBHD sur Twitter/X.

Apple has sourced data for their AI from several companies

One of them scraped tons of data/transcripts from YouTube videos, including mine

Apple technically avoids "fault" here because they're not the ones scraping

But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) July 16, 2024

Plus largement, l’article original cite aussi plusieurs autres créateurs ou groupes qui ne cachent pas leur amertume vis-à-vis de ce pillage. La réaction de David Pakman, hôte d’un talk-show politique sur la plateforme de Google, résume assez bien le sentiment général. « Personne n’est venu me dire “nous aimerions utiliser ça”… c’est mon gagne-pain, j’investis du temps, des ressources, de l’argent dans la création de ce contenu », regrette-t-il. Même son de cloche du côté de Julia Walsh, PDG de l’entreprise derrière le programme éducatif SciShow. « Nous sommes frustrés d’apprendre que notre contenu éducatif soigneusement produit a été utilisé de cette manière sans notre consentement », a-t-elle déclaré.

Quand le serpent de l’IA se mord la queue

Vous l’aurez compris, cette situation est assez problématique pour les créateurs… mais aussi pour Google. D’après le rapport, les autres entreprises n’ont jamais demandé l’autorisation à la plateforme de puiser ainsi dans cette manne de contenu. Et EuletherAI n’est certainement pas la seule entité à procéder ainsi.

C’est un vrai problème. Car au-delà des considérations financières et du droit d’auteur, cette affaire témoigne aussi d’une dynamique nauséabonde qui pourrait nuire à l’avenir d’une technologie pleine de potentiel.

En effet, la plus-value apportée par les modèles IA est directement corrélée à la qualité des données d’entraînement, et c’est là que le bât blesse. Avec ce pillage de YouTube, on commence à distinguer les contours d’une vraie spirale infernale où tous les géants de la tech (ou presque) braconnent allègrement les données de leurs voisins pour alimenter d’autres modèles dont les productions seront à leur tour assimilées, digérées, puis régurgitées par la concurrence – et ainsi de suite.

Or, il a déjà été démontré que cette dilution progressive peut conduire à une forte baisse de qualité par rapport au matériel original. Cette propension à dénaturer les données et à les transformer en une infâme bouillie de bits consanguins, truffée de biais, d’erreurs et d’hallucinations, a même un nom : les spécialistes parlent d’« écroulement de modèle ».

Tous les chercheurs ne sont pas d’accord sur l’impact potentiel de cette dynamique. Certains estiment que ce phénomène représente une menace existentielle pour le développement de l’IA ; d’autres considèrent qu’il s’agit d’une lecture catastrophiste de la situation.

Mais quoi qu’il en soit, cette affaire souligne une nouvelle fois l’importance de la traçabilité des données dans le domaine du machine learning — non seulement pour préserver le travail des créateurs du pillage des géants de la tech, mais aussi pour assurer la pérennité d’une technologie capable de rendre de fiers services à l’humanité si elle est bien utilisée.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.