Scraping, pollution et sabotage : la guerre discrète du Web contre l’IA

Au milieu des années 1990, le Web — encore balbutiant à l’époque — a commencé à être investi par une nouvelle catégorie d’usagers : les crawlers, des systèmes automatisés conçus pour explorer le Web en toute autonomie. Ils sont aujourd’hui devenus un rouage très important de cette immense machine qu’est l’Internet moderne. C’est grâce à des robots de ce genre que des acteurs comme Google peuvent cartographier une grande partie du web, avec l’objectif de les mettre à disposition via son incontournable moteur de recherche ; on parle d’indexation. Ils sont aussi utilisés par des agrégateurs qui envoient ces robots écumer le monde numérique à la recherche d’offres commerciales intéressantes, qui sont ensuite relayées sur des sites de réservation de voyage ou des plateformes d’e-commerce, pour ne citer qu’eux.

Mais plus récemment, ces crawlers ont aussi largement contribué à la montée en puissance d’une autre branche de la tech, particulièrement en vogue en ce moment : l’intelligence artificielle.

Vous n’êtes pas sans savoir que des services comme ChatGPT reposent sur d’énormes modèles IA, dont les performances dépendent directement des données qu’ils ingurgitent. Les entreprises qui les pilotent doivent donc acquérir des quantités astronomiques de données, et pour satisfaire l’appétit gargantuesque de ces algorithmes, elles se tournent naturellement vers Internet.

Le scraping sauvage, un vrai problème

Évidemment, toutes ces données ne sont pas collectées manuellement par des humains en chair et en os qui passent leurs journées à virevolter d’un bout à l’autre de la Toile. A la place, cette moisson est effectuée automatiquement et à très grande échelle par des crawlers. Cette démarche, appelée « scraping », fonctionne à merveille, comme en témoigne le succès insolent d’OpenAI et de ses homologues — mais elle pose aussi un certain nombre de problèmes.

Le premier est avant tout technique ; les crawlers les moins bien optimisés peuvent générer un trafic substantiel. Dans les cas extrêmes, ils peuvent émettre des milliers de requêtes par seconde et, par extension, monopoliser une partie non négligeable de la bande passante d’un site — avec tout ce que cela implique pour ses performances.

Le deuxième est plutôt éthique et réglementaire. Depuis l’émergence de l’IA générative grand public, de nombreuses entreprises ont déjà été accusées de piller allègrement du contenu couvert par la propriété intellectuelle et le droit d’auteur, avec des justifications plus ou moins défendables. On pense par exemple à OpenAI, qui invoque systématiquement le fair use et revendique une démarche « d’intérêt public » à chaque fois qu’elle est mise face à ses responsabilités.

Do côté des hébergeurs et des webmasters, la résistance a donc commencé à s’organiser. De plus en plus d’acteurs du Web ont désormais recours à des fichiers robot.txt, qui déterminent à quelles parties d’un site les crawlers ont l’autorisation d’accéder. Désormais, ils ne servent plus seulement à contrôler la façon dont site est indexé ; ils sont aussi utilisés comme boucliers par les opérateurs qui veulent se protéger contre les géants de l’IA qui ne demandent qu’à cannibaliser leur contenu.

Le problème, c’est que ces robot.txt n’ont pas de valeur juridique ; c’est un système basé sur l’honneur qui, même s’il est globalement respecté par l’industrie, peut facilement être contourné. L’été dernier, le PDG de la plateforme communautaire Reddit, une cible de choix pour le scraping, expliquait par exemple que les crawlers étaient une « plaie » et qu’en pratique, il était très difficile de se prémunir contre ce pillage.

De redoutables pièges à crawlers

Certains opérateurs ont donc décidé de passer à la vitesse supérieure en adoptant une démarche radicalement différente, récemment mise en lumière par un article édifiant d’Ars Technica. Au lieu de se laisser dévorer tout cru par les crawlers, ils ont décidé de se rendre impropres à la consommation, un peu comme les espèces d’animaux que l’évolution a dotés de mécanismes de défense comme des pics ou des substances toxiques pour les prédateurs.

La première approche décrite par Ars Technica consiste à créer des tarpits. Ce terme, qui signifie littéralement « fosse à goudron », désigne des systèmes conçus spécifiquement pour mener la vie dure aux systèmes automatisés. En pratique, ils ne cherchent pas à fermer la porte aux bots ; à la place, ils accueillent les crawlers à bras ouverts… afin de les amener vers un dédale de redirections interminable où ils peuvent trourner en bourrique pendant très longtemps.

Ars Technica cite notamment un développeur interviewé sous couvert d’anonymat, qui a créé un tarpit particulièrement efficace appelé Nepenthes — une référence à une espèce de plante carnivore connue pour gober tout ce qui passe à sa portée sans distinction. Ce malware a connu un gain de popularité spectaculaire en ce début d’année, notamment à cause de son efficacité redoutable. D’après son auteur, il s’est montré capable de piéger presque tous les crawlers majeurs qui écument le web en ce moment.

D’autres, inspirés par le succès et la philosophie de Nepenthes, ont choisi d’aller encore plus loin : au lieu de ralentir les crawlers, ils tentent de les convertir malgré eux en chevaux de Troie pour « empoisonner » à distance les modèles IA qu’ils sont censés nourrir. Un programmeur et pirate également interviewé par Ars Technica a par exemple conçu un système plus agressif. Son objectif : piéger les crawlers dans un « labyrinthe d’ordures infini », rempli de données de piètre qualité destinées à polluer l’entraînement des modèles.

Pour les entreprises qui pilotent ces crawlers, les tarpits représentent une perte de temps — et donc d’argent — significative. Un peu comme un prédateur qui aurait retenu la leçon après avoir tenté d’avaler un hérisson tout cru, elles seront donc moins enclines à retenter l’expérience, et le site en question aura plus de chances d’être épârgné par les crawlers.

À grande échelle, l’efficacité de ces pièges est toutefois assez limitée. Notamment parce que les leaders du secteur, à commencer par OpenAI, sont particulièrement vigilants à ce niveau et apprennent désormais à les éviter. Mais qu’importe pour les développeurs comme l’auteur de Nepenthes ; même s’il avoue espérer « faire autant de dégâts que possible », il considère surtout son programme comme une forme d’activisme numérique, un acte de résistance face au pillage de la part de ces entreprises.

Des règles plus strictes, et vite

On peut évidemment discuter de la légitimité, et même de la légalité de ces pratiques. Après tout, il s’agit parfois de logiciels à vocation explicitement malveillante. L’objectif de cet article n’est en aucun cas de faire l’apologie des développeurs qui cherchent activement à empoisonner des modèles IA, surtout que certains d’entre eux sont effectivement d’intérêt public.

Il est important de rappeler que toutes les entreprises spécialisées dans le machine learning ne cherchent pas simplement à se faire beaucoup d’argent en pillant du contenu gracieusement mis à disposition, mais tout de même couvert par la propriété intellectuelle. Certaines ont clairement l’intention de créer des systèmes bénéfiques pour les internautes et l’humanité en général, et il serait regrettable que cette partie de l’industrie devienne une victime collatérale de cette guérilla numérique.

Mais d’un autre côté, personne n’aurait eu besoin d’imaginer des contremesures aussi agressives si le scraping sauvage n’était pas en train de devenir si problématique. De plus, pour se prémunir contre cette tentative d’empoisonnement, il suffit de respecter les règles explicitement affichées dans les fameux fichiers robot.txt ! Dans ce contexte, se plaindre de la pollution d’un modèle semble tout de même assez indélicat ; d’un côté, c’est un peu comme si un collègue habitué à subtiliser le repas de ses collègues dans le frigo de l’entreprise commençait à se plaindre que les plats en question sont trop épicés à son goût.

Avec le recul, cet article passionnant d’Ars Technica démontre surtout à quel point il est urgent de mettre en place un encadrement plus strict du scraping par les géants de l’industrie. À l’heure actuelle, ils bénéficient largement du relatif vide juridique qui existe autour de l’IA générative. N’en déplaise à Sam Altman, selon qui il est désormais impossible d’entraîner une IA générative sans enfreindre le droit d’auteur, il est crucial d’intervenir avant que la situation ne dégénère complètement — par exemple en rendant les fichiers robot.txt juridiquement contraignants. Il sera intéressant de voir si ces revendications finiront par prendre le pas sur les intérêts économiques des géants de l’IA, qui ont construit une grande partie de leur modèle commercial sur ce pillage de données.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.