Passer au contenu

WordPress, Tumblr et Reddit vont revendre vos données à l’IA, et c’est inquiétant

Les plateformes sociales stars des années 2000 se sont trouvées une nouvelle manne financière à l’éthique discutable.

Le temps des skyblogs n’est plus, et Tumblr a rendu l’âme. Reste que les plateformes de microblogging qui nous servaient de journaux intime virtuels au début des années 2000 continuent d’exister. Pour assurer leur pérennité financière, ils ont trouvé une reconversion étonnante, en vendant leurs immenses bases de données à des entreprises tierces, afin d’alimenter des modèles d’intelligence artificielle.

Concrètement, tout le contenu que vous avez posté gratuitement sur votre blog en 2003 en espérant recevoir quelques likes de la part de vos amis, va désormais servir à perfectionner les compétences d’OpenAI et de MidJourney, rapporte le média américain 404. Parmi les plateformes concernées, on retrouve WordPress, Tumblr et Reddit, trois mastodontes du début des années 2000.

Vos données ont un prix, mais vous ne toucherez rien

Jusqu’à présent, les entreprises s’étaient plutôt intéressées aux données open source pour alimenter leurs modèles de langage d’IA. L’idée était efficace, mais elle posait aussi de sérieux problèmes juridiques. Ces derniers mois, plusieurs auteurs et romanciers, à l’image du créateur de Game of Thrones George R.R. Martin s’étaient opposés à ce que l’IA accède à leurs textes pour apprendre à écrire selon leur style. Pour pallier le problème, OpenAI et ses concurrents se sont mis en tête d’accéder à d’autres types de bases de données.

Pour Grok, l’IA d’Elon Musk, cela prend la forme de tout ce qui transite par X/Twitter. Pour d’autres, la course à la data passe par le rachat d’immenses bases de données textuelles alimentées par les internautes, puis laissées à l’abandon.

Une décision controversée

Sans surprise, la décision ne fait pas l’unanimité. Chez Tumblr, extrait de conversation rapportée par 404 media, du chef de produit Cyle Gage, l’entreprise s’oppose notamment à la vente des conversations privées, des médias protégés par mot de passe, et des contenus à caractères sexuels NSFW, qui ont fait les belles heures de l’entreprise il y a quelques années.

Chez Reddit, la vente est déjà effective. Le 17 février dernier, l’entreprise a annoncé avoir conclu un accord de 60 millions de dollars par an avec “une grande société d’IA anonyme” pour partager les données liées aux 62 millions d’utilisateurs actifs qui transitent chaque jour sur ses forums. Une somme importante, bien plus que celle offerte par OpenAI aux médias pour accéder à leur contenu protégé par copyright (1 à 5 millions de dollars en moyenne). En plus de WordPress, Tumblr (qui appartiennent tous les deux au groupe Auttomatic) et Reddit, la banque d’image Shutterstock a signé un accord de six ans avec OpenAI afin d’entraîner DALL-E, son programme d’intelligence artificielle capable de générer des images. La monétisation des datas entre décidément dans une nouvelle ère.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

2 commentaires
Les commentaires sont fermés.

Mode