Avec Titan, Amazon entre dans l’arène de la génération d'image

Avec Titan, Amazon entre dans l’arène de la génération d’image

Ce modèle permettra aux développeurs de créer leurs propres applications de génération d’images.

À l’occasion de sa conférence AWS re : Invent, Amazon vient d’annoncer la sortie de Titan Image Generator, son nouveau système de génération d’image calqué sur Midjourney, DALL-E et consorts. Il est apparemment capable de créer des « images réalistes de qualité studio », et embarque quelques garde-fous qui devraient permettre d’éviter les abus et les biais.

Pour l’instant, l’entreprise est restée assez discrète sur les spécifications techniques. Par exemple, la résolution maximale des rendus n’a pas été dévoilée. Le site de Titan donne toutefois quelques exemples de fonctionnalités.

On sait qu’il fonctionnera à partir de requêtes textuelles (“prompts”), comme ses principaux concurrents. Il sera capable de produire différentes variations stylistiques (cartoon, esquisse…), et prendra en charge l’édition des images générées grâce à des prompts supplémentaires, sans avoir recours à des masques.

Pour effectuer des changements plus fins, Titan Image Generator offrira aussi une fonction d’inpainting qui permettra d’appliquer un masque pour modifier une partie précise de l’image. De la même façon, il y a également une fonction d’outpainting pour modifier l’arrière-plan.

Ce sont des fonctionnalités standards des générateurs d’image modernes comme Midjourney. Mais contrairement à ces modèles grand public, Titan n’est pas une application standalone. C’est un modèle fondamental, c’est à dire qui a vocation à servir de base ; des développeurs pourront s’en servir pour construire leurs propres applications de génération d’image à partir de la plateforme d’IA générative Amazon Bedrock.

Un watermark invisible

Amazon a aussi tenu à faire bonne figure sur la question sensible du droit d’auteur. Toutes les images ainsi produites contiendront un watermark invisible. L’objectif est de permettre au public de déterminer facilement si l’image a été générée par Titan. D’après Vasi Philomin, vice-président de l’IA générative chez AWS cité par The Verge, ce label « ne pourra pas être retiré ou compressé ».

Puisque Titan n’est qu’un modèle de base et pas une application, il faudra passer par une API complémentaire proposée par Amazon pour identifier le watermark. En d’autres termes, ce sont les développeurs qui décideront eux-mêmes comment ils veulent permettre aux utilisateurs de déterminer la provenance des images.

Un casse-tête techno-réglementaire

Sur le principe, c’est une initiative louable. Mais Amazon n’est pas la première entreprise à apposer ce genre de marqueur invisible sur ces images ; on en retrouve dans plusieurs autres systèmes d’IA générative, dont le très populaire Stable Diffusion. Le problème, c’est que chacun le fait à sa manière, sans concertation avec la concurrence.

Cette multiplicité est tout sauf idéale, car elle limite grandement l’intérêt du watermarking ; pour s’assurer qu’une image n’est pas produite par une IA générative, il faudrait vérifier tous les watermarks de chaque entreprise un par un. Or, cela s’annonce de plus en plus difficile sachant que ces services se multiplient rapidement. Il serait donc intéressant que tous les acteurs de cette niche technologique se mettent d’accord sur un standard commun.

De plus, il ne s’agit certainement pas d’une solution parfaite. Même si Amazon affirme que son watermark ne pourra pas être retiré, rien n’empêchait l’utilisateur d’utiliser l’image pour en générer une nouvelle à partir d’un autre service que Titan ; on imagine assez mal comment ce marqueur pourrait survivre à ce genre d’opération.

Les pouvoirs publics réclament de la transparence

Il est effectivement crucial de pouvoir identifier facilement les images générées par l’IA. Mais plus le temps passe, moins le watermarking ressemble à une option pertinente, du moins dans sa forme actuelle. Peut-être que de nouveaux systèmes de watermarking plus sophistiqués finiront par émerger. Dans le cas contraire, l’industrie pourrait aussi se ranger derrière Adobe, qui privilégie une identification basée sur les métadonnées — mais cette approche présente aussi quelques limites.

Il n’y a donc pas de solution idéale pour le moment. Mais les pouvoirs publics réclament tout de même davantage de transparence. On le constate aux États-Unis, avec l’ordre exécutif sur l’IA de l’administration Biden qui impose de pouvoir identifier les images générées par l’IA.

Cela vaut aussi pour l’Europe dans le cadre du fameux AI Act. En effet, l’article 52 de ce texte stipule que les « systèmes IA qui manipulent des images, de l’audio ou de la vidéo » indiquent clairement que ces contenus multimédias sont générés artificiellement ou manipulés, en particulier lorsqu’ils ressemblent à des personnes ou des événements réels (deepfakes).

Il sera donc intéressant de voir comment les développeurs vont aborder ce problème à l’avenir.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.