Les annonces liées à l’IA se multiplient. Après OpenAI qui profitait de son calendrier de l’Avent pour présenter Sora, c’est au tour de Google de se lancer dans le grand bain de la génération d’images. Google Labs, la branche dédiée aux tests et expériences des dernières technologies de l’entreprise, a lancé cette semaine Whisk, un outil nouvelle génération, capable de générer des images, non pas à partir de prompts textuels comme c’est habituellement le cas, mais à partir d’autres images. Dans un billet de blog officiel, l’entreprise explique : “Au lieu de générer des images à l’aide de textes longs et détaillés, Whisk vous permet de créer des prompts à l’aide d’images“.
Gemini se charge du reste
Le concept de Whisk est simple : il suffit de glisser des images dans l’outil de génération pour en générer une nouvelle. Trois visuels de référence sont nécessaires : un pour le sujet, un pour la scène, et un pour le style graphique de l’image. Une fois ces informations rentrées, c’est Gemini qui se met en marche : le bot va rédiger une description détaillée de chaque modèle, avant d’introduire ces dernières dans Imagen 3, le dernier modèle de génération d’images de la firme de Mountain View.
Et les droits d’auteur ?
Que celles et ceux qui crient déjà au non-respect des droits d’auteurs et de la propriété intellectuelle se rassurent, promet l’entreprise : “Ce processus permet de capturer l’essence de votre sujet, et non une réplique exacte. Ainsi, vous pouvez facilement remixer vos sujets, vos scènes et vos styles de manière originale“. Avec cette posture, Google veut éviter de répéter la mauvaise presse de ChatGPT et du reste des générateurs textuels, régulièrement accusés de copier sans autorisation des textes dont ils n’ont pas la propriété intellectuelle.
Plus concrètement, “Whisk n’extrait que quelques caractéristiques clés de votre image, il peut générer des images qui diffèrent de vos attentes. Par exemple, le sujet généré peut avoir une taille, un poids, une coiffure ou un teint de peau différents“, prévient Google. Pour affiner davantage les détails spécifiques d’une image, il sera cependant possible d’ajouter des précisions textuelles, cette fois au travers d’un prompt classique.
Pour le moment, Whisk n’est accessible qu’aux États-Unis, en preview restreinte. Google attendra sans doute les premiers retours des internautes pour affiner sa technologie, avant d’envisager un déploiement plus large au reste du monde.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.