Le générateur d’image qui accompagne Bing Chat, le chatbot IA spécialisé dans la recherche de Microsoft, s’offre une grosse mise à jour. L’entreprise annonce que DALL-E 3, la dernière version du générateur d’images d’OpenAI, est désormais accessible gratuitement à tous les utilisateurs du service.
C’est une initiative assez surprenante, et pour cause : même les clients payants de ChatGPT, le modèle de langage d’OpenAI, n’ont pas encore accès à la dernière version de DALL-E ! Jusqu’à son arrivée officielle, le chatbot de Microsoft reste donc la seule façon d’y accéder.
Il y a toutefois un revers de la médaille. Tous les aficionados de la génération d’images attendaient DALL-E 3 avec impatience, et puisque Bing Chat est un service gratuit, il a naturellement été pris d’assaut. Après avoir enchaîné les requêtes pendant toute la rédaction de cet article, nous n’avons toujours pas réussi à produire ne serait-ce qu’une seule image ; les serveurs étaient complètement surchargés.
Des résultats aussi précis que prévu
Mais en passant en revue les premiers retours des utilisateurs un peu partout sur la toile, il est possible de se faire une idée de ses performances. Et apparemment, elles sont très impressionnantes. Parmi ceux qui ont réussi à mettre DALL-E 3 à contribution, la grande majorité se dit bluffée. « C’est épatant », estime un utilisateur sur Reddit.
Certains utilisateurs semblent considérer que d’autres services, comme Midjourney, produisent encore des résultats de meilleure qualité. Mais tous semblent d’accord sur un point : les premiers retours confirment que DALL-E 3 est exceptionnellement précis dans son interprétation des requêtes textuelles. Il n’ignore jamais une partie du prompt ; il prend rigoureusement chaque mot, chaque nuance en compte. Cela rend donc les résultats très cohérents et prévisibles. Deux qualités que Midjourney ne peut malheureusement pas revendiquer, malgré sa grande flexibilité et l’excellente qualité de ses productions.
C’est une excellente nouvelle pour OpenAI, car cette cohérence entre le prompt et l’image était exactement l’objectif de l’entreprise avec DALL-E 3. La principale nouveauté de cette version, c’est qu’elle fonctionne en tandem avec GPT, le modèle de langage à la base de ChatGPT. C’est lui qui se charge d’interpréter le prompt, puis de le formater de façon à ce que le générateur d’image produise exactement le résultat attendu.
L’autre fonctionnalité intéressante de DALL-E 3, c’est que l’intégration de ChatGPT permet aussi d’éditer l’image progressivement en discutant avec le chatbot. Par exemple, même si nous n’avons pas réussi à produire d’image pour le moment, dans les suggestions de Bing Chat qui accompagnent chaque prompt, le chatbot nous a proposé des modifications comme « Ajoute un arc-en-ciel à l’image », ou « Ajoute un chapeau au personnage ». Cela devrait permettre d’obtenir des résultats exceptionnellement précis sans s’arracher les cheveux comme avec Midjourney, dont le fonctionnement semble parfois relever de la magie noire.
De plus, Microsoft ne compte pas s’arrêter là. En tant qu’actionnaire majoritaire d’OpenAI, le titan de la tech dispose d’un accès privilégié aux produits de l’entreprise de Sam Altman, et il ne compte pas s’en priver. Très bientôt, c’est le modeste Paint qui va passer à la vitesse supérieure avec Paint Cocreator, qui permettra d’utiliser DALL-E directement dans Windows.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.