Une semaine après le lancement de Make-a-Video de Meta, c’est au tour de Google de se lancer dans un générateur de vidéos basé sur l’intelligence artificielle. En entrant quelques mots, le service va créer une courte vidéo, en respectant au besoin des contraintes de style (à la manière des peintures de Van Gogh, par exemple). Imagen Video peut produire des objets en 3D tout en en préservant la structure, ou encore générer du texte en fonction de plusieurs styles d’animation.
Pas ouvert au public
L’objectif des modèles de synthèse vidéo développés par Google est de « réduire de manière significative les difficultés de production de contenus haute qualité ». Haute qualité, c’est le cas en effet puisque l’IA créé des vidéos d’une durée de 5,3 secondes en 1.280 x 768, à une cadence de 24 images/seconde. Après la saisie du texte, Imagen Video génère une première séquence basique de 16 images en 24 x 48, animée à 3 FPS. Un système de « cascade » composé de 6 diffusions supplémentaires permet d’aboutir à la vidéo finalisée.
Google présente plusieurs exemples, allant du plus simple (« Crème glacée qui dégouline sur le cône ») au plus complexe (« Voler à travers une intense bataille entre des navires pirates sur un océan orageux »). Les vidéos proposées ont encore des artefacts graphiques, mais la fluidité et les détails sont assez impressionnants et tout cela n’annonce que du bon pour l’avenir.
Toutefois, Imagen Video ne sera pas proposé en « libre service », du moins pas avant un moment. Google veut d’abord résoudre les problèmes liés aux contenus explicites, haineux ou dangereux. Les modèles du service se basent sur la base de données LAION-400M qui contient 14 millions de paires texte-vidéo, et 60 millions de paires texte-images. S’ils ont été entraînés pour filtrer ce type de contenu, la solution est encore loin d’être tout public.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Panda