La nouvelle IA de Meta produit des vidéos à partir de simples phrases

Make-A-Video reprend le concept de programmes comme DALL-E ou Midjourney, mais pour produire des vidéos.

Cette année aura été un grand cru pour les IA, en particulier celles appliquées à la génération de contenu visuel. Depuis quelques mois, le grand public a pu commencer à profiter de technologies qui étaient auparavant réservées aux spécialistes de ces algorithmes, comme les incroyables générateurs que l’on voir fleurir en ce moment.

Ces programmes comme DALL-E ou Midjourney, pour ne citer qu’eux, sont capables de générer une image à partir d’une vague description textuelle. Des outils quasiment magiques et extrêmement ludiques qui fascinent le public, pour des raisons évidentes ; depuis qu’ils sont accessibles au tout-venant, ils rencontrent naturellement un succès fou sur Internet.

Pour les non-initiés, cela ressemble à un progrès fulgurant ; mais du point de vue des chercheurs en IA, c’est l’aboutissement de longues années de travail dans un sous-domaine qu’on appelle IA générative. Et maintenant que Monsieur et Madame Tout-le-Monde peuvent bénéficier de ces outils, les chercheurs sont déjà passés à la prochaine étape : faire la même chose que les IA citées ci-dessus, mais en vidéo.

Aujourd’hui, c’est une équipe de Meta, la maison-mère de Facebook, qui a présenté ses nouvelles avancées dans ce domaine avec son programme Make-A-Video. Comme DALL-E ou Midjourney, il suffit de taper une courte description et de laisser le système travailler ; la différence fondamentale, c’est que ce système accouche d’une vidéo entière au lieu de se contenter d’une simple image.

Des résultats bluffants

Sur la page web dédiée à l’algorithme, disponible ici, on découvre un tas de petits extraits. À première vue, pas de quoi tomber en pâmoison ; la résolution est assez modeste, ils durent tous cinq secondes à peine, et aucun ne propose d’audio.

Mais l’ensemble devient très impressionnant à la seconde où l’on se rappelle que tout ce matériel a été générées à partir d’une simple ligne de texte. Nous sommes encore bien loin du photoréalisme, mais en termes de cohérence, le résultat est assez bluffant ; sur chacun des exemples, le programme semble avoir parfaitement compris ce que l’auteur du prompt voulait produire.

Comme ses équivalents qui produisent des images, Make-A-Video est aussi capable de gérer ce qu’on appelle le transfert de style pour produire des vidéos réalistes ou stylisées. Il peut aussi créer une vidéo à partir d’une simple image ou accoucher de plusieurs variantes d’un même clip, comme le montrent les trois exemple au bas de la page.

Il faut cependant garder en tête que cette plateforme n’est pas encore accessible pour le grand public. Toutes les vidéos présentées ont donc été soigneusement sélectionnées par les troupes de Meta, et la qualité du résultat moyen est probablement très inférieure.

Mais il s’agit tout de même d’un progrès significatif. En effet, ces vidéos sont beaucoup plus difficiles à produire qu’une « simple » image. Ici, il ne s’agit pas seulement d’assurer la cohérence spatiale entre les différents pixels ; il faut que cette cohérence soit aussi temporelle. Concrètement, cela signifie que chaque image doit correspondre avec la suivante et avec la précédente. Une approche plus difficile à mettre en place et qui nécessite une puissance de calcul nettement plus importante.

Désormais, Meta va tenter d’améliorer encore la qualité de ces rendus. Et si l’on se base sur les progrès fulgurants de la génération d’image, on peut s’attendre à ce que la génération de vidéos avance aussi à grande vitesse.

IA et génération de contenu : toujours les mêmes inquiétudes

Après tout, il y a quelques années, ces systèmes étaient tout juste capables de nous servir une bouillie de pixels qu’il fallait interpréter comme un test de Rorschach ; aujourd’hui, elles produisent des images incroyables qui peuvent même remporter des concours d’art. D’ici quelques années, nous pourrions donc voir arriver des générateurs de vidéo en accessibles au grand public. Et les implications pourraient être énormes, notamment pour les créateurs de contenu et les artistes.

Mais comme toujours avec ces technologies, il existe aussi un revers de la médaille très important. Il faut absolument tenir compte du fait qu’elles pourraient être utilisées par des acteurs mal intentionnés; elles leur permettraient alors de produire du contenu problématique en quantités industrielles.

Le premier exemple qui vient à l’esprit est certainement la génération de contenu pornographique ; c’est déjà un vrai souci depuis l’apparition des technologies de deepfake, et cela pourrait encore empirer avec la démocratisation de ces générateurs de vidéo. On peut aussi citer tout ce qui concerne la désinformation en règle générale… et à ce niveau, Facebook traîne déjà de très nombreuses casseroles.

Il va donc falloir être prudent au moment de mettre cet outil entre les mains du grand public, et Meta en est bien conscient ; l’entreprise de Mark Zuckerberg n’a pas encore annoncé quand elle comptait le faire, ni sous quelles conditions et dans quelles limites.

Pour l’instant, Make-A-Video reste donc au stade de preuve de concept très impressionnante ; il va juste falloir espérer qu’elle sera utilisée à bon escient une fois mature.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.