Passer au contenu

La nouvelle IA de DeepMind génère du son et des dialogues à partir d’une vidéo

Ce modèle baptisé V2A n’est pas accessible au grand public, mais il témoigne des progrès rapides du machine learning appliqué à l’audiovisuel.

DeepMind, l’entreprise satellite de Google spécialisée dans la recherche en intelligence artificielle, a révélé qu’elle travaillait sur un nouveau système capable de générer une bande-son à partir de n’importe quelle vidéo. Un outil qui pourrait contribuer à la production de films entièrement générés grâce au machine learning

Les modèles IA capables de générer des images, comme StableDiffusion, DALL-E ou Midjourney, sont devenus incroyablement performants. Alors qu’ils étaient tout juste capables de produire des bouillies de pixels à peine cohérentes il y a quelques années, ils peuvent désormais accoucher d’images quasiment photoréalistes en quelques secondes.

L’IA générative s’attaque à la vidéo

Désormais, l’industrie se tourne désormais vers la suite logique de ces travaux, à savoir la production de vidéos. C’est un objectif encore exponentiellement plus difficile à atteindre, car pour obtenir un résultat convaincant, il faut aussi que ces suites d’images s’enchaînent parfaitement ; le cerveau humain est particulièrement doué pour repérer les incohérences spatiales et temporelles qui trahissent souvent l’origine de ces médias synthétiques.

Malgré la complexité du problème, les chefs de file de cette industrie ne sont désormais plus très loin de trouver la bonne recette. Pour s’en convaincre, il suffit de jeter un œil à Sora, l’incroyable modèle text-to-video présenté par OpenAI en février dernier.

Certains de ces extraits sont déjà extrêmement convaincants — mais ils souffrent tous du même problème, à savoir l’absence de bande son.

De la vidéo à l’audio

C’est pour combler cette lacune que DeepMind a commencé à travailler sur un nouveau modèle sobrement baptisé Video-To-Audio, ou V2A pour les intimes.

Il existe déjà quelques modèles spécialisés qui sont capables de générer des effets sonores ou des morceaux de musique pour accompagner des images. Mais avec V2A, DeepMind a souhaité passer à la vitesse supérieure. Dans son billet de blog, l’entreprise explique que son modèle est capable d’analyser un flux vidéo brut pour générer une piste audio cohérente, des effets sonores aux morceaux instrumentaux en passant par les dialogues. Il se charge ensuite de synchroniser les deux automatiquement, le tout sans qu’un humain ait forcément besoin de fournir la moindre indication additionnelle.

Et il faut admettre que dans l’ensemble, les quelques exemples fournis par les chercheurs sont plutôt convaincants. Les clips centrés sur des instruments, en particulier, semblent remarquablement cohérents.

D’autres, en revanche, sont d’une qualité nettement inférieure, et ressemblent davantage à un montage audio fait à la va-vite à partir d’un pack commercial de clips audio destiné aux monteurs.

Mais V2A est encore loin d’être mature, et on peut s’attendre à ce qu’il devienne de plus en plus performant avec le temps. Et une fois qu’il sera mature, il offrira sans doute des possibilités très intéressantes aux créateurs. Dans son billet, DeepMind explique qu’un tel système peut par exemple rendre vie à des images d’archive ou à des films muets tournés à la préhistoire du cinéma.

DeepMind prend ses précautions

Mais comme toujours avec l’IA générative, ces nouveaux outils font aussi émerger des inquiétudes légitimes. Des utilisateurs mal intentionnés pourraient par exemple s’en servir pour produire des deepfakes encore plus convaincants, avec des conséquences potentiellement dramatiques. Pour le moment, DeepMind n’a donc pas l’intention de mettre V2A à disposition du grand public.

« Pour nous assurer que notre technologie V2A aura un impact positif sur la communauté créative, nous récoltons diverses perspectives et idées auprès de créateurs et cinéastes de premier plan, et utilisons ces précieux commentaires dans le cadre de nos recherches. Avant d’envisager d’en ouvrir l’accès au grand public, notre technologie V2A sera soumise à des évaluations et des tests de sécurité rigoureux », indique DeepMind.

Quoi qu’il en soit, ces travaux montrent de manière très concrète que nous nous rapprochons rapidement d’une nouvelle ère de la culture et de l’information — pour le meilleur comme pour le pire.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Source : DeepMind

Mode