Passer au contenu

Vlogger, pourquoi la dernière IA vidéo de Google inquiète

L’intelligence artificielle poursuit son avancée (que certains qualifieront d’inquiétante) avec la création de Vlogger, un système développé par des chercheurs de Google capable de générer des vidéos réalistes à partir d’une simple photographie. Une technologie qui fascine et qui interroge, notamment sur les implications sociétales qu’elle entraîne.

L’équipe dirigée par le chercheur Enric Corona a mis au point Vlogger, un outil capable de produire des vidéos haute résolution à partir d’une photo et d’un échantillon de voix du sujet, le tout permettant de générer un clone numérique animé.

Une IA à double tranchant

Ce système ne se contente pas de créer un avatar numérique ; il peut aussi générer des vidéos où les expressions faciales, les mouvements de la tête et des mains sont synchronisés avec l’audio, offrant un réalisme qui peut tromper l’œil humain. Même si les vidéos ne sont pas parfaites avec leurs artefacts graphiques, mais elles n’en représentent pas moins un pas en avant dans sa capacité à animer des images fixes.

Les applications envisagées de cette IA sont variées, cela va de l’amélioration des avatars pour les services d’assistance à la création d’assistants virtuels personnalisés, en passant par l’éducation et la communication en ligne.

Mais évidemment, cette technologie ne manque pas de soulever des interrogations, notamment sur son potentiel de détournement dans la création de deepfakes, ces contenus falsifiés plus vrais que nature. L’équipe de recherche reconnaît ces défis et promet d’aborder les implications sociétales dans des documents d’accompagnement, bien que ces derniers ne soient pas encore disponibles.

Le processus de création de Vlogger repose sur des modèles de diffusion, une méthode d’apprentissage profond qui, appliquée à la vidéo, permet une synthèse d’images particulièrement convaincante. La technologie s’appuie également sur un ensemble de données inédit, MENTOR, comprenant 2.200 heures de vidéo, ce qui représente une avancée significative en termes de diversité et de qualité des synthèses produites.

« Contrairement aux travaux précédents, notre méthode ne nécessite pas d’apprentissage pour chaque personne, ne repose pas sur la détection et le recadrage des visages, génère l’image complète (et pas seulement le visage ou les lèvres) et prend en compte un large éventail de scénarios (par exemple, le torse visible ou les identités de sujets diverses) qui sont cruciaux pour la synthèse correcte des humains en communication », écrivent les auteurs.

L’arrivée de Vlogger dans le paysage interroge aussi l’avenir de notre relation avec les médias synthétiques. Si les bénéfices en termes d’innovation et de créativité sont indéniables, les risques associés à une mauvaise utilisation de cette technologie, notamment dans la propagation de fausses informations, ne peuvent être ignorés. La capacité de distinguer ce qui est réel de ce qui est généré par ordinateur devient de plus en plus floue, ce qui nous force à repenser notre approche de la vérification du contenu numérique.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

1 commentaire
  1. Encore une fois, il n’y a que 2 voies possibles:
    – soit toutes ces technologies sont interdites mondialement et leur usage sévèrement puni (mais personne ne peut sérieusement croire que la répression fonctionnera)
    – soit le monde évolue et admet que les vidéos, images, voix, etc. ne sont plus preuve de véracité (ce qu’on a fini par comprendre avec l’oral, l’écrit et l’imprimé). Mais cela aura toutefois des implications dérangeantes sur le système judiciaire.

Les commentaires sont fermés.

Mode