Le modèle CogVideoX, développé par l’Université de Tsinghua et Zhipu AI (Chine), représente une avancée importante dans le domaine de l’intelligence artificielle générative. Ce modèle open-source, décrit dans un article publié sur arXiv, permet de générer des vidéos de haute qualité à partir de simples descriptions textuelles, et ce, en quelques secondes seulement.
Une technologie accessible à tous
CogVideoX est capable de produire des vidéos de six secondes avec une résolution de 720 x 480 pixels à 8 images par seconde. Il surpasse ses concurrents comme VideoCrafter-2.0 et OpenSora dans de nombreux tests de performance.
Pour atteindre de telles performances, les chercheurs ont mis en œuvre plusieurs technologies. CogVideoX utilise un Autoencodeur Variationnel 3D (VAE) pour compresser efficacement les vidéos. De plus, un « transformateur expert » a été développé pour améliorer l’alignement entre le texte et la vidéo.
📢🔥Hot New Release: CogVideoX-5B, a new text-to-video model from @thukeg group (the group behind GLM LLM series)
– More examples from the 5B model in this thread👇
– GPU vram requirement on Diffusers: 20.7GB for BF16 and 11.4GB for INT8
– Inference for 50 steps on BF16: 90s on… pic.twitter.com/GAyWmst5GW— Gradio (@Gradio) August 27, 2024
« Pour améliorer l’alignement entre les vidéos et les textes, nous proposons un transformateur expert avec une normalisation adaptative des couches, facilitant ainsi la fusion des deux modalités », précisent les chercheurs dans leur article. Cette avancée permet une interprétation plus nuancée des prompts textuels, ce qui se traduit par une génération vidéo plus précise.
La véritable innovation réside dans le fait que CogVideoX est disponible en open-source, ce qui signifie que les développeurs du monde entier peuvent accéder au code et aux poids du modèle. Cette ouverture démocratise une technologie qui était jusqu’alors réservée aux entreprises avec des moyens financiers conséquents. « La mise à disposition du code et des poids du modèle permet de libérer le potentiel de la communauté mondiale des développeurs », expliquent les chercheurs.
La diffusion de CogVideoX marque un changement notable dans le paysage de l’intelligence artificielle. En rendant ces technologies accessibles à des petites entreprises et à des développeurs individuels, les chercheurs de Tsinghua et de Zhipu AI ouvrent la voie à des opportunités dans toutes sortes de secteurs : publicité, divertissement, éducation ou même visualisation scientifique.
Pouvoir accéder aussi facilement à une telle technologie aussi puissante n’est pas sans poser des questions. La possibilité de créer des deepfakes ou d’autres contenus trompeurs est une réelle préoccupation que la communauté de l’IA n’a toujours pas su résoudre. Les chercheurs eux-mêmes reconnaissent ces implications éthiques et appellent à une utilisation responsable de CogVideoX. Beaucoup de mots et peu d’actes au final.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
On s’en fout de l’éthique ! Le mensonge est inhérent à l’IA comme à ceux qui les alimentent/les conçoivent, surtout si on veut lui apprendre à le reconnaître: il faut bien qu’elle en connaisse toutes les ficelles.
On veut de la technologie pour faire ce que plus personne n’a envie de se torturer à faire ou à faire faire par des travailleurs trop chers. Y a pas de morale là-dedans puisque tout le monde semble d’accord sur ce point.
Les années à venir vont être un sacré b*rdel, ça c’est garanti sur facture !