Passer au contenu

Genie : la dernière IA de DeepMind génère des jeux vidéo à partir de simples images

Certes, les résultats sont encore balbutiants. Mais à terme, cette capacité à créer des environnements virtuels interactifs à partir de simples images pourrait bien faire passer l’IA générative dans une nouvelle dimension.

DeepMind et les jeux, c’est une histoire d’amour qui dure. L’entreprise dirigée par le génial Demis Hassabis, un petit prodige des échecs dans son enfance, expérimente souvent avec ces activités ludiques pour repousser les limites du machine learning afin d’arriver à son objectif ultime : développer une intelligence artificielle générale aux capacités équivalentes, voire supérieures à celles des humains.

Cette démarche a produit des résultats assez spectaculaires. Avec son IA échiquéenne AlphaZero, DeepMind a ouvert la voie à une nouvelle génération de programmes surpuissants qui jouent aujourd’hui un rôle déterminant dans la carrière des grands maîtres. On peut aussi citer AlphaGo, l’IA qui a fait les gros titres en écrasant le monstre sacré du jeu de go Lee Sedol — une première dans cette discipline autrefois considérée comme inabordable pour les ordinateurs.

Et les expériences de DeepMind ne s’arrêtent pas aux jeux de plateau. L’entreprise a aussi expérimenté avec le célèbre jeu de stratégie en temps réel StarCraft II : dès 2019, son IA AlphaStar a complètement pulvérisé les meilleurs joueurs humains sans le moindre effort.

Mais depuis quelque temps, Hassabis et ses troupes se sont fixé un nouvel objectif encore plus ambitieux : avec une IA générative baptisée Genie, DeepMind espère réussir à produire des jeux vidéo complets à partir de quelques images.

Un générateur d’environnement interactif

Pour poser les bases de son système, DeepMind a commencé par collecter environ 200 000 heures de vidéo de jeux tirées d’Internet. Elle a filtré cette montagne d’images pour en extraire environ 30 000 heures de gameplay qui ont servi à alimenter un modèle de 200 millions de paramètres.

Grâce à ces données, Genie a pu apprendre à créer un tout nouveau monde virtuel — ou plus spécifiquement, une combinaison de deux modèles baptisés « modèle d’action latent » et « modèle de dynamique ». Ce couple permet au système de partir d’une simple image fournie par l’utilisateur ; il la traite comme s’il s’agissait du début d’une vidéo, puis essaie de deviner à quoi devraient ressembler les trames suivantes en fonction des actions de l’utilisateur (la pression d’une touche sur un clavier, par exemple) en se basant sur les motifs qui ont émergé lors de l’entraînement.

Au bout du processus, Genie a produit des résultats assez impressionnants. Le système semble capable de faire la distinction entre le personnage jouable et les éléments du décor, et d’animer l’ensemble de façon plutôt cohérente en réponse aux commandes. Un sacré exploit technique, sachant que le fait de générer du contenu interactif à partir d’une simple image relevait encore de l’expérience de pensée pure il y a à peine quelques mois !

Une approche ultra-flexible

Ces performances, Genie les doit en partie à une approche radicalement différente de celles employées par les autres chercheurs qui ont tenté de créer des jeux grâce à l’IA. À quelques exceptions près, tous ces autres travaux s’appuyaient sur un système d’étiquetage qui permet de guider le modèle pendant son entraînement. Par exemple, les développeurs indiquent à l’algorithme que telle ou telle séquence correspond à un saut, à un déplacement latéral, et ainsi de suite.

Genie, en revanche, est entraîné « sans la moindre annotation ». Il peut déduire toutes les informations dont il a besoin directement des images brutes, et généraliser ces motifs pour créer un programme interactif à partir de n’importe quelle autre image.

Cette approche présente deux avantages majeurs. Le premier, c’est que cela permet aux chercheurs de faire ingurgiter des quantités massives de données au modèle sans perdre des dizaines d’heures à tout étiqueter à la main. Le deuxième, c’est que cela rend le système extrêmement plus flexible et polyvalent. Genie peut travailler avec un sprite 2D classique, mais aussi avec une vraie photo ou même un simple gribouillage !

« Cette capacité à généraliser souligne la robustesse de notre approche et la valeur de l’entraînement sur de grands ensembles de données, ce qui ne serait pas faisable si on lui fournissait les vraies actions de l’utilisateur [par opposition aux images de gameplay brutes, NDLR] ».

Un système encore balbutiant mais très prometteur

Mais gare à ne pas s’emballer ; Genie est encore très loin de pouvoir produire un véritable jeu vidéo en bonne et due forme à partir d’une simple image. Et DeepMind en est bien conscient ; l’équipe préfère d’ailleurs parler d’« environnements virtuels ». La première grosse limite, c’est que le système ne peut tourner qu’à environ une image par seconde — très loin du seuil de 30 fps généralement considéré comme le minimum syndical pour jouer confortablement.

De plus, son approche autonome sans étiquetage a aussi ses inconvénients ; parfois, le système se trompe complètement dans son interprétation des images. Par exemple, il arrive que le personnage ne retombe jamais au sol après avoir effectué un saut, ou que deux entités fusionnent sans raison apparente comme dans cet exemple.

Malgré tout, il s’agit d’un pas en avant assez remarquable dans le domaine de l’IA générative. Certains commencent déjà à dire que Genie marque le début d’une nouvelle ère où cette technologie pourra aller bien au-delà des images et des vidéos pour concocter de vrais univers alternatifs cohérents et interactifs.

Même si ces affirmations sont encore un peu présomptueuses en l’état, le potentiel est indéniable, et pas seulement dans le monde du jeu vidéo. À terme, on peut aussi imaginer que cette approche pourrait bénéficier à d’autres branches de l’industrie et de la science, par exemple la robotique. Il sera donc très intéressant de suivre l’évolution et les retombées de ces travaux sur les prochaines années.

Le texte de l’étude est disponible ici.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

Source : DeepMind

2 commentaires
  1. “l’IA qui a fait les gros titres en écrasant le monstre sacré du jeu de go Lee Sedol — une première dans cette discipline autrefois considérée comme inabordable pour les ordinateurs.”

    Ce que j’adore c’est que les “spécialistes” continuent à sous-estimer ce qui est faisable par les IA qui vont émerger.
    D’année en année, de mois en mois, ces systèmes repousses toujours plus loin les limites de ce qu’elles peuvent faire.
    La progression est fulgurante, en mars 2023 elles arrivaient à peine à générer des clips vidéo étranges (Will Smith et les spaghettis …) à peine un an après on sait générer ces clips vidéo assez bluffant.

    J’attends de voir la têtes de ces “spécialistes” quand certains scénario considérés encore comme de la SF aujourd’hui finiront par se réaliser …

Les commentaires sont fermés.

Mode