Les chercheurs de DeepMind Robotics ont réussi à améliorer les capacités de navigation et d’interaction des robots avec leur environnement grâce à Gemini 1.5 Pro. Une innovation qui repose sur une meilleure compréhension du contexte, ce qui permet une exécution des tâches plus large par les robots à partir d’instructions en langage naturel.
Des robots qui apprennent en regardant des vidéos
Pour permettre aux robots de mieux appréhender leur environnement, les chercheurs ont utilisé une technique inédite : la formation par observation vidéo. En filmant la visite guidée d’un espace donné, comme une maison ou un bureau, et en faisant « regarder » la vidéo par le robot au travers de la moulinette Gemini 1.5 Pro, celui-ci est capable de mémoriser les lieux et de comprendre les commandes verbales ou visuelles. Par exemple, après avoir visionné une vidéo, un robot peut être commandé pour trouver une prise de courant simplement en lui montrant un téléphone et en lui demandant où le charger.
Selon DeepMind, cette méthode a permis d’atteindre un taux de réussite de 90 % sur plus de 50 instructions données dans un espace de 840 mètres carrés. Ces résultats prometteurs démontrent la capacité des robots à non seulement se déplacer efficacement, mais aussi à planifier et exécuter des tâches complexes.
Outre la navigation, les robots formés par Gemini 1.5 Pro ont montré des signes de compréhension avancée et de planification. Par exemple, lorsqu’un utilisateur demandait si son soda préféré était disponible, le robot savait qu’il devait se diriger vers le réfrigérateur, vérifier la présence des sodas, puis revenir pour informer l’utilisateur. Cette capacité à exécuter des tâches complexes suggère à tout le moins que les robots peuvent aller au-delà de simples mouvements, pour intégrer des actions plus élaborées basées sur des instructions variées.
Le processus de formation inclut également l’utilisation de la méthode de Navigation d’Instruction Multimodale avec des visites de démonstration (MINT). Cela implique de promener le robot dans l’espace tout en lui montrant différents points de repère et en utilisant des instructions verbales. Combiné avec le modèle de Vision-Langage-Action hiérarchique (VLA), cela permet aux robots de comprendre et de répondre à des commandes écrites, dessinées ou gestuelles.
Les démonstrations vidéo présentées par Google sont impressionnantes, même avec les coupures évidentes après chaque demande qui cachent un délai de traitement des instructions de plusieurs dizaines de secondes. Cette latence souligne les défis techniques restants avant que ces robots puissent être pleinement intégrés dans des environnements domestiques ou professionnels de manière fluide.
Les progrès réalisés n’en sont pas moins indéniables. Les robots de DeepMind, maintenant capables de cartographier des environnements et de répondre à des commandes complexes, montrent que l’intégration de l’IA générative dans la robotique peut conduire à des capacités inédites. Que ce soit pour retrouver des objets perdus ou pour naviguer dans des espaces complexes, ces robots dotés de Gemini 1.5 Pro pourraient bien inaugurer les nouveaux assistants autonomes.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.