Waymo, un des pionniers de la conduite autonome, s’appuie sur le savoir faire de Google en matière d’intelligence artificielle et tente quelque chose de neuf pour entraîner la jugeote de ses voitures sans chauffeur. Présenté dans un article de recherche, le modèle « End-to-End Multimodal Model for Autonomous Driving » (EMMA) utilise Gemini, un modèle de langage multimodal conçu par le moteur de recherche.
L’IA au poste de conduite
Contrairement aux systèmes traditionnels qui reposent sur une série de modules dédiés aux fonctions de perception, de cartographie et de planification, EMMA adopte une approche de bout en bout en traitant directement les données des capteurs pour déterminer les trajectoires à suivre.
Cette méthode vise à surmonter certaines limitations des systèmes modulaires. Ces derniers souffrent souvent d’accumulation d’erreurs entre les modules, et leur structure prédéfinie les rend moins adaptables à des environnements inconnus. À l’inverse, un modèle comme EMMA, fondé sur un apprentissage généraliste, pourrait mieux gérer des situations inédites grâce à sa capacité de raisonnement évoluée, issue de l’énorme quantité de données textuelles traitées par Gemini.
Waymo souligne également l’apport du modèle en termes de « connaissance du monde ». Le Gemini de Google, alimenté par des données provenant d’internet, possède une base de connaissances qui dépasse de loin celle des journaux de conduite habituels. Grâce à des techniques avancées de raisonnement, EMMA pourrait ainsi anticiper les obstacles et ajuster ses décisions en temps réel.
EMMA se distingue également par son recours au langage naturel pour la navigation. Là où les systèmes classiques utilisent des cartes haute définition, EMMA se contente de cartes de navigation standard et d’instructions en langage naturel, comme « tourner à gauche ». Cette simplification pourrait réduire les coûts de production et améliorer l’efficacité des véhicules autonomes dans des environnements compliqués.
Évidemment, des défis subsistent. Waymo a indiqué que la version actuelle d’EMMA ne peut pas encore traiter les données 3D issues de capteurs lidar, car leur intégration reste coûteuse en ressources informatiques. De plus, le modèle ne peut analyser qu’un nombre limité d’images en simultané, ce qui pourrait freiner son déploiement à grande échelle. « Nous espérons que nos résultats encourageront d’autres recherches pour atténuer ces limitations », a déclaré l’équipe de recherche de Waymo, en soulignant qu’EMMA en est encore à un stade académique.
Malgré tout, Waymo avance à bon rythme dans le développement d’une conduite autonome performante. Avec les 150.000 trajets hebdomadaires réalisés par ses robotaxis en conditions réelles, l’entreprise se positionne en leader du secteur. Et bien que Tesla s’emploie également à développer un modèle de conduite « end-to-end » avec ses propres technologies, Waymo a une longueur d’avance grâce à son partenariat avec Google et à l’intégration de Gemini.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.