Véhicule autonome

Waymo

Google

Waymo veut s'appuyer sur Gemini pour entraîner ses voitures autonomes

La filiale d'Alphabet travaille désormais avec les applications d'IA de Google pour développer “Emma”, un modèle multimodal de bout en bout dédié à la conduite autonome. Ce dernier aidera les taxis robots de Waymo à circuler dans des environnements complexes, permettant notamment de mieux éviter les obstacles.

Yoann Bourgin

31 octobre 2024 \ 15h55

3 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

3 min. de lecture

Réagir

Yoann Bourgin

31 octobre 2024 \ 15h55

Waymo veut s'appuyer sur Gemini pour entraîner ses voitures autonomes

Waymo, filiale d'Alphabet spécialisée dans la conduite autonome, a publié le 30 octobre un rapport de présentation d'un "modèle multimodal de bout en bout pour la conduite autonome", créé à partir des modèles Gemini développés par Google, sa société sœur. Intitulé "Emma" (End-to-end Multimodal Model for Autonomous driving), ce modèle est utilisé pour l'entraînement du système de conduite. Il est capable de traiter les données issues de différents capteurs pour “générer des trajectoires futures pour les véhicules autonomes”, et d'adapter le comportement des véhicules en fonction des obstacles sur la route.

Un modèle qui imite le raisonnement humain

La filiale d'Alphabet explique recourir à des modèles multimodaux – qui associent différents types de données, en l'occurrence du texte et des images – afin de dépasser les limites des systèmes indépendants traditionnels. Ces systèmes, souvent consacrés à un module spécifique, comme la cartographie, la capacité de perception, de prédiction et de planification, n'ont pas vocation à durer, car ils génèrent des erreurs en raison d'une interconnexion restreinte et sont plus difficilement adaptables.

Concrètement, le modèle présenté organise les données brutes issues des caméras dans différentes sorties spécifiques à la conduite, comme les trajectoires de conduite, les objets perçus ou les éléments relatif au réseau routier. Emma va ensuite puiser dans les LLM pré-entraînés pour réunir les entrées non liées aux capteurs (comme les instruction de navigation) et les sorties précédemment citées sous forme de texte en langage naturel.

Les grands modèles de langage multimodaux seraient donc plus précis, car ils permettraient d'agréger de plus vastes ensembles de données que les journaux de conduite applicables à un seul véhicule. En outre, le modèle de Waymo se base sur des techniques par “chaîne de pensée", qui décomposent les tâches les plus complexes en une série d'étapes logiques. La société revendique avec ce schéma une amélioration de 6,7% des performances de planification.

S'adapter à des objets sur lesquels les systèmes n'ont pas été pré-entraînés

Waymo a identifié plusieurs cas où son modèle “Emma” a permis de trouver l'itinéraire le plus adapté et d'éviter des obstacles sur lesquels les systèmes indépendants n'ont pas été pré-entraînés. La société montre notamment une situation où un véhicule en milieu urbain dense cède le passage à un chien qui surgit au dernier moment, alors qu'il n'y a pas eu d'entraînement préalable sur “cette catégorie d'objet” perçue par la caméra (cf. image ci-dessous).

Obstacle chien Waymo

La filiale d'Alphabet évoque d'autres capacités sur son modèle comme la compréhension de la route, le "raisonnement spatial" et l'analyse des réseaux routiers. Elle planche enfin sur des fonctionnalités qui permettraient aux véhicules de s'adapter aux comportements des autres usagers de la route (cyclistes, piétons, autres automobilistes). Ces capacités élargies pourraient constituer un bond en avant pour la société de conduite autonome, lui permettant de s'étendre plus rapidement à d'autres agglomérations voire en dehors des villes. Waymo propose pour l'heure ses taxis autonomes à Los Angeles, San Francisco et Phoenix, et bientôt à Austin et Atlanta.

Des efforts à faire avant une application réelle

Le modèle présente toutefois quelques risques supplémentaires qui nécessitent d'être écartés avant toute mise en pratique. Waymo reconnaît que "Emma" ne peut traiter qu'un nombre restreint de séquences vidéo simultanément, et qu'il “n'exploite pas les entrées LiDAR et radar 3D”, trop coûteux en termes de calcul. Le modèle n'est enfin pas hermétique aux hallucinations rencontrées sur Gemini, qui pourraient avoir des conséquences désastreuses sur une voiture lancée à 65 km/h.

Waymo n'est pas la seule société à porter ses efforts sur le développement de modèles de bout en bout pour ses voitures autonomes. En novembre dernier, Elon Musk annonçait que le système d'aide à la conduite FSD de Tesla serait bientôt doté d'un "réseau neuronal de bout en bout", permettant de convertir les images capturées par les caméras en décisions de conduite.

Sélectionné pour vous