Waymo veut s'appuyer sur Gemini pour entraîner ses voitures autonomes

La filiale d'Alphabet travaille désormais avec les applications d'IA de Google pour développer “Emma”, un modèle multimodal de bout en bout dédié à la conduite autonome. Ce dernier aidera les taxis robots de Waymo à circuler dans des environnements complexes, permettant notamment de mieux éviter les obstacles.

Partager
Waymo veut s'appuyer sur Gemini pour entraîner ses voitures autonomes

Waymo, filiale d'Alphabet spécialisée dans la conduite autonome, a publié le 30 octobre un rapport de présentation d'un "modèle multimodal de bout en bout pour la conduite autonome", créé à partir des modèles Gemini développés par Google, sa société sœur. Intitulé "Emma" (End-to-end Multimodal Model for Autonomous driving), ce modèle est utilisé pour l'entraînement du système de conduite. Il est capable de traiter les données issues de différents capteurs pour “générer des trajectoires futures pour les véhicules autonomes”, et d'adapter le comportement des véhicules en fonction des obstacles sur la route.

Un modèle qui imite le raisonnement humain

La filiale d'Alphabet explique recourir à des modèles multimodaux – qui associent différents types de données, en l'occurrence du texte et des images – afin de dépasser les limites des systèmes indépendants traditionnels. Ces systèmes, souvent consacrés à un module spécifique, comme la cartographie, la capacité de perception, de prédiction et de planification, n'ont pas vocation à durer, car ils génèrent des erreurs en raison d'une interconnexion restreinte et sont plus difficilement adaptables.

Concrètement, le modèle présenté organise les données brutes issues des caméras dans différentes sorties spécifiques à la conduite, comme les trajectoires de conduite, les objets perçus ou les éléments relatif au réseau routier. Emma va ensuite puiser dans les LLM pré-entraînés pour réunir les entrées non liées aux capteurs (comme les instruction de navigation) et les sorties précédemment citées sous forme de texte en langage naturel.

Les grands modèles de langage multimodaux seraient donc plus précis, car ils permettraient d'agréger de plus vastes ensembles de données que les journaux de conduite applicables à un seul véhicule. En outre, le modèle de Waymo se base sur des techniques par “chaîne de pensée", qui décomposent les tâches les plus complexes en une série d'étapes logiques. La société revendique avec ce schéma une amélioration de 6,7% des performances de planification.

S'adapter à des objets sur lesquels les systèmes n'ont pas été pré-entraînés

Waymo a identifié plusieurs cas où son modèle “Emma” a permis de trouver l'itinéraire le plus adapté et d'éviter des obstacles sur lesquels les systèmes indépendants n'ont pas été pré-entraînés. La société montre notamment une situation où un véhicule en milieu urbain dense cède le passage à un chien qui surgit au dernier moment, alors qu'il n'y a pas eu d'entraînement préalable sur “cette catégorie d'objet” perçue par la caméra (cf. image ci-dessous).

Obstacle chien Waymo

La filiale d'Alphabet évoque d'autres capacités sur son modèle comme la compréhension de la route, le "raisonnement spatial" et l'analyse des réseaux routiers. Elle planche enfin sur des fonctionnalités qui permettraient aux véhicules de s'adapter aux comportements des autres usagers de la route (cyclistes, piétons, autres automobilistes). Ces capacités élargies pourraient constituer un bond en avant pour la société de conduite autonome, lui permettant de s'étendre plus rapidement à d'autres agglomérations voire en dehors des villes. Waymo propose pour l'heure ses taxis autonomes à Los Angeles, San Francisco et Phoenix, et bientôt à Austin et Atlanta.

Des efforts à faire avant une application réelle

Le modèle présente toutefois quelques risques supplémentaires qui nécessitent d'être écartés avant toute mise en pratique. Waymo reconnaît que "Emma" ne peut traiter qu'un nombre restreint de séquences vidéo simultanément, et qu'il “n'exploite pas les entrées LiDAR et radar 3D”, trop coûteux en termes de calcul. Le modèle n'est enfin pas hermétique aux hallucinations rencontrées sur Gemini, qui pourraient avoir des conséquences désastreuses sur une voiture lancée à 65 km/h.

Waymo n'est pas la seule société à porter ses efforts sur le développement de modèles de bout en bout pour ses voitures autonomes. En novembre dernier, Elon Musk annonçait que le système d'aide à la conduite FSD de Tesla serait bientôt doté d'un "réseau neuronal de bout en bout", permettant de convertir les images capturées par les caméras en décisions de conduite.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS