Google fait entrer l'IA générative dans les algorithmes d'apprentissage de ses robots

Google DeepMind a présenté RT-2, un nouveau "modèle d'action-vision-langage", qui combine les capacités des grands modèles de langage entraînés sur le web avec les mécanismes permettant aux robots de service de réaliser des actions dans leur environnement. 

Partager
Google fait entrer l'IA générative dans les algorithmes d'apprentissage de ses robots

Les grands modèles de langage (LLM) utilisés pour l'intelligence artificielle générative servent désormais aussi à entraîner les robots. Alphabet, qui avait annoncé il y a un an qu'il allait rapprocher les recherches menées par sa division Everyday Robots de celles concernant la compréhension du langage naturel, à partir de son modèle de langage PaLM (sur lequel repose Bard), a présenté un nouveau prototype de robot de service, reposant sur un algorithme de machine learning baptisé RT-2 (Robotics Transformer 2).

Ce nouvel algorithme permet de faire effectuer des tâches au robot sans lui donner une série de d'instructions précises, mais plutôt un objectif qu'il va réussir lui-même à diviser en liste d'actions. Autrement dit, l'algorithme va utiliser le modèle de langage pour interpréter la commande en langage naturel et planifier ses actions en conséquence.

Comprendre, voir, interpréter et faire

RT-2 est la nouvelle version de ce que la maison mère de Google appelle son "modèle d'action-vision-langage" (VLA), qui combine l'interprétation de phrases en langage naturel et de données visuelles pour les convertir en actions.

Le New York Times, qui a pu bénéficier d'une démonstration, a pu constater comment un bras robotisé a ainsi répondu à une instruction complexe lui demandant de ramasser l'"animal qui n'existe plus" parmi une série de figurines (il a choisi celle du dinosaure). Les tests ont également démontré la capacité du robot à trouver un objet "qui pourrait servir de marteau" (il choisit une pierre), ou à servir une boisson "à quelqu'un de fatigué" (une boisson énergisante). Mais le NYT a aussi observé que le robot s'était trompé en choisissant un arôme de soda, par exemple.

Des robots capables d'apprendre "comme nous"

Le recours à l'IA générative, et à l'entraînement à partir de données textuelles et visuelles puisées directement sur internet, élargit ainsi les capacités d'inférence du robot, qui va pouvoir effectuer des tâches pour lesquelles il n'a jamais été spécifiquement programmé.

"Avec RT-2, les robots sont capables d'apprendre comme nous, en transférant des concepts connus à de nouvelles situations", résume Vincent Vanhoucke, chercheur et directeur de la robotique chez Google DeepMind, dans un billet de blog. "Non seulement RT-2 démontre comment les avancées en matière d'IA ruissellent rapidement dans le domaine de la robotique, mais il laisse aussi entrevoir les énormes promesses qu'il porte pour les robots polyvalents", ajoute-t-il.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS