Google fait entrer l'IA générative dans les algorithmes d'apprentissage de ses robots
Google DeepMind a présenté RT-2, un nouveau "modèle d'action-vision-langage", qui combine les capacités des grands modèles de langage entraînés sur le web avec les mécanismes permettant aux robots de service de réaliser des actions dans leur environnement.
Les grands modèles de langage (LLM) utilisés pour l'intelligence artificielle générative servent désormais aussi à entraîner les robots. Alphabet, qui avait annoncé il y a un an qu'il allait rapprocher les recherches menées par sa division Everyday Robots de celles concernant la compréhension du langage naturel, à partir de son modèle de langage PaLM (sur lequel repose Bard), a présenté un nouveau prototype de robot de service, reposant sur un algorithme de machine learning baptisé RT-2 (Robotics Transformer 2).
Ce nouvel algorithme permet de faire effectuer des tâches au robot sans lui donner une série de d'instructions précises, mais plutôt un objectif qu'il va réussir lui-même à diviser en liste d'actions. Autrement dit, l'algorithme va utiliser le modèle de langage pour interpréter la commande en langage naturel et planifier ses actions en conséquence.
Comprendre, voir, interpréter et faire
RT-2 est la nouvelle version de ce que la maison mère de Google appelle son "modèle d'action-vision-langage" (VLA), qui combine l'interprétation de phrases en langage naturel et de données visuelles pour les convertir en actions.
Le New York Times, qui a pu bénéficier d'une démonstration, a pu constater comment un bras robotisé a ainsi répondu à une instruction complexe lui demandant de ramasser l'"animal qui n'existe plus" parmi une série de figurines (il a choisi celle du dinosaure). Les tests ont également démontré la capacité du robot à trouver un objet "qui pourrait servir de marteau" (il choisit une pierre), ou à servir une boisson "à quelqu'un de fatigué" (une boisson énergisante). Mais le NYT a aussi observé que le robot s'était trompé en choisissant un arôme de soda, par exemple.
Des robots capables d'apprendre "comme nous"
Le recours à l'IA générative, et à l'entraînement à partir de données textuelles et visuelles puisées directement sur internet, élargit ainsi les capacités d'inférence du robot, qui va pouvoir effectuer des tâches pour lesquelles il n'a jamais été spécifiquement programmé.
"Avec RT-2, les robots sont capables d'apprendre comme nous, en transférant des concepts connus à de nouvelles situations", résume Vincent Vanhoucke, chercheur et directeur de la robotique chez Google DeepMind, dans un billet de blog. "Non seulement RT-2 démontre comment les avancées en matière d'IA ruissellent rapidement dans le domaine de la robotique, mais il laisse aussi entrevoir les énormes promesses qu'il porte pour les robots polyvalents", ajoute-t-il.