Google sort un modèle Gemini capable de tourner en local sur des robots

Google DeepMind a présenté “Gemini Robotics On-Device”, un modèle vision-langage-action pour la robotique qui peut exécuter des tâches en local, sans connexion internet. Adapté pour fonctionner sur des robots à deux bras et humanoïdes, le modèle obtient des performances quasi-similaires à celui basé sur le cloud.

Partager
Google sort un modèle Gemini capable de tourner en local sur des robots
Le robot humanoïde Apollo d'Apptronik a pu saisir et manipuler des objets à l'aide du modèle local Gemini Robotics On-Device.

Permettre aux robots de réaliser des tâches de manière autonome, même avec une connectivité réseau incertaine : c'est l'objectif que s'est fixé Google DeepMind, avec son nouveau modèle “Gemini Robotics On-Device”. Dérivé du modèle vision-langage-action (VLA) “Gemini Robotics” présenté en mars, ce nouveau modèle peut fonctionner localement.

50 à 100 démonstrations suffiraient à adapter les robots à de nouvelles tâches

Le modèle original, Gemini Robotics, est destiné à permettre aux robots de réaliser de nombreuses tâches, y compris celles nécessitant une motricité précise, sans entraînement spécifique préalable. Il peut être affiné et contrôlé par des développeurs pour s'adapter rapidement à certains besoins en particulier. Or celui-ci repose sur une approche hybride, avec un petit modèle directement sur le robot et un plus grand basé sur le cloud.

performance gemini robotics on device
“Gemini Robotics On-Device est le premier modèle VLA que nous proposons pour un réglage fin, assure dans un communiqué Carolina Parada, responsable de la robotique chez Google DeepMind. Notre modèle s'adapte rapidement aux nouvelles tâches avec seulement 50 à 100 démonstrations, ce qui témoigne de la capacité de ce modèle on-device à généraliser ses connaissances fondamentales à de nouvelles tâches”. La division d'IA assure que ce modèle, qui fonctionne sur une inférence à faible latence, offre des performances quasi-similaires à celui basé sur une approche hybride (cf. image ci-dessus) et qu'il surpasse les autres modèles embarqués sur les segments visuels, sémantiques et comportementaux.

Plier, dessiner, assembler…

Bien que le modèle ait uniquement été entraîné sur les robots Aloha, développés par l'université de Stanford, Google DeepMind l'a adapté à d'autres appareils, comme le robot bi-bras Franka FR3 et l'humanoïde Apollo d'Apptronik. Ce dernier a notamment été capable de plier des vêtements et d'exécuter plusieurs tâches d'assemblage de courroies, tandis qu'Apollo a pu manipuler différents objets (un vêtement, des bonbons, une balle et un Rubik's Cube) à partir d'instructions en langage naturel. Google a testé d'autres tâches de manipulation exigeantes, comme le dessin d'une carte ou la fermeture éclair d'une boîte.

En parallèle, Google DeepMind a lancé un kit de développement logiciel (SDK) dédié pour aider les développeurs à évaluer ce modèle et à le tester dans le moteur physique MuJoCo. C'est la première fois que Google propose un SDK pour un modèle VLA. “Les développeurs peuvent accéder au SDK en s'inscrivant à notre programme de testeurs de confiance”, précise toutefois la branche d'IA.

Cette annonce intervient moins de trois mois après la présentation par Nvidia de Groot, une plateforme conçue pour créer des modèles fondamentaux dans la robotique humanoïde. Plusieurs start-up américaines à forte croissance, comme Physical Intelligence et Skild AI, s'attellent également à développer des modèles de fondation dans la robotique. À noter enfin la présence du sud-coréen RWRLD, qui met au point des modèles de fondation à partir de systèmes robotiques, de capteurs et de workflows industriels.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS