Robotique

Google

Recherche

Google sort un modèle Gemini capable de tourner en local sur des robots

Google DeepMind a présenté “Gemini Robotics On-Device”, un modèle vision-langage-action pour la robotique qui peut exécuter des tâches en local, sans connexion internet. Adapté pour fonctionner sur des robots à deux bras et humanoïdes, le modèle obtient des performances quasi-similaires à celui basé sur le cloud.

Yoann Bourgin

25 juin 2025 \ 14h41

2 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

2 min. de lecture

Réagir

Yoann Bourgin

25 juin 2025 \ 14h41

Google sort un modèle Gemini capable de tourner en local sur des robots — Le robot humanoïde Apollo d'Apptronik a pu saisir et manipuler des objets à l'aide du modèle local Gemini Robotics On-Device.

Permettre aux robots de réaliser des tâches de manière autonome, même avec une connectivité réseau incertaine : c'est l'objectif que s'est fixé Google DeepMind, avec son nouveau modèle “Gemini Robotics On-Device”. Dérivé du modèle vision-langage-action (VLA) “Gemini Robotics” présenté en mars, ce nouveau modèle peut fonctionner localement.

50 à 100 démonstrations suffiraient à adapter les robots à de nouvelles tâches

Le modèle original, Gemini Robotics, est destiné à permettre aux robots de réaliser de nombreuses tâches, y compris celles nécessitant une motricité précise, sans entraînement spécifique préalable. Il peut être affiné et contrôlé par des développeurs pour s'adapter rapidement à certains besoins en particulier. Or celui-ci repose sur une approche hybride, avec un petit modèle directement sur le robot et un plus grand basé sur le cloud.

performance gemini robotics on device
“Gemini Robotics On-Device est le premier modèle VLA que nous proposons pour un réglage fin, assure dans un communiqué Carolina Parada, responsable de la robotique chez Google DeepMind. Notre modèle s'adapte rapidement aux nouvelles tâches avec seulement 50 à 100 démonstrations, ce qui témoigne de la capacité de ce modèle on-device à généraliser ses connaissances fondamentales à de nouvelles tâches”. La division d'IA assure que ce modèle, qui fonctionne sur une inférence à faible latence, offre des performances quasi-similaires à celui basé sur une approche hybride (cf. image ci-dessus) et qu'il surpasse les autres modèles embarqués sur les segments visuels, sémantiques et comportementaux.

Plier, dessiner, assembler…

Bien que le modèle ait uniquement été entraîné sur les robots Aloha, développés par l'université de Stanford, Google DeepMind l'a adapté à d'autres appareils, comme le robot bi-bras Franka FR3 et l'humanoïde Apollo d'Apptronik. Ce dernier a notamment été capable de plier des vêtements et d'exécuter plusieurs tâches d'assemblage de courroies, tandis qu'Apollo a pu manipuler différents objets (un vêtement, des bonbons, une balle et un Rubik's Cube) à partir d'instructions en langage naturel. Google a testé d'autres tâches de manipulation exigeantes, comme le dessin d'une carte ou la fermeture éclair d'une boîte.

En parallèle, Google DeepMind a lancé un kit de développement logiciel (SDK) dédié pour aider les développeurs à évaluer ce modèle et à le tester dans le moteur physique MuJoCo. C'est la première fois que Google propose un SDK pour un modèle VLA. “Les développeurs peuvent accéder au SDK en s'inscrivant à notre programme de testeurs de confiance”, précise toutefois la branche d'IA.

Cette annonce intervient moins de trois mois après la présentation par Nvidia de Groot, une plateforme conçue pour créer des modèles fondamentaux dans la robotique humanoïde. Plusieurs start-up américaines à forte croissance, comme Physical Intelligence et Skild AI, s'attellent également à développer des modèles de fondation dans la robotique. À noter enfin la présence du sud-coréen RWRLD, qui met au point des modèles de fondation à partir de systèmes robotiques, de capteurs et de workflows industriels.