DeepMind, le laboratoire d'Alphabet (maison-mère de Google) dédié à l'intelligence artificielle, présente ce mercredi 4 octobre des avancées majeures en matière de robotique. A travers une étude, il a démontré que la formation d'un modèle unique sur des données issues de plusieurs robots conduisait à des performances nettement meilleures comparées à un modèle formé à partir de données spécialisées. Le but : développer un robot à usage généraliste pour mettre fin à l'ultra spécialisation des robots.

L'ensemble de données "le plus complet"

Les chercheurs de DeepMind ont collaboré avec 33 laboratoires de recherche. Ces travaux ont donné naissance à l'ensemble de données "Open-X Embodiment", qui regroupe les données issues de 22 robots démontrant plus de 500 compétences et 150 000 tâches. Il s'agit de "l'ensemble de données robotiques le plus complet de ce type", d'après le laboratoire qui se félicite de "cette étape clé pour former un modèle généraliste".



Open-X Embodiment a ensuite été utilisé pour développer deux modèles – RT-1-X et RT-2-X – issus de modèles existants. RT-1 est un modèle de contrôle robotique à grande échelle et RT-2, un modèle d'action-vision-langage présenté en août dernier par le laboratoire. Leurs performances ont été comparées aux modèles d'origine entraînés pour des tâches bien spécifiques (les manipulations en cuisine, l'ouverture d'une porte...). Elles sont nettement supérieures, concluent les chercheurs dans leur étude. C'est ainsi que "RT-1-X formé avec Open-X Embodiment a surpassé le modèle d'origine de 50% en moyenne", annoncent-ils.





Quant à RT-2-X, il a démontré des compétences dont le modèle d'origine n'était pas capable, une meilleure compréhension spatiale en particulier. La preuve, d'après DeepMind, que "la combinaison des données d'autres robots dans la formation améliore la gamme de tâches qui peuvent être effectuées".