[Vidéo] OpenAI entraîne des robots en réalité virtuelle

L'association OpenAI vient de publier des travaux détaillant comment la réalité virtuelle permet à un robot d'apprendre à reproduire une tâche effectuée par un humain, mais en ne copiant pas son geste.

Partager
[Vidéo] OpenAI entraîne des robots en réalité virtuelle

OpenAI, l'association à but non lucratif cofondée par Elon Musk et Sam Altman pour "éviter que les technologies d'intelligence artificielle ne soient utilisées à mauvais escient", ne fait pas qu'étudier des scénarios hypothétiques. Elle y va aussi de ses propres efforts pour faire avancer ces technologies. L'organisation a révélé dans un communiqué de presse que ses chercheurs ont mis au point un système d'entraînement d'IA en réalité virtuelle.

Un apprentissage amélioré par la réalité virtuelle

L'algorithme est baptisé "one-shot imitation learning", c'est à dire "apprentissage par imitation en une seule fois". Pour faire simple, il permet à une machine d'apprendre à accomplir une tâche à partir d'un seul exemple fourni par un humain, même s'il n'utilise pas exactement la même solution pour y parvenir. La clé de cette approche est le fait que la démonstration est effectuée en réalité virtuelle.

Deux réseaux de neurones soigneusement entrainés

Evidemment, il y a un peu (beaucoup) de travail en amont pour parvenir à ce résultat. Le système utilise deux réseaux de neurones : un qui se charge de la vision et l'autre de l'imitation. Le réseau de vision capture une image par la caméra du robot et calcule un état qui représente la position des objets dans la scène. Le réseau de vision est entraîné par des centaines de milliers d'images simulées dans lesquelles les conditions de luminosité, les textures et même les objets changent. Le réseau n'est entrainé que sur des images virtuelles. Le réseau d'imitation, de son côté, observe une démonstration faite par un humain, en déduit l'objectif, et accomplit cet objectif même avec une autre configuration de départ. Le réseau d'imitation doit de cette manière généraliser la démonstration.

Pour pouvoir le faire, il est entrainé sur des dizaines de tâches différentes qui comportent chacune des milliers de démonstrations. Chaque exemple servant à l'entrainement est composé de deux démonstrations de la même tâche. Le réseau d'imtation reçoit l'intégralité de la première démonstration mais n'a qu'une seule observation de la seconde démonstration. Les chercheurs utilisent ensuite de l'apprentissage supervisé pour prédire quelle a été l'action du démonstrateur lors de cette seconde observation. Le robot doit ensuite apprendre à déduire quelle portion de la démonstration est pertinente pour la tâche qu'il cherche à accomplir. En l'occurrence, pour l'exemple donné, il s'agit de l'ordre des blocs, de la façon dont ils sont empilés et de leur trajectoire. Comprendre que ces éléments sont ceux qui comptent permet au réseau d'imitation de ne pas se focaliser sur la position exacte des blocs sur la table.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS