Recevez chaque jour toute l'actualité du numérique

x

Facebook dévoile Ego4D, un set de données pour entraîner les modèles d'IA à percevoir le monde à la première personne

Vidéo Pour que de lunettes de réalité augmentée puissent un jour permettre à leur utilisateur d'apprendre à jouer de la batterie ou à retrouver ses clés dans son logement, il faut d'abord entraîner des modèles d'intelligence artificielle à reconnaître leur environnement. Or cela doit être fait depuis une vue à la première personne, pour laquelle il existe très peu de vidéos. Pour pallier ce manque, Facebook s'est associé à 13 universités pour créer un dataset public qu'il voit comme un ImageNet de la vidéo dite "égocentrique".
Twitter Facebook Linkedin Flipboard Email
×

Facebook dévoile Ego4D, un set de données pour entraîner les modèles d'IA à percevoir le monde à la première personne
Facebook dévoile Ego4D, un set de données pour entraîner les modèles d'IA à percevoir le monde à la première personne © Facebook

L'équipe de Facebook travaillant sur l'intelligence artificielle annonce Ego4D, un projet de recherche à long terme sur la perception égocentrique du monde par les machines. Qu'entend-on par égocentrique ? Qui est vu à la première personne et pas à la troisième (comme c'est le cas pour la grande majorité des photos et vidéos capturées).

Le principal cas d'usage associé est la compréhension contextuelle pour un assistant personnel intégré à des lunettes de réalité augmentée. Pas étonnant donc que le projet soit mené en collaboration avec Facebook Reality Labs Research. Autre partenaraire clé : un consortium composé de 13 universités et laboratoires répartis dans neuf pays différents (voir la liste complète des universités). Facebook a financé le projet par le biais de dons aux universités.
 


Plus de 2600 heures de vidéo
Ensemble, les 13 établissements ont capturé plus de 2200 heures de vidéo filmées à la première personne dans des situations naturelles, impliquant 700 participants vivant leur vie de tous les jours (ex. faire des courses, cuisines, parler à des amis en jouant à des jeux, se balader en famille...). Les captures ont été effectuées à partir de produits sur étagère et suivant les procédures de chaque université. Facebook déclare que cet ensemble de données est 20 fois plus grand que ce qui existait auparavant pour ce type spécifique de vidéo.

Les participants ont capturé des données au Royaume-Uni, en Italie, en Inde, au Japon, en Arabie Saoudite, à Singapour et aux Etats-Unis. Un effort a été fait sur la diversité de l'acquisition des données, avec des sujets d'âge, de genre et de professions différentes. d'autres captures vont aussi avoir lieu en Colombie et au Rwanda afin de diversifier au maximum les données, personnes et activités impliquées dans le projet.

Les chercheurs de FRL Research ont également filmé 400 heures de vidéo à la première personne à l'aide de lunettes Vuzix Blade dans des environnements préconstruits et suivant des scénarios précis, avec le consentement signé des personnes présentes dans les vidéos. On peut imaginer qu'à l'avenir, les Ray-Ban Stories récemment annoncées par Facebook faciliteront la capture de vidéos de ce type.

Créer "l'ImageNet de la vidéo à la première personne"
L'utilité de ces heures de vidéo est qu'elles vont permettre d'entraîner des modèles de machine learning à reconnaître des environnements, scènes et objets depuis ce point de vue très spécifique. En effet, les progrès fulgurants des quinze dernières années en matière de reconnaissance visuelle ont été rendus possible par l'abondance d'images disponibles pour l'entraînement des systèmes, mais ces dernières ne sont pas compatibles avec une perspective "égocentrique" du monde, comme l'illustre l'image d'en-tête de cet article.

Toujours dans le cadre du projet Ego4D, Facebook a mis au point 5 challenges de référence qui permettront selon lui de faire avancer l'état de l'art en matière de compréhension égocentrique du monde :

  • Mémoire épisodique : Qu'est-ce qui s'est passé à tel moment (ex. "Où ai-je mis mes clés ?")
  • Prévision : Quelle est la prochaine chose que je vais probalement faire (ex. "Attention, vous avez déjà ajouté du sel dans ce plat")
  • Manipulation d'objets : Qu'est-ce que je suis en train de faire (ex. "Apprend moi à jouer de la batterie")
  • Journalisation auditive et visuelle: Qui a dit quoi à tel moment (ex. "Quel était le sujet principal du cours ?")
  • Interaction sociale : Qui interagit avec qui (ex. "Aide moi à mieux entendre la personne qui me parle dans ce restaurant bruyant")

A terme, l'objectif est de permettre une personnalisation extrême de l'expérience informatique en fonction de chaque utilisateur, et qui soit basée sur leur présence physique dans le monde. Evidemment, pour entraîner un modèle, il faut que les données soient étiquetées. Une tâche réalisées par des sous-traitants afin de produire des millions d'étiquettes et permettre aux chercheurs d'entrer directement dans le vif du sujet.

Ces sets de données seront publiés au mois de novembre 2021 pour les chercheurs souhaitant s'emparer du sujet. Facebook tentera de mobiliser la communauté de la recherche sur le sujet à partir de 2022, de la même manière qu'elle a été galvanisée par le passé sur la vision par ordinateur d'images à la troisième personne par des challenges associés à des datasets comme MNIST, COCO et ImageNet.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.