Meta accélère sur l'IA multimodale et l'agentique avec une série de modèles dédiés

Combinant des expertises en vision par ordinateur, en apprentissage automatique et en robotique, le laboratoire FAIR de Meta a mis au point plusieurs modèles et frameworks qui ouvrent la voie à la multimodalité et à l'agentique. Point d'étape sur les derniers travaux de recherche du géant.

Partager
Meta accélère sur l'IA multimodale et l'agentique avec une série de modèles dédiés
Exemple de reconnaissance d'objets avec Meta Locate 3D.

Meta avance sur la voie de l'intelligence artificielle. Ou plutôt sur ce qu'il nomme "l'Advanced Machine Intelligence (AMI)". Son laboratoire FAIR (recherche fondamentale en intelligence artificielle) vient de publier plusieurs travaux de recherche en matière de perception, de localisation et de raisonnement, notamment sur l'image, la vidéo et la 3D. L'Usine Digitale fait le point sur ces publications.

Améliorer la perception

L'amélioration de la perception est l'un des axes majeurs de recherche des équipes IA de Meta. Le fruit de leurs recherches s'appelle Meta Perpection Language Model (PLM). En quelques mots, il s'agit de modèles capables de mieux interpréter les données sensorielles pour une compréhension plus fine des environnements complexes. Pour y parvenir, Meta a entraîné le modèle sur une combinaison de "données synthétiques générées à grande échelle et d'ensembles de données ouverts de compréhension du langage visuel, sans aucune distillation de modèles externes".

Une seconde phase a permis de collecter "2,5 millions de nouveaux échantillons de contrôle qualité vidéo précis et de sous-titres spatio-temporels, étiquetés manuellement, afin de combler ces lacunes". Le PLM propose des variantes avec 1, 3 et 8 milliards de paramètres, ce qui le rend parfaitement adapté à la recherche universitaire, indique FAIR.

Un modèle d'encodage visuel axé sur le multimodal

En parallèle, Meta a publié Perception Encoder (PE), un modèle d'encodage visuel, conçu pour améliorer la compréhension des images et des vidéos dans des tâches variées telles que la classification, la détection, la segmentation et le format question-réponse multimodal. Pour cela, les chercheurs ayant planché sur le développement de ce modèle ont combiné deux techniques, l'alignement linguistique et l'alignement spatial.

Ainsi, le modèle est particulièrement adapté aux systèmes d'IA multimodaux, où une compréhension visuelle approfondie est essentielle. Ses applications peuvent aller de la robotique à la réalité augmentée en passant par les assistants "intelligents".

La localisation se précise un peu plus chaque jour

Afin d'améliorer la capacité des systèmes à déterminer leur position dans l'espace, ce qui est crucial pour des applications comme la réalité augmentée et la robotique, les équipes de FAIR ont développé des algorithmes avancés, à l'instar de Meta Locate 3D. Ce modèle est capable de localiser précisément des objets à partir de requêtes. Meta Locate 3D exploite directement les nuages de points 3D des capteurs RVB-D reçus d'un robot.

Lorsqu'on lui fournit une instruction textuelle, comme "vase de fleurs près du meuble TV", le modèle prend en compte les relations spatiales et le contexte pour identifier l'instance spécifique de l'objet, par exemple "vase près du meuble TV" et non "vase sur la table", et peut déterminer l'emplacement exact de l'objet.

Meta Locate 3D se compose de trois composants clés : une étape de prétraitement qui élève d’abord les entités de base 2D en nuages de points 3D ; l'encodeur 3D-JEPA ; le décodeur Locate 3D, qui prend la représentation 3D-JEPA et une requête de langage et produit à la fois des cadres de délimitation et des masques pour les objets spécifiés. Meta indique publier en outre un autre ensemble de données pour la localisation d'objets basée sur des expressions de référence qui comprend 130 000 annotations linguistiques réparties sur trois jeux de données largement utilisés : ARKitScenes, ScanNet et ScanNet++, et couvre 1 346 scènes.

Le raisonnement avancé pour créer des agents IA efficaces

Enfin, Meta publie un framework pour évaluer et améliorer les compétences de raisonnement collaboratif des modèles de langage. Baptisé Collaborative Reasoner, il vise à créer des agents d'IA capables de travailler efficacement avec des humains ou d'autres agents d'IA pour accomplir des tâches complexes, en intégrant des compétences sociales telles que la communication, l'empathie et la compréhension des perspectives d'autrui.

Le framework comprend une suite de tâches orientées vers des objectifs nécessitant un raisonnement en plusieurs étapes, accompli conjointement par deux agents via une conversation à plusieurs tours. Les tâches et les métriques du Collaborative Reasoner exigent que les agents expriment des désaccords sur les solutions, convainquent leur partenaire de la solution correcte et parviennent finalement à un consensus sur la meilleure solution en tant qu'équipe.

Meta s'est notamment appuyé sur une approche d'auto-amélioration utilisant des données d'interaction synthétiques générées par auto-collaboration, c'est-à-dire un agent LLM collaborant avec lui-même, pour parvenir à ce résultat. Sur des tâches mathématiques (MATH), scientifiques (MMLU-Pro, GPQA) et de raisonnement social (ExploreToM, HiToM), cette approche a permis des améliorations allant jusqu'à 29,4% par rapport aux performances en chaîne de pensée d'un LLM unique équivalent.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS