Meta avance dans la robotique avec son "world model" V-JEPA 2 entraîné sur des données vidéo
Conçu pour comprendre, prédire et planifier des actions dans le monde réel, le "world model" V-JEPA 2 développé par Meta a été entraîné sur des centaines d'heures de vidéo ainsi que des images. Il marque une avancée majeure vers une IA capable d'interagir de façon autonome avec son environnement, le premier cas d'usage étant la robotique.
Meta avance doucement sur ce qu'il nomme les "world models". Sa dernière publication porte sur V-JEPA 2, un modèle de 1,2 milliard de paramètres entraîné sur plus d'un million d'heures de contenus vidéo et un million d'images provenant de sources diverses. Ce qui retient notre attention ici, c'est la capacité de cette seconde version à prédiction des actions et à modéliser le monde. Car l'application que Meta cible derrière n'est autre que la robotique.
Construit à l'aide d'une architecture prédictive d'intégration conjointe (JEPA) et basé sur V-JEPA, son prédécesseur publié l'année dernière, V-JEPA 2 comporte deux composants principaux : un encodeur qui prend des vidéos brutes et génère des intégrations qui capturent des informations sémantiques utiles sur l'état du monde observé couplé à un prédicteur , qui prend en compte une intégration vidéo et un contexte supplémentaire sur ce qu'il faut prédire et génère des intégrations prédites. L'entraînement V-JEPA 2 se déroule en deux étapes : un pré-entraînement sans action, suivi d'un entraînement supplémentaire conditionné par l'action.
Un modèle appliqué à la robotique
Avec un tel modèle, l'objectif est d'aider les robots à interagir avec des objets et des environnements inconnus pour accomplir une tâche. Meta opte par ailleurs pour la disponibilité du code et des points de contrôle du modèle V-JEPA 2 pour des applications commerciales et de recherche, l'intérêt étant d'accélérer les progrès sur le sujet et développer des "world models" capables de transformer la façon dont l'IA interagit avec le monde physique.
Dans leur rapport technique, les chercheurs démontrent notamment qu'un entraînement avec seulement 62 heures de données robotiques produit déjà un modèle utilisable pour la planification et le contrôle. Ils expliquent également que le prédicteur V-JEPA 2 peut être utilisé pour des tâches fondamentales telles que l'atteinte, la prise d'un objet et son positionnement.
Il atteint des taux de réussite de l'ordre de 65% à 80% pour saisir et placer de nouveaux objets dans des environnements nouveaux, précise Meta. La firme ajoute par ailleurs que le modèle fonctionne 30 fois plus vite que le modèle concurrent Cosmos de Nvidia, tout en atteignant des performances de pointe sur les benchmarks de compréhension vidéo.
Un objectif (très long terme)
Pour atteindre son objectif d'intelligence artificielle avancée, Meta estime qu'il est crucial de disposer de systèmes d'IA capables d'apprendre le monde comme le font les humains, de planifier l'exécution de tâches inhabituelles et de s'adapter efficacement à un monde en constante évolution. "Notre vision à long terme est que les modèles du monde permettront aux agents d'IA de planifier et de raisonner dans le monde physique".
Actuellement, V-JEPA 2 apprend et effectue des prédictions à une seule échelle de temps. Cependant, de nombreuses tâches nécessitent une planification sur plusieurs échelles de temps et de décomposer une tâche complexe en étapes plus petites, comme charger le lave-vaisselle ou préparer un gâteau. Les équipes IA de Meta indiquent se concentrer sur l'entraînement de modèles JEPA hiérarchiques capables d'apprendre, de raisonner et de planifier sur plusieurs échelles temporelles et spatiales. Les autres voies qu'ils pourraient emprunter sont le développement de modèles JEPA multimodaux capables d'effectuer des prédictions à l'aide de divers sens, notamment la vue, l'ouïe et le toucher.
SUR LE MÊME SUJET
Meta avance dans la robotique avec son "world model" V-JEPA 2 entraîné sur des données vidéo
Tous les champs sont obligatoires
0Commentaire
Réagir