3D

Innovation

Recherche

Avec son modèle d'IA Genie 2, Google s'attaque aux mondes virtuels 3D

Genie 2 élargit le champ des possibles en matière de création d'environnement 3D interactif et d'entraînement d'agents IA avec des applications dans des domaines tels que les jeux vidéo et la simulation. Entraîné sur une vaste quantité de données vidéo, elles-mêmes basées sur des contenus générés par Imagen 3, le modèle d'IA peut créer un monde cohérent pendant environ une minute avec des résultats impressionnants.

Célia Séramour

06 décembre 2024 \ 11h11

3 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

3 min. de lecture

Réagir

Célia Séramour

06 décembre 2024 \ 11h11

Avec son modèle d'IA Genie 2, Google s'attaque aux mondes virtuels 3D — Le modèle Genie 2 s'appuie sur des images générées par un autre modèle : Imagen 3.

Le monde de la 3D pourrait connaître un nouveau souffle avec la démocratisation de l'IA générative. Les équipes de Google DeepMind ont développé un modèle fondamental baptisé Genie 2 capable de générer une variété infinie d'environnements 3D jouables et contrôlables par l'action pour l'entraînement et l'évaluation d'agents incarnés. Basé sur une seule image d'invite, il peut être joué par un agent humain ou IA à l'aide d'entrées clavier et souris.

"Jusqu'à présent, les modèles de mondes se limitaient en grande partie à la modélisation de domaines restreints. Dans Genie 1, nous avons introduit une approche permettant de générer un large éventail de mondes 2D. Aujourd'hui, nous présentons Genie 2, qui représente un bond en avant significatif en matière de généralité", promet Google. Genie 2 peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.).

Genie 2 s'appuie sur un autre modèle développé par Google : Imagen 3

Il a été entraîné sur un ensemble de données vidéo à grande échelle et, à l'instar d'autres modèles, démontre des capacités à grande échelle, telles que les interactions avec les objets, l'animation complexe de personnages, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents. Les exemples publiés dans l'article de recherche prennent pour base des images générées par un autre modèle de Google, Imagen 3, disponible pour tous depuis le début de la semaine.

Après avoir traversé un autoencodeur, les images latentes de la vidéo sont transmises à un grand modèle de type Transformer, entraîné un masque causal similaire à celui utilisé par les grands modèles de langage, expliquent les chercheurs. Au moment de l'inférence, Genie 2 peut être échantillonné de manière autorégressive, en prenant en compte les actions individuelles et les images latentes passées image par image.

La possibilité de générer des mondes virtuels de 60 secondes

L'aspect le plus impressionnant est la possibilité pour n'importe qui à décrire un monde qu'il souhaite sous forme de texte, sélectionner son rendu préféré de cette idée, puis entrer dans ce monde nouvellement créé et interagir avec lui. Genie 2 s'appuie sur les actions données par une personne ou un agent au clavier et à la souris, et simule ensuite l'observation suivante.

"Genie 2 réagit intelligemment aux actions effectuées en appuyant sur les touches d'un clavier, en identifiant le personnage et en le déplaçant correctement. Par exemple, notre modèle doit comprendre que les touches fléchées doivent déplacer le robot et non les arbres ou les nuages", prennent en exemple les chercheurs. A date, Genie 2 peut générer des mondes cohérents pendant une minute au maximum, la majorité des exemples présentés durant 10 à 20 secondes.

Développer une IA sécurisée et tendre vers la fameuse "AGI"

Avec le modèle Genie 2, Google espère faire avancer le développement d'une IA sécurisée : la nature engageante des jeux, leur mélange de défis et leurs progrès mesurables en font des environnements idéaux pour tester et faire progresser les capacités de l'IA, affirme le géant. Depuis ses débuts, DeepMind s'est régulièrement basé sur le monde du jeu pour faire avancer ses travaux. Cela passe par ses premiers travaux sur les jeux Atari, en passant par des avancées telles qu'AlphaGo et AlphaStar, jusqu'à ses recherches sur les agents généralistes en collaboration avec des développeurs de jeux.

Si nous n'en sommes qu'aux prémices de Genie 2, Google espère qu'à l'avenir les artistes et concepteurs pourront prendre en main son modèle pour "créer rapidement des prototypes, ce qui peut accélérer le processus créatif de conception d'environnements", et dans le même temps, aider les chercheurs à pousser le développement de leur modèle, bien évidemment.

Entre les lignes, Google fait également comprendre qu'il veut s'attaquer à l'obsession d'un autre ponte de l'IA - OpenAI - à savoir l'intelligence générale artificielle ou AGI. "Bien que cette recherche soit encore à ses débuts et qu’il existe une marge d’amélioration substantielle en ce qui concerne les capacités de génération d’agents et d’environnements, nous pensons que Genie 2 est la voie à suivre pour résoudre un problème structurel d'entraînement d’agents incarnés en toute sécurité tout en atteignant l’ampleur et la généralité requises pour progresser vers l’AGI".

Sélectionné pour vous