Google réplique à Meta avec Imagen Video, sa solution pour transformer du texte en vidéo

Google aussi a mis au point sa solution de création de vidéo à partir d'une commande textuelle. L'entreprise a dévoilé Imagen Video, quelques mois après la présentation de Google Imagen, qui transforme un texte en image, et quelques jours après Make-a-Video, la solution concurrente des chercheurs de Meta.

Partager
Google réplique à Meta avec Imagen Video, sa solution pour transformer du texte en vidéo

Après la présentation de Make-A-Video par Meta, Google réplique. L'entreprise a dévoilé Imagen Video, son système de création de vidéo à partir d'une description écrite. Cette annonce fait suite à la présentation de Google Imagen (une solution pour transformer du texte en images) il y a quelques mois seulement, ce qui laisse supposer que ces nouveaux modèles d'intelligence artificielle transformant du texte en vidéo ont été développés très rapidement.

Des vidéos en résolution 1280 x 768

Google assure être capable de produire des vidéos d'une résolution de 1280 x 768 pixels avec 24 images par seconde à partir d'un texte. L'entreprise explique "confirmer et transférer les résultats des travaux antérieurs sur la génération d'images basée sur des modèles de diffusion à la génération de vidéo." Sur le site sont visibles des vidéos comme "un ours en peluche courant dans New York", "un drone survole une forêt tropicale recouverte de neige", "un ours en peluche fait la vaisselle".

Pour parvenir à ce résultat, Google s'appuie sur Imagen. Pour cette première solution traduisant du texte en image, l'entreprise explique s'appuyer sur les grands modèles de compréhension du langage ainsi que sur des modèles de diffusion pour générer des images haute-fidélité. Google assure que les grands modèles de langage générique (comme T5) pré-entraînés sur des corpus de texte uniquement sont efficaces pour transformer du texte en image.

L'augmentation de la taille du modèle de langage dans Imagen améliore à la fois la fidélité de l'échantillon et le respect de l'image par rapport au texte, plus que d'augmentation la taille du modèle de diffusion de l'image. A la clé, l'entreprise promet "un degré de photoréalisme sans précédent".

Des modèles entraînés sur plusieurs bases de données

Pour Imagen Video, Google entraîne son modèle sur la base de données image-texte en open source LAION-400M ainsi qu'avec 14 millions de données rapprochant une vidéo et un texte et 60 millions de données rapprochant une image et un texte. Une première vidéo est générée à partir du texte avec 3 images par seconde en résolution 24 x 48. Puis, cette vidéo est mise à l'échelle et des images supplémentaires sont créées par le modèle pour obtenir le rendu final.

Pour Imagen Video, Google assure pouvoir générer des vidéos sur la base du travail de certains peintres célèbres, pouvoir générer des objets rotatifs 3D tout en préservant la structure de cet objet, et pouvoir avoir un rendu dans différents styles d'animation.

Toutefois Google a conscience que "ces modèles génératifs peuvent être utilisés à mauvais escient, par exemple pour générer des contenus faux, haineux, explicites ou préjudiciables." Des filtres sont mis en place pour limiter de tels usages, mais "il existe toujours des préjugés sociaux et des stéréotypes difficiles à détecter et à filtrer". Google ne souhaite donc pas diffuser le modèle Imagen Video ou son code source jusqu'à ce que ce problème soit résolu. Un point essentiel à l'heure où les fake news et autres deepfakes sont largement diffusées sur Internet.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS