Recevez chaque jour toute l'actualité du numérique

x

DALL-E, Make-A-Scene, GauGAN… Ces outils d'IA qui génèrent des images à partir d'un texte

"Un astronaute à cheval dans l'espace". "Peinture d'un renard assis dans un champ au lever du soleil dans le style de Claud Monet". "Un coucher de soleil vu depuis une plage avec des rochers". Nvidia, OpenAI, Meta... Nombreux sont les acteurs à lancer des modèles d'IA générateurs d'images à partir de textes. Concrètement, il suffit de décrire l'image souhaitée et cette dernière est automatiquement créée. Elle peut ensuite être retouchée pour correspondre parfaitement aux désirs de l'utilisateur. Des solutions technologiques impressionnantes, mais qui soulèvent de nombreuses questions.
Twitter Facebook Linkedin Flipboard Email
×

DALL-E, Make-A-Scene, GauGAN… Ces outils d'IA qui génèrent des images à partir d'un texte
Exemple d'une image générée par DALL-E 2. © OpenAI

DALL-E, un système développé par OpenAI qui génère des images à partir d'un texte, est accessible en version bêta. Un million de personnes, enregistrées sur une liste d'attente, seront invitées dans les prochaines semaines à utiliser des crédits gratuits (pour produire 50 images le premier mois et 15 le mois suivant), annonce OpenAI le 20 juillet 2022. Ils pourront également payer des crédits supplémentaires au prix de 15 dollars pour générer 115 images. Cette annonce fait suite à la présentation de DALL-E 2, la deuxième version de sa solution.
 

La cohérence sémantique

Pour mettre au point sa solution, OpenAI s'appuie sur les travaux de recherches autour des réseaux antagonistes génératifs – couramment appelés GANs pour "Generative Adversarial Networks" – conditionnés par des incorporations de texte. Les GANs sont composés de deux réseaux de neurones concurrents, comme l'expliquait L'Usine Digitale : un générateur, qui a pour objectif de créer des images aussi réalistes que possible, et un discriminateur chargé de reconnaître si les images produites par le générateur sont ou non des faux. Cette technique est largement utilisée pour la production de deepfakes.

Toutefois, DALL-E  se distingue par le fait de transformer du texte en images en gardant une forte cohérence sémantique lui permettant de bien comprendre la relation entre les différents objets dans une image donnée. Par exemple, une 'personne assise sur un cheval' sera correctement positionnée et non pas assise sur sa tête. Pour cela, le système doit être nourri avec une importante base d'images correctement légendées afin de s'appuyer sur ce contenu pour générer une "fausse image". Il est donc possible d'inclure des concepts, des attributs ou des styles dans les données d'entrée. Cette nouvelle version de DALL-E  propose une meilleure résolution des images en 1024px, et non plus 256px.

 


Peinture d'un renard assis dans un champ au lever du soleil dans le style de Claude Monet. A gauche la version de DALL-E 1, à droite celle de DALL-E 2.

Des photos avec Nvidia

OpenAI n'est pas le seul à travailler sur ce type de solution. Crayion est une version grand public qui génère des résultats sous la forme d'une grille comportant 6 images. Originelle baptisée DALL-E Mini, la solution a changé de nom suite à une demande d'OpenAI qui souhaitait éviter la confusion entre les deux solutions.

Nvidia a également conçu sa propre solution baptisé GauGAN. Contrairement aux deux autres, la solution de Nvidia permet uniquement de transformer du texte en une photo réaliste. Mais il est possible de modifier la photo générée grâce à des croquis. Par exemple, il est possible d'ajouter un oiseau en entourant une zone et en l'étiquetant pour préciser qu'un oiseau doit être ajouté à cet emplacement.

Du texte et des croquis

Meta a très récemment publié des travaux de recherches sur "Make a scene", son outil qui génère des images. S'il est possible de créer une image uniquement à partir de texte, Meta propose également de générer une image à partir d'un croquis et de texte. L'entreprise a souhaité incorporer le croquis dans la création d'une image pour arriver à un contenu précis.
 


 

"Les données d'entrée textuelles, comme 'une peinture d'un zèbre faisant du vélo', génèrent des images avec des compositions qui peuvent être difficiles à prévoir", explique l'entreprise dans un poste de blog. En accompagnant ce texte d'un croquis permettant de positionner les différents objets sur l'image, il est possible d'arriver à un contenu plus précis. "Pour réaliser le potentiel de l'intelligence artificielle à faire avancer l'expression créative, les gens doivent être capables de façonner et de contrôler le contenu généré par un système", ajoute encore l'entreprise. Meta a fait tester Make a scene à plusieurs artistes qui témoignent dans une vidéo.

Des questions éthiques

A l'origine de ces solutions, se trouve le projet DeepDream de Google. Ce programme de vision par ordinateur, qui se repose sur un réseau neuronal convolutif, revisitait des images afin de leur donner un tout autre rendu. Les images donnaient alors un rendu psychédélique et non pas quelque chose qui puisse être réel.

Les solutions de créations d'images soulèvent de nombreuses questions. Par exemple, OpenAI précise que cette version bêta étend les droits d'auteurs pour que les images puissent être utilisées pour des projets commerciaux (commercialiser des tee-shirts avec ces images ou illustrer un livre pour enfant). Toutefois, il est impossible de créer une image  à partir d'un nom spécifique ou comprenant un visage connu. "Nous avons également utilisé des techniques avancées pour empêcher les générations photo-réalistes de visages réels d'individus", ajoute OpenAI.

Tous les algorithmes s'entraînent sur des bases de données comprenant des millions d'images et probablement de nombreux biais. Ces biais présents dans les jeux de données affectent les modèles proposés par l'algorithme. Afin de répondre à des enjeux de transparence, Meta explique s'être appuyé sur des données accessibles au public. OpenAI, de son côté, affirme avoir mis en œuvre une nouvelle technique pour que DALL-E génère des images de personnes reflétant  plus fidèlement la diversité de la population mondiale.

Ces solutions font également partie d'un enjeu de société plus vaste et soulève des interrogations autour des fausses informations. S'il est possible de créer une image ultraréaliste pour illustrer une fausse information, celle-ci semble pouvoir se diffuser plus rapidement et s'imprégner plus durablement dans la société. Or la désinformation est un sujet essentiel aujourd'hui. Il est impossible de créer de tels outils sans réfléchir à comment réglementer et limiter leurs effets potentiellement néfastes.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.