OpenAI présente un modèle d'IA capable de générer une image à partir d'une simple phrase
OpenAI, l’organisation à but non lucratif dédiée à la recherche en intelligence artificielle, a levé le voile sur DALL-E, un système qui génère des images à partir d’un texte, et CLIP, qui est capable d'apprendre à reconnaître des catégories d'objets rapidement à partir d'indications en langage naturel.
Aude Chardenon
OpenAI a présenté ce 5 janvier 2021 deux systèmes d’intelligence artificielle multimodaux qui combinent vision par ordinateur et traitement du langage naturel.
Générées des images sans modèles
Le premier, baptisé DALL-E (contraction du nom de l’artiste surréaliste Salvador Dali et du robot WALL-E), est un système qui génère des images à partir d’un texte. DALL-E s’appuie sur une version à 12 milliards de paramètres de GPT-3, le modèle de langage développé par OpenAI pour l’automatisation de la rédaction de texte. A partir de quelques mots clés, une image est générée. Le modèle s’appuie sur des centaines de millions d’images et leurs légendes.
Le premier exemple de DALL-E est une image générée à partir du texte "illustration d'un bébé radis blanc dans un tutu promenant un chien". L’association de mots, qui paraît incohérente, sert à démontrer que DALL-E parvient à comprendre la complexité d’une idée, ce qui suppose qu’il a la capacité de manipuler et de réorganiser des objets dans des images générées. Dall-E est aussi capable de créer des choses qui n'existent pas, donc sans exemple à bêtement copier, et il est capable de changer les attributs (couleur, texture), et la quantité d’un objet.
A noter que les images créées par DALL-E peuvent êtres des images réalistes ou des représentations d’œuvres d’art comme cet exemple généré à partir des mots "vitrail avec une image d'une fraise bleue". De nombreux autres exemples, assez farfelus et illustrant le principe de Dall-E, figurent sur une page dédiée.
Les modèles standards, encore très limités
L’autre modèle dévoilé par OpenAI se nomme CLIP. Il est capable de déterminer automatiquement des catégories à partir d'images pour lesquelles il n'a pas été optimisé. Il repose sur 400 millions d'images et de textes associés, qui ont été collectés sur Internet. Pour nommer ces catégories, CLIP utilise des capacités de génération automatique de texte similaire à celles des modèles GPT-2 et GPT-3, sans recourir à des images apprises au préalable. Il s’appuie notamment sur la reconnaissance optique de caractères (optical character recognition ou OCR), la géolocalisation ou encore la "reconnaissance d'actions" pour être en mesure d’identifier de nouvelles catégories d’images par lui-même.
D'après OpenAI, CLIP a pour objectif d'étudier les défis posés par la vision par ordinateur et de donner un aperçu de ses biais et impacts. Le machine learning et notamment la reconnaissance faciale sont particulièrement mis en cause pour les biais discriminatoires qu'ils peuvent provoquer. Open IA explique si les apports du deep learning sont révolutionnaires, le traitement de grands ensembles de données est chronophage et coûteux pour des enseignements très restreints. "Les modèles standard sont bons pour une tâche et une tâche seulement, explique l’entité dans un billet de blog. Ils nécessitent un effort considérable pour s'adapter à une nouvelle tâche".
Des détails supplémentaires doivent être partagés dans un prochain article. L’organisme spécialisé dans la recherche en intelligence artificielle, créé en 2015 et parfois critiqué pour son manque de transparence, souhaite visiblement être plus prolixe sur ses travaux.
SUR LE MÊME SUJET
1Commentaire
Réagir