Recevez chaque jour toute l'actualité du numérique

x

Intelligence artificielle : Microsoft a créé un système qui décrit les images aussi bien qu'un humain

Les chercheurs de Microsoft ont réussi à mettre au point un système d'apprentissage automatique qui légende aussi bien – voire mieux – les images qu'un humain, même lorsqu'il ne connaissait pas ces images au préalable. Inspiré de l'apprentissage de la lecture pour les enfants, cette découverte constitue une avancée majeure pour les personnes atteintes de troubles visuels.    
Twitter Facebook Linkedin Flipboard Email
×

Intelligence artificielle : Microsoft a créé un système qui décrit les images aussi bien qu'un humain
Intelligence artificielle : Microsoft a créé un système qui décrit les images aussi bien qu'un humain © Kris Mikael Krister/Unsplash

Une équipe de chercheurs de Microsoft a développé un système d'apprentissage automatique capable de légender des images avec autant, parfois même plus, de précision qu'un être humain.

Lorsqu'il a été évalué sur des "nocaps" c'est-à-dire des images qu'il ne connaissait pas, le système a créé des légendes plus descriptives et plus précises que celles écrites par des êtres humains, d'après l'entreprise.

Une avancée pour les personnes souffrant de basse vision
Au-delà de la prouesse technologique, ce système constitue une avancée pour les personnes atteintes de défaillances visuelles. Si les logiciels de lecture de texte à l'oral sont courants, les éléments visuels restent encore un défi majeur, notamment lors de la navigation sur Internet. "C'est une étape importante dans la volonté de Microsoft de rendre ses produits et services inclusifs et accessibles à tous les utilisateurs", se réjouit John Roach, CTO au sein des Digital Advisory Services de Microsoft, dans un billet de blog.

Ce nouveau système est désormais disponible dans la solution Azure Cognitive Services, qui permet aux développeurs d’ajouter facilement "des fonctionnalités cognitives" dans leurs applications. Il est également intégré à Seeing AI et commencera à être déployé dans Word, Outlook et PowerPoint au cours de l'année.

Le légendage d'image est un défi majeur en IA
Le légendage d'une image est un "défi majeur" dans la vision par ordinateur, une branche de l'intelligence artificielle, car cette action nécessite un système qui comprend et décrit "le contenu ou l'action d'une image", a expliqué Lijuan Wang, directrice de recherche au laboratoire de Microsoft à Redmond. "Vous devez vraiment comprendre ce qui se passe, vous devez connaître la relation entre les objets et les actions et vous devez la résumer et la décrire dans une phrase en langage naturel", a-t-elle expliqué.

Lijuan Wang a dirigé l'équipe de recherche qui a réussi à dépasser les capacités humaines pour décrire une image, également appelé "nocaps". Ce référentiel évalue les systèmes d'IA en fonction de leur capacité à générer des légendes pour des objets inclus dans des images qui ne font pas partie de l'ensemble de données utilisé pour entraîner lesdits systèmes.

En principe, les systèmes de légende d'image sont développés avec des data sets qui incluent des images associées à des phrases qui les décrivent. "Notre défi était vraiment de savoir comment décrire ces nouveaux objets qui n'étaient pas présents dans nos données entrantes". a expliqué la chercheuse.

Les scientifiques se sont inspirés de la préparation des enfants à la lecture en utilisant d'abord un livre d'images qui associe des mots individuels à des images, comme une image d'une pomme avec le mot "pomme" inscrits en dessous.


Créer des data sets avec des mots-clés
L'équipe de Microsoft a "pré-entrainé" un "grand modèle" avec un ensemble de données d'images associées à des mots-clés, chaque mot-clé étant relié à un objet spécifique dans une image. "Il est plus efficace de créer des ensembles de données d'images avec des mots-clés au lieu d'avoir des légendes complètes", précise Lijuan Wang, qui a nommé cette approche "vocabulaire visuel". Ainsi, lorsqu'une image contenant des objets inédits lui est présentée, le système d'IA exploite le vocabulaire visuel pour générer un sous-titrage précis.
 


Ce nouveau système est également deux fois plus performant que le modèle utilisé dans les produits et services de l'entreprise américaine depuis 2015. Par exemple, sur l'image ci-dessus, l'ancien modèle indiquait qu'il s'agissait de la photographie d'une rue dans une ville. Désormais, le nouveau modèle légende "un tramway dans la rue d'une ville".

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

1 commentaire

g
17/10/2020 01h09 - g

je rajouterai qu'il s'agit d'un tramway dans la rue de San Francisco :)

Répondre au commentaire | Signaler un abus

 
media