Alibaba dévoile Qwen-VL et Qwen-VL-Chat, deux nouveaux modèles d'IA multimodale open source

Deux semaines après avoir rendu open source ses principaux outils d'intelligence artificielle, le géant chinois du e-commerce a présenté deux nouveaux modèles capables de générer du texte ou des images et de résoudre des équations mathématiques.

Partager
Alibaba dévoile Qwen-VL et Qwen-VL-Chat, deux nouveaux modèles d'IA multimodale open source

Concurrencé sur son territoire par son rival Baidu, Alibaba accélère son incursion dans l'intelligence artificielle. Après avoir présenté son grand modèle de langage (LLM) en avril dernier, la branche cloud du mastodonte technologique chinois a annoncé le 25 août deux nouveaux modèles d'IA.

Intitulés Qwen-VL, pour "Qwen Large Vision Language Model", et Qwen-VL-Chat, ils sont les versions multimodales, c'est-à-dire qui peuvent prendre en compte plusieurs types de données (texte et image, par exemple), de Qwen-7B et Qwen-7B-Chat, deux outils rendus open source par l'entreprise début août.

Une capacité à comprendre les images

"Capable de comprendre à la fois des images et des textes en anglais et en chinois, Qwen-VL peut effectuer diverses tâches telles que répondre à des questions ouvertes relatives à différentes images et générer des légendes", relate le média sinophone Pandaily, à partir d'un communiqué d'Alibaba. La présentation officielle de la marque précise que son modèle dernier cri peut comprendre des éléments textuels inclus dans des photos et être questionné à ce sujet.

La multinationale cofondée par Jack Ma prend à ce sujet l'exemple d'un panneau d'affichage situé à l'entrée d'un hôpital et sur lequel des idéogrammes chinois indiquent l'organisation des lieux. L'utilisateur qui a supposément soumis la photo à Qwen-VL-Chat peut alors demander, en anglais, à quel étage se trouve le service d'orthopédie, ce à quoi l'outil répond immédiatement. Il est également possible de photographier une équation mathématique et de la lui faire résoudre.

Tout cela est possible grâce à la présence d'un encodeur d'images dans Qwen-VL et son assistant conversationnel Qwen-VL-Chat. Les deux nouvelles innovations d'Alibaba Cloud diffèrent en effet de leurs congénères Qwen-7B et Qwen-7B-Chat par leur capacité à comprendre et à générer des images en plus du texte, et par leur système de localisation visuelle. Elles sont désormais disponibles gratuitement en open source, y compris pour des usages commerciaux.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS