Alibaba dévoile Qwen-VL et Qwen-VL-Chat, deux nouveaux modèles d'IA multimodale open source
Deux semaines après avoir rendu open source ses principaux outils d'intelligence artificielle, le géant chinois du e-commerce a présenté deux nouveaux modèles capables de générer du texte ou des images et de résoudre des équations mathématiques.
Concurrencé sur son territoire par son rival Baidu, Alibaba accélère son incursion dans l'intelligence artificielle. Après avoir présenté son grand modèle de langage (LLM) en avril dernier, la branche cloud du mastodonte technologique chinois a annoncé le 25 août deux nouveaux modèles d'IA.
Intitulés Qwen-VL, pour "Qwen Large Vision Language Model", et Qwen-VL-Chat, ils sont les versions multimodales, c'est-à-dire qui peuvent prendre en compte plusieurs types de données (texte et image, par exemple), de Qwen-7B et Qwen-7B-Chat, deux outils rendus open source par l'entreprise début août.
Une capacité à comprendre les images
"Capable de comprendre à la fois des images et des textes en anglais et en chinois, Qwen-VL peut effectuer diverses tâches telles que répondre à des questions ouvertes relatives à différentes images et générer des légendes", relate le média sinophone Pandaily, à partir d'un communiqué d'Alibaba. La présentation officielle de la marque précise que son modèle dernier cri peut comprendre des éléments textuels inclus dans des photos et être questionné à ce sujet.
La multinationale cofondée par Jack Ma prend à ce sujet l'exemple d'un panneau d'affichage situé à l'entrée d'un hôpital et sur lequel des idéogrammes chinois indiquent l'organisation des lieux. L'utilisateur qui a supposément soumis la photo à Qwen-VL-Chat peut alors demander, en anglais, à quel étage se trouve le service d'orthopédie, ce à quoi l'outil répond immédiatement. Il est également possible de photographier une équation mathématique et de la lui faire résoudre.
Tout cela est possible grâce à la présence d'un encodeur d'images dans Qwen-VL et son assistant conversationnel Qwen-VL-Chat. Les deux nouvelles innovations d'Alibaba Cloud diffèrent en effet de leurs congénères Qwen-7B et Qwen-7B-Chat par leur capacité à comprendre et à générer des images en plus du texte, et par leur système de localisation visuelle. Elles sont désormais disponibles gratuitement en open source, y compris pour des usages commerciaux.
SUR LE MÊME SUJET
Alibaba dévoile Qwen-VL et Qwen-VL-Chat, deux nouveaux modèles d'IA multimodale open source
Tous les champs sont obligatoires
0Commentaire
Réagir