Microsoft dévoile une série de modèles Florence 2 spécialisés dans la vision
Avec son modèle de vision Florence-2, la firme de Redmond espère exceller dans des tâches telles que le sous-titrage, la détection d'objets et la segmentation. Elle a construit elle-même son propre jeu de données – comprenant 5,4 milliards d'annotations pour 126 millions d'images – afin d'arriver à un tel résultat.
Microsoft avance dans le développement d'une IA adaptée aux tâches de vision. En novembre dernier, la firme avait dévoilé Florence-2, un modèle de fondation pour la vision avec une représentation unifiée basée sur des prompts pour une variété de tâches de vision par ordinateur. Le modèle est capable de générer des résultats sous forme de texte, et plus particulièrement sous forme de sous-titrage, détection d'objet ou de segmentation. Aujourd'hui, la firme publie sur Hugging Face une série de modèles dérivés de ce modèle fondamental.
On trouve ainsi deux modèles appelés Florence-2-base et Florence-2-large pré-entraînés sur l'ensemble de données FLD-5B créé par Microsoft et comprenant 5,4 milliards d'annotations pour 126 millions d'images, pour maîtriser l'apprentissage multitâche. En complément, deux versions fine-tuned de ces modèles sont publiées. Ces LLM ont une autre particularité : ils sont assez compacts, la version de base comportant 230 millions de paramètres tandis que la version large comporte 770 millions de paramètres.
Des premiers résultats prometteurs
Microsoft a réalisé un benchmark afin d'apporter un premier aperçu des capacités de sa famille de modèles Florence-2. Sur les scores de référence, on note que, pour sa taille, il est fort en sous-titrage. Il existe cependant de grands modèles qui fonctionnent mieux. Par exemple, sur l'ensemble de données COCO, les versions 232M et 770M de Florence-2 ont surpassé le modèle de langage visuel Flamingo de 80 milliards de paramètres de Deepmind avec des scores de 133 et 135,6, respectivement. Le modèle est également performant en réponse visuelle aux questions. Les grands modèles fonctionnent parfois mieux, mais certainement pas toujours. Dans le test de détection d'objet unique, il a été battu par UNINEXT.
Cet exemple illustratif montre une image et les annotations correspondantes dans l'ensemble de données FLD-5B. Chaque image de FLD-5B est annotée avec du texte, des paires zone-texte et des triplets texte-phrase-zone par le moteur de données de Florence, qui couvre de multiples hiérarchies spatiales, une granularité progressive de bref à détaillé, et un large spectre sémantique, pour une compréhension visuelle plus complète.
Une stratégie qui porte ses fruits
La firme mise sur une stratégie itérative d'annotation d'images automatisée et de fine-tuning du modèle pour arriver à des résultats concluants. "Nous avons adopté une structure séquence à séquence pour entraîner Florence-2 à effectuer des tâches de vision polyvalentes et complètes. Des évaluations approfondies sur de nombreuses tâches ont démontré que Florence-2 était un solide concurrent en matière de modèle de base de vision, doté de capacités zero-shot et de réglage fine-tuning sans précédent", ajoute-t-elle.
A noter que le modèle est disponible sous licence permissive MIT, ce qui permet une distribution et une modification sans restriction pour un usage commercial ou privé.
SUR LE MÊME SUJET
Microsoft dévoile une série de modèles Florence 2 spécialisés dans la vision
Tous les champs sont obligatoires
0Commentaire
Réagir