Liquid AI étoffe sa gamme de modèles de fondation open source avec LFM2-VL

La start-up américaine a publié LFM2-VL, un modèle vision-langage multimodal conçu pour tourner aussi bien sur des ordinateurs et smartphones que sur des systèmes embarqués. Elle revendique une vitesse d'inférence sur GPU deux fois plus rapide que les modèles open source concurrents.

Partager
Liquid AI étoffe sa gamme de modèles de fondation open source avec LFM2-VL

Liquid AI a annoncé le 12 août le lancement de sa première série de modèles de fondation vision-langage, intitulés LFM2-VL. Leurs particularités ? D'une part, ils sont open source et d'ores et déjà téléchargeables depuis la plateforme Hugging Face. De l'autre, ils sont conçus pour être déployés sur tous types d'appareils, des ordinateurs aux smartphones en passant par les appareils portables et les systèmes embarqués.

Un modèle entraîné sur 100 milliards de jetons

Ces nouveaux modèles s'appuient sur la famille de modèles LFM2, présentée par la start-up en juillet. “Les capacités visuelles et linguistiques sont ensuite fusionnées lors d'une phase d'entraînement conjointe, au cours de laquelle le ratio texte/image est ajusté de 95% à 30%”, explique la spin-off du MIT dans un communiqué. Les données d'entraînement comprennent à la fois un corpus open source à grande échelle et un corpus de données de vision interne. “Au total, LFM2-VL est entraîné sur environ 100 milliards de jetons multimodaux”, assure Liquid AI.

Deux versions du modèle sont proposées : l'une à 450 millions de paramètres, conçue pour des environnements aux ressources très limitées, et l'autre à 1,6 milliard de paramètres. La résolution des images traitées peut aller jusqu'à 512x512 pixels, avec un système “basé sur des patchs” pour les images plus grandes. “Cette solution s'intègre parfaitement à l'écosystème open source, ainsi qu'à LEAP [le SDK de Liquid AI] pour la personnalisation et le déploiement multiplateforme en périphérie”, écrit la start-up.

Des scores supérieurs à certains modèles d'Hugging Face

Côté performances, LFM2-VL obtient de bons scores sur les benchmarks RealWorldQA, OCRBench et InfoVQA, surpassant les résultats de modèles concurrents tels qu'InternVL3 d'OpenGVLab – équipe de recherche du Shanghai AI Lab – et SmolVLM d'Hugging Face. Le modèle de Liquid AI a obtenu les résultats les plus rapides de sa catégorie lors d'un test avec une charge de travail composée d'une image 1024x1024 et une invite de type “décrivez cette image en détail”. “Dans ces conditions, LFM2-VL est jusqu'à deux fois plus rapide que le modèle comparable le plus rapide, tout en offrant une précision compétitive”, avance la start-up.

Benchmark Liquid AI modèle vision langage LFM-VL
Les modèles sont publiés sous une licence basée sur Apache 2.0. Ils peuvent être utilisés librement pour la recherche et l'éducation ainsi que pour les entreprises de moins de 10 millions de dollars de chiffre d'affaires.

Fondée en 2023, Liquid AI a atteint une valorisation de 2,3 milliards de dollars (1,97 milliard d'euros) lors de sa dernière levée de fonds de 250 millions de dollars en décembre, menée par la branche d'investissement d'AMD. Elle revendique plusieurs clients faisant partie du Fortune 500, que ce soit dans l'électronique grand public, la finance, l'e-commerce ou la cybersécurité.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

ARTICLES LES PLUS LUS