Recevez chaque jour toute l'actualité du numérique

x

Un millier de chercheurs ont développé un modèle de langue multilingue en open source

Des chercheurs du monde entier ont développé Bloom, un modèle de langage entraîné sur le supercalculateur Jean Zay. Il est capable de prédire le prochain mot d'un texte dont il connaît le début. Les travaux seront disponibles en open source, permettant à Bloom d'être sans cesse amélioré. 
Twitter Facebook Linkedin Flipboard Email
×

Un millier de chercheurs ont développé un modèle de langue multilingue en open source
Un millier de chercheurs ont développé un modèle de langue multilingue en open source © Unsplash

Nom de code : "Bloom". Un millier de chercheurs issus de 72 pays, dont des scientifiques du Centre national de la recherche scientifique (CNRS), ont développé un système d'apprentissage automatique capable de prédire le prochain mot d'un texte dont il ne connaît que le début, et ce dans 46 langues, allant de l'anglais au basque. Son architecture, la liste des données utilisées et son journal d'apprentissage seront entièrement disponibles en open source. Le but : faciliter la recherche sur les modèles de langue.

Il existe déjà de nombreux modèles de langues développés la majorité du temps par de grandes entreprises technologiques. Microsoft et Nvidia en ont récemment présenté un. Or, d'après François Yvon, directeur de recherche au CNRS, ils sont "compliqués à examiner et les entreprises qui les ont créés ne sont pas complètement transparentes sur leur conception et leur fonctionnement". "Nous n'avons aucun moyen de savoir si le modèle a appris 'par coeur' la réponse (...) ou s'il l'a trouvée par ses propres moyens", a-t-il ajouté. 
 

Entraîné en 46 langues

Bloom apprend à partir de grands corpus de textes en utilisant le principe suivant : il prend un texte ou une phrase et n'en garde que le premier mot et tente de deviner le second puis le troisième... Il se distingue des autres modèles de traitement automatique par le fait qu'il a été entraîné simultanément en 46 langues, réparties sur des sources très variées (littérature, articles scientifiques, dépêches sportives...). 

Pour réussir sa tâche, Bloom doit répéter l'exercice sur l'équivalent de plusieurs millions de livres. Le recours au calcul haute performance a été donc été nécessaire. C'est le supercalculateur Jean Zay qui lui a consacré un quart de sa puissance totale pendant quatre mois. Pendant son apprentissage, le modèle a acquis la capacité de gérer 176 milliards de paramètres sur des textes. 

Bloom a également la particularité d'être le premier modèle "à intégrer largement la langue française en accès libre", s'est réjouie Sylvie Retailleau, ministre de l'enseignement supérieur et de la recherche. Une aubaine pour les entreprises françaises qui souhaiteront le réutiliser.
 



Les langues utilisées pour l'entraînement de Bloom

La traduction automatique comme premier cas d'usage

Comme l'explique Claire Gardent, senior research scientifique au sein du CNRS et membre du comité de pilotage, les cas d'usage de Bloom sont nombreux : "toutes les tâches qui relèvent de la génération de textes. La traduction automatique reste l'application phare mais la simplification, la paraphrase ou le résumé de textes sont également importants".

Le projet BigScience – à l'origine de Bloom – a été initié par la start-up américaine Hugging Face, fondée par deux Français Clément Delangue et Julien Chaumond, qui propose une librairie open source dédiée au traitement du langage naturel. Elle a récemment levé 100 millions de dollars. Son projet a alors séduit de nombreux partenaires académiques et industriels (Airbus, Meta AI, Orange Labs, Mozilla et Ubisoft). Il a reçu le soutien du CNRS, de GENCI et de l'Institut du développement et des ressources en informatique scientifique (IDRIS).

Bloom reste un outil de recherche

Il est important de préciser que Bloom reste "un outil de recherche, a expliqué François Yvon. À la manière d’un grand télescope, il permet d’observer et de comprendre le fonctionnement de ces modèles." Des projets seront lancés sur l'empreinte carbone de tels modèles. Pour diffuser le modèle plus largement, des techniques sont également en train d'être développées pour utiliser Bloom sur "des stations de calcul relativement petites, basées sur des architectures de huit processeurs graphiques, voire moins", a expliqué Teven Le Scao, doctorant à l’Université de Lorraine et chercheur au sein de Hugging Face. 

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.