Un millier de chercheurs ont développé un modèle de langue multilingue en open source

Des chercheurs du monde entier ont développé Bloom, un modèle de langage entraîné sur le supercalculateur Jean Zay. Il est capable de prédire le prochain mot d'un texte dont il connaît le début. Les travaux seront disponibles en open source, permettant à Bloom d'être sans cesse amélioré. 

Partager
Un millier de chercheurs ont développé un modèle de langue multilingue en open source

Nom de code : "Bloom". Un millier de chercheurs issus de 72 pays, dont des scientifiques du Centre national de la recherche scientifique (CNRS), ont développé un système d'apprentissage automatique capable de prédire le prochain mot d'un texte dont il ne connaît que le début, et ce dans 46 langues, allant de l'anglais au basque. Son architecture, la liste des données utilisées et son journal d'apprentissage seront entièrement disponibles en open source. Le but : faciliter la recherche sur les modèles de langue.

Il existe déjà de nombreux modèles de langues développés la majorité du temps par de grandes entreprises technologiques. Microsoft et Nvidia en ont récemment présenté un. Or, d'après François Yvon, directeur de recherche au CNRS, ils sont "compliqués à examiner et les entreprises qui les ont créés ne sont pas complètement transparentes sur leur conception et leur fonctionnement". "Nous n'avons aucun moyen de savoir si le modèle a appris 'par coeur' la réponse (...) ou s'il l'a trouvée par ses propres moyens", a-t-il ajouté.

Entraîné en 46 langues

Bloom apprend à partir de grands corpus de textes en utilisant le principe suivant : il prend un texte ou une phrase et n'en garde que le premier mot et tente de deviner le second puis le troisième... Il se distingue des autres modèles de traitement automatique par le fait qu'il a été entraîné simultanément en 46 langues, réparties sur des sources très variées (littérature, articles scientifiques, dépêches sportives...).

Pour réussir sa tâche, Bloom doit répéter l'exercice sur l'équivalent de plusieurs millions de livres. Le recours au calcul haute performance a été donc été nécessaire. C'est le supercalculateur Jean Zay qui lui a consacré un quart de sa puissance totale pendant quatre mois. Pendant son apprentissage, le modèle a acquis la capacité de gérer 176 milliards de paramètres sur des textes.

Bloom a également la particularité d'être le premier modèle "à intégrer largement la langue française en accès libre", s'est réjouie Sylvie Retailleau, ministre de l'enseignement supérieur et de la recherche. Une aubaine pour les entreprises françaises qui souhaiteront le réutiliser.



Les langues utilisées pour l'entraînement de Bloom

La traduction automatique comme premier cas d'usage

Comme l'explique Claire Gardent, senior research scientifique au sein du CNRS et membre du comité de pilotage, les cas d'usage de Bloom sont nombreux : "toutes les tâches qui relèvent de la génération de textes. La traduction automatique reste l'application phare mais la simplification, la paraphrase ou le résumé de textes sont également importants".

Le projet BigScience – à l'origine de Bloom – a été initié par la start-up américaine Hugging Face, fondée par deux Français Clément Delangue et Julien Chaumond, qui propose une librairie open source dédiée au traitement du langage naturel. Elle a récemment levé 100 millions de dollars. Son projet a alors séduit de nombreux partenaires académiques et industriels (Airbus, Meta AI, Orange Labs, Mozilla et Ubisoft). Il a reçu le soutien du CNRS, de GENCI et de l'Institut du développement et des ressources en informatique scientifique (IDRIS).

Bloom reste un outil de recherche

Il est important de préciser que Bloom reste "un outil de recherche, a expliqué François Yvon. À la manière d’un grand télescope, il permet d’observer et de comprendre le fonctionnement de ces modèles." Des projets seront lancés sur l'empreinte carbone de tels modèles. Pour diffuser le modèle plus largement, des techniques sont également en train d'être développées pour utiliser Bloom sur "des stations de calcul relativement petites, basées sur des architectures de huit processeurs graphiques, voire moins", a expliqué Teven Le Scao, doctorant à l’Université de Lorraine et chercheur au sein de Hugging Face.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS