Microsoft et Nvidia ont créé le plus grand modèle de traitement du langage naturel au monde

Les modèles de langage sont basés sur des algorithmes statistiques. Plus ils absorbent de données, plus ils sont censés produire des résultats pertinents. Microsoft a mis le paquet en faisant ingurgiter à son nouveau modèle trois fois plus de paramètres que les plus gros modèles existants.

Partager
Microsoft et Nvidia ont créé le plus grand modèle de traitement du langage naturel au monde

530 milliards de paramètres… C'est ce qu'il a fallu pour entraîner le nouveau modèle de langage annoncé le 11 octobre par Microsoft, qui l'a développé avec Nvidia. Les deux entreprises le présentent comme le plus grand modèle jamais créé jusqu'ici.

Baptisé Megatron-Turing Natural Language Generation (MT-NLG), il permettrait d'obtenir des résultats sans équivalent pour les applications de traitement automatique du langage naturel, et notamment pour des fonctions de compréhension de texte. Parmi ses applications concrètes, on peut par exemple imaginer produire automatiquement le résumé d'un livre ou répondre à une question.

Plus le nombre de paramètres est élevé, plus l'entraînement du programme est difficile et plus le résultat est censé être sophistiqué. Le traitement automatique des langues repose en effet sur un modèle statistique, qui analyse la distribution de séquences de mots dans le langage naturel. Cela permet à l'algorithme d'établir des règles qui permettent d'associer des probabilités au sens des mots en fonction du contexte.

560 serveurs DGX A100 pour distribuer la puissance de calcul
En ingurgitant des sommes gigantesques de données, le modèle devient capable de comprendre des règles de grammaire et de syntaxe pointues et de les reproduire. Microsoft indique que MT-NLG a été entraîné avec trois fois plus de paramètres que le plus gros modèle existant à l'heure actuelle.

Ces données utilisées pour entraîner MT-NLG proviennent de sites web en langue anglaise, de forums de discussion, de Github, Wikipedia, d'articles d'information et de messages sur les réseaux sociaux, qui ont été dédupliqués. Cet entraînement requiert une puissance de calcul phénoménale.

Il a été réalisé de manière distribuée sur le supercalculateur Selene, composé de 560 serveurs DGX A100 de Nvidia, composés de huit processeurs graphiques (GPU) Nvidia A100 80 Go. Chacun de ces GPU tournait pendant l'entraînement à une vitesse de 113 à 126 teraflops par seconde.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS