Microsoft et Nvidia ont créé le plus grand modèle de traitement du langage naturel au monde
Les modèles de langage sont basés sur des algorithmes statistiques. Plus ils absorbent de données, plus ils sont censés produire des résultats pertinents. Microsoft a mis le paquet en faisant ingurgiter à son nouveau modèle trois fois plus de paramètres que les plus gros modèles existants.
530 milliards de paramètres… C'est ce qu'il a fallu pour entraîner le nouveau modèle de langage annoncé le 11 octobre par Microsoft, qui l'a développé avec Nvidia. Les deux entreprises le présentent comme le plus grand modèle jamais créé jusqu'ici.
Baptisé Megatron-Turing Natural Language Generation (MT-NLG), il permettrait d'obtenir des résultats sans équivalent pour les applications de traitement automatique du langage naturel, et notamment pour des fonctions de compréhension de texte. Parmi ses applications concrètes, on peut par exemple imaginer produire automatiquement le résumé d'un livre ou répondre à une question.
Plus le nombre de paramètres est élevé, plus l'entraînement du programme est difficile et plus le résultat est censé être sophistiqué. Le traitement automatique des langues repose en effet sur un modèle statistique, qui analyse la distribution de séquences de mots dans le langage naturel. Cela permet à l'algorithme d'établir des règles qui permettent d'associer des probabilités au sens des mots en fonction du contexte.
560 serveurs DGX A100 pour distribuer la puissance de calcul
En ingurgitant des sommes gigantesques de données, le modèle devient capable de comprendre des règles de grammaire et de syntaxe pointues et de les reproduire. Microsoft indique que MT-NLG a été entraîné avec trois fois plus de paramètres que le plus gros modèle existant à l'heure actuelle.
Ces données utilisées pour entraîner MT-NLG proviennent de sites web en langue anglaise, de forums de discussion, de Github, Wikipedia, d'articles d'information et de messages sur les réseaux sociaux, qui ont été dédupliqués. Cet entraînement requiert une puissance de calcul phénoménale.
Il a été réalisé de manière distribuée sur le supercalculateur Selene, composé de 560 serveurs DGX A100 de Nvidia, composés de huit processeurs graphiques (GPU) Nvidia A100 80 Go. Chacun de ces GPU tournait pendant l'entraînement à une vitesse de 113 à 126 teraflops par seconde.
SUR LE MÊME SUJET
Microsoft et Nvidia ont créé le plus grand modèle de traitement du langage naturel au monde
Tous les champs sont obligatoires
0Commentaire
Réagir