Recevez chaque jour toute l'actualité du numérique

x

Meta AI veut construire le supercalculateur le plus puissant du monde

Vidéo La division de Meta dédiée à la recherche en intelligence artificielle a construit l'AI Research SuperCluster (RSC), un superordinateur qui sera le plus puissant du monde pour ces tâches spécifiques lorsque sa construction sera achevée à la mi-2022.
Twitter Facebook Linkedin Flipboard Email
×

Meta AI veut construire le supercalculateur le plus puissant du monde
Meta AI veut construire le supercalculateur le plus puissant du monde © Meta

Meta révèle ce 24 janvier 2022 qu'il est en train de terminer la construction du plus puissant supercalculateur dédié à l'intelligence artificielle au monde. Baptisé AI Research SuperCluster (abrégé RSC), il est déjà opérationnel mais avec des capacités réduites. Il sera complété d'ici cet été.

Meta n'en est pas à son coup d'essai. Après la création de sa division de recherche en intelligence artificielle en 2013 (anciennement FAIR, lorsque l'entreprise s'appelait encore Facebook), ses équipes se sont mises à construire des centres de calcul conçus sur-mesure pour entraîner des modèles toujours plus complexes.

Tirer partie des nouvelles technologies réseau
L'infrastructure actuelle de recherche de Meta, conçue en 2017, est composée de 20 000 GPU Nvidia V100 réunis dans un cluster qui exécute 35 000 tâches d'apprentissage par jour. Début 2020, motivé par l'avènement de l’apprentissage de modèle auto-supervisé (qui nécessite des quantités monstrueuses de données) et des modèles type "transformer", Meta a décidé de créer une infrastructure tirant parti des nouveaux GPU et technologies réseaux.

Son ambition : entraîner des modèles comprenant plus de 1000 milliards de paramètres sur des sets de données allant jusqu'à une taille d'un exaoctet (soit un milliard de gigaoctets).
 


Nvidia Inside
Le résultat est RSC, qui est composé à l'heure actuelle de 760 systèmes Nvidia DGX A100, ce qui représente 6080 GPU. Ces derniers communiquent via un réseau Nvidia Quantum 200 Go/s InfiniBand. Côté stockage, RSC dispose de 175 pétaoctets de Pure Storage FlashArray, 46 pétaoctets de cache dans des systèmes Penguin Computing Altus, et 10 pétaoctets de Pure Storage FlashBlade. En matière de vitesse de calcul, cela donne 1896 pétaflops avec une précision TF32.

Par rapport à l'ancienne infrastructure, RSC dans son état actuel est 20 fois plus rapide pour les tâches liées à la vision par ordinateur, fait tourner la Nvidia Collective Communication Library (NCCL) neuf fois plus vite, et peut entraîner des modèles de traitement du langage naturel jusqu'à trois fois plus rapidement. Concrètement, cela veut dire qu'un modèle constitué de dizaines de milliards de paramètres peut être entraîné en trois semaines contre neuf auparavant.
 


16 000 GPU Nvidia A100 à la mi-2022
Ces capacités augmenteront encore plus dans la "phase 2" du projet, c'est-à-dire dans six mois, une fois que la construction du data center sera terminée. Le réseau InfiniBand connectera alors 16 000 GPU au total. L'équipe en charge de la construction du centre a également conçu le système de stockage et de cache pour qu'il puisse fournir 16 To/s de données une fois complété. Ils comptent ensuite en augmenter la capacité jusqu'à atteindre l'exaoctet. Le système aura alors une vitesse de calcul de près de 5 exaflops (mixed precision).

Les partenaires du projet, évoqués plus haut, sont Nvidia pour les GPU et les équipements de mise en réseau, Penguin Computing pour l'intégration et l'infogérance, et Pure Storage pour le stockage.

Créer les briques technologiques essentielles à la réalité augmentée
Mais dans les faits, que permettra de faire ce centre de données de pointe ? D'après Meta, il aidera par exemple à créer des systèmes d'intelligence artificielle capables de faire de la traduction vocale en temps réel pour des groupes de centaines de personnes, même s'ils parlent tous une langue différente.

Il servira aussi à mettre au point certaines briques technologiques essentielles aux technologies de réalité virtuelle et augmentée sur lesquelles Meta a parié son avenir, et qu'il regroupe désormais sous l'appellation de métavers. On parle notamment d'agents intelligents "incarnés", c'est-à-dire opérant du point de vue spécifique des lunettes AR, et qui sont capables de comprendre l'environnement qui les entoure pour mieux servir l'utilisateur, ou encore de compréhension multimodale, capable d'interpréter un contexte mélangeant texte, son et vidéo.

Un apprentissage à partir de données réelles issues des produits de Meta
Pour atteindre cet objectif, les équipes de Meta AI vont cependant franchir une limite qu'ils essaient généralement de respecter : l'utilisation de données réelles issues des produits de Meta pour entraîner les modèles. La précédente infrastructure s'appuyait uniquement sur des sets de données ouverts et disponibles publiquement, mais Meta estime que l'utilisation de données réelles est nécessaire dans ces cas précis pour garantir que les modèles produisent les résultats souhaités et ne soient pas biaisés.

L'entreprise souligne donc qu'elle a dû implanter des dispositifs de sécurité équivalent à ceux de ses systèmes de production pour RSC, afin de protégées ces données. Si elle ne rentre pas dans le détail les concernant, on devine sans peine qu'il s'agit de données personnelles provenant de ses réseaux sociaux (Facebook, Instagram) et peut-être même de WhatsApp et des casques Oculus.

Une révélation qui intervient quelques mois après la déclaration en fanfare de l'arrêt du service d'identification automatique par reconnaissance faciale sur Facebook (qui avait aussi été entraîné à partir de données réelles d'utilisateurs). Si tout cela peut paraître un peu hypocrite, ce choix souligne surtout le caractère stratégique de ces nouveaux modèles pour Meta.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.