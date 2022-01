Meta révèle ce 24 janvier 2022 qu'il est en train de terminer la construction du plus puissant supercalculateur dédié à l'intelligence artificielle au monde. Baptisé AI Research SuperCluster et abrégé en RSC, il est déjà opérationnel mais avec des capacités réduites. Il sera complété d'ici cet été.



Meta n'en est pas à son coup d'essai. Après la création de sa division de recherche en intelligence artificielle en 2013 (anciennement FAIR, lorsque l'entreprise s'appelait encore Facebook), ses équipes se sont mises à construire des machines dédiées pour entraîner des modèles toujours plus complexes.



Tirer partie des nouvelles technologies réseau

L'infrastructure actuelle de l'entreprise, conçue en 2017, est composée de 20 000 GPU Nvidia V100 réunis dans un cluster qui exécute 35 000 tâches d'apprentissage par jour. Début 2020, motivé par l'avènement de l’apprentissage de modèle auto-supervisé (qui nécessite des quantités monstrueuses de données) et des modèles type "transformer", Meta a décidé de créer une nouvelle infrastructure tirant parti des nouveaux GPU et technologies réseaux. Son ambition : entraîner des modèles comprenant plus de 1000 milliards de paramètres sur des sets de données allant jusqu'à une taille d'un exaoctet (soit un milliard de gigaoctets).





Le résultat est RSC, qui est composé à l'heure actuelle de 760 systèmes Nvidia DGX A100, ce qui représente 6080 GPU. Ces derniers communiquent via un réseau Nvidia Quantum 200 Go/s InfiniBand. Côté stockage, RSC dispose de 175 pétaoctets de Pure Storage FlashArray, 46 pétaoctets de cache dans des systèmes Penguin Computing Altus, et 10 pétaoctets de Pure Storage FlashBlade.



Par rapport à l'ancienne infrastructure, RSC dans son état actuel est 20 fois plus rapide pour les tâches liées à la vision par ordinateur, fait tourner la Nvidia Collective Communication Library (NCCL) 9 fois plus vite, et peut entraîner des modèles de traitement du langage naturel jusqu'à trois fois plus rapidement. Concrètement, cela veut dire qu'un modèle constitué de dizaines de milliards de paramètres peut être entraîné en trois semaines contre neuf auparavant.



Ces capacités augmenteront encore une fois que la construction du data center sera terminée. Le réseau InfiniBand connectera alors 16 000 GPU. L'équipe en charge de la construction du centre a également conçu le système de stockage et de cache pour qu'il puisse fournir 16 To/s de données une fois complété. Ils comptent ensuite en augmenter la capacité jusqu'à atteindre l'exaoctet. Les partenaires du projet, évoqués plus haut, sont Nvidia pour les GPU et les équipements de mise en réseau, Penguin Computing pour l'intégration et l'infogérance, et Pure Storage pour le stockage.