Google met le paquet sur l'inférence avec ses TPU Ironwood
Alors que sa conférence annuelle Cloud Next '25 ouvre ses portes à Las Vegas, Google démarre en trombe avec une pluie d'annonces. Nouveaux TPU, Agentspace, nouvelles API dans Vertex AI… tout est pensé pour le développement de l'intelligence artificielle générative. Avec sa dernière génération de TPU Ironwood, Google promet de mieux gérer les besoins complexes en calcul et en communication des modèles et ouvre la voie à l'agentique.
Après avoir dévoilé un certain nombre de LLM ces douze derniers mois, ainsi que ses TPU de sixième génération Trillium lors de la conférence Google I/O en mai dernier, il est évident que la firme n'allait pas rester les bras croisés. Aujourd'hui elle lance sa septième génération de TPU baptisée Ironwood. Ces accélérateurs d'IA sont conçus spécifiquement pour l'inférence et pour alimenter à grande échelle des modèles d’IA dits "pensants", capables d’inférer.
Ironwood, un tournant dans le développement de l'IA ?
"Ironwood est notre TPU le plus puissant, le plus performant et le plus économe en énergie. Il a été conçu sur mesure", assure Amin Vahdat, VP & responsable du ML, des systèmes et de l’IA chez Google. Pour la firme, Ironwood est le marqueur d'un changement majeur dans le développement de l’IA et de l’infrastructure liée.
"On passe de modèles réactifs, qui fournissent des informations à interpréter par l’humain, à des modèles capables de générer proactivement des interprétations et des insights. C’est ce que nous appelons l’ère de l’inférence : des agents IA capables de récupérer et générer des données de façon autonome pour livrer des réponses intelligentes — et pas juste des données brutes".
Une optimisation pour les charges de travail IA les plus lourdes
Ironwood est taillé pour répondre aux exigences massives en calcul et en communication de cette nouvelle phase de l’IA générative. Il est proposé en deux configurations – 256 puces ou 9 216 puces refroidies par liquide, interconnectées via un réseau ICI (Inter-Chip Interconnect) à faible latence et à large bande passante de dernière génération -, couvrant près de 10 MW. Il s’intègre à l'architecture Google Cloud AI Hypercomputer, qui optimise matériel et logiciel ensemble pour gérer les charges de travail IA les plus lourdes.
En configuration maximale (9 216 puces/pod), Ironwood délivre 42,5 exaflops. Cela représente plus de 24 fois la puissance de calcul du superordinateur le plus puissant du monde, El Capitan, qui plafonne à 1,7 exaflops/pod. Chaque puce atteint 4 614 TFLOPs en pic, un bond monumental dans les capacités de l’IA. Google a également amélioré SparseCore, son accélérateur dédié aux embeddings ultra-larges, essentiels dans les systèmes de recommandation ou de classement avancés.
Une capacité HBM multipliée par 6 par rapport à Trillium
Google affirme par ailleurs avoir doublé l’efficacité énergétique par rapport à Trillium, Ironwood offrant 2 fois plus de puissance par watt, passant ainsi de 14,6 à 29,3 TFlops/Watt. Sa capacité mémoire HBM (High Bandwidth Memory) a également augmenté, passant à 192 Go par puce, soit 6 fois plus que Trillium, tandis que sa bande passante mémoire HBM est de 7,2 Tbps/puce (soit 4,5x celle de Trillium).
Avec, il est désormais possible de traiter des modèles et des ensembles de données plus importants, de réduire le besoin de transferts de données fréquents et d'améliorer les performances. Enfin, la bande passante ICI est portée à 1,2 Tbps bidirectionnels (1,5x celle de Trillium), pour une communication puce-à-puce toujours plus rapide.
Google embarque ses derniers TPU dans son supercalculateur AI Hypercomputer
Avec cette version, Ironwood s’ouvre à des applications IA comme la finance ou la recherche scientifique mais aussi à davantage de types de modèles d'IA alors que les modèles MoE (Mixture of Experts) se multiplient. "Des modèles de référence comme Gemini 2.5 ou AlphaFold, lauréat du prix Nobel, tournent déjà sur nos TPU", indique la firme.
Et le géant ne s'arrête pas là. Elle a ainsi décidé d'embarquer ses Ironwood dans son supercalculateur, AI Hypercomputer, afin de "fournir l'intelligence la plus élevée par dollar pour les charges de travail d'IA", affirme Mark Lohmeyer, VP Compute & AI Infrastructure. AI Hypercompter a déjà permis certaines avancées : Gemini Flash 2.0 atteint 24x plus "d’intelligence par dollar" que GPT-4o et 5x plus que DeepSeek-R1, avance Google. Au-delà des Ironwood, Google Cloud annonce de nouvelles VMs A4 et A4X intégrant les derniers GPU Nvidia, ainsi qu’un réseau 400G Cloud Interconnect offrant 4 fois plus de bande passante.
Côté stockage, Hyperdisk Exapools et Rapid Storage offrent des performances inégalées, tandis que Anywhere Cache réduit considérablement la latence en rapprochant les données des accélérateurs. Enfin, Google compte sur Pathways, sa pile logicielle ML qui doit aider à coordonner efficacement des milliers de puces Ironwood pour dépasser les limites d’un seul pod. Désormais distribué sur Google Cloud, ce moteur distribué propose pour l'inférence le serving désagrégé et l'entraînement dit élastique - les charges de travail peuvent automatiquement se réduire en cas de panne et se rétablir à l’échelle avec une continuité assurée.
SUR LE MÊME SUJET
Google met le paquet sur l'inférence avec ses TPU Ironwood
Tous les champs sont obligatoires
0Commentaire
Réagir