
Édité par Ze Nan
Dans l’ère de l’IA, empiler des GPU, c’est vraiment comme ça qu’on fait ?
L'utilisation des ressources GPU de xAI, dirigée par Musk, est actuellement d'environ 11 %. Des rapports indiquent que l'optimisation de sa pile logicielle d'IA n'est pas satisfaisante. Récemment, un article de The Information a attiré l'attention.

Actuellement, xAI exploite environ 550 000 GPU NVIDIA dans ses clusters de centres de données Memphis et Colossus, incluant les modèles H100 et H200, certains étant équipés de systèmes de refroidissement liquide. Bien que ces GPU appartiennent à la génération précédente (antérieure à la dernière série Blackwell), leur échelle est déjà impressionnante.
Avec une telle quantité massive de GPU, l'utilisation de la puissance de calcul du modèle d'xAI (MFU, Model FLOPs Utilization) n'est que de 11 %. Pour faire une métaphore inappropriée, parmi les 500 000 GPU déjà installés sur les serveurs d'xAI, la puissance de calcul réellement utilisable équivaut à environ 60 000 GPU. Quelles sont les raisons de cette efficacité si faible ?
Pour les déploiements à plus petite échelle (par exemple, 1000 à 10 000 GPU), la coordination du calcul entre plusieurs nœuds n'est généralement pas un problème. Toutefois, à mesure que la taille des serveurs augmente considérablement et qu'il devient nécessaire d'intégrer des centaines de milliers de GPU, les temps d'inactivité des appareils s'accumulent rapidement, entraînant une baisse drastique de l'utilisation globale. Les diverses incohérences au sein de la pile logicielle qui en résultent sont actuellement mises en évidence lors des opérations réelles de xAI.
Dans un supercluster, la vitesse de calcul des puces GPU est relativement élevée, mais le goulot d'étranglement réside dans la vitesse de lecture/écriture de la mémoire à haute bande passante (HBM) et dans la surcharge de communication due au transfert de données entre des milliers d'ordinateurs serveurs. Dès qu'une légère latence ou une congestion réseau se produit lors du transfert des données, l'ensemble des GPU du cluster est forcé d'attendre inactif le chargement des données.
D'autre part, l'entraînement des modèles d'IA est généralement intermittent. Les GPU fonctionnent à pleine capacité lors des calculs réels, mais de nombreux appareils restent inactifs (Idle) pendant que les chercheurs analysent les résultats de l'entraînement, ajustent les paramètres ou gèrent les pipelines de données.
Bien que 11 % soit un chiffre manifestement bas, le rapport de The Information révèle également certaines pratiques cachées du secteur de l'IA : le gaspillage de puissance de calcul est courant ; certains chercheurs des grandes entreprises exécutent délibérément des tâches d'entraînement sans intérêt pour « gonfler » les données d'utilisation, afin d'éviter les critiques de la direction ou de craindre que leurs quotas GPU inutilisés ne soient réattribués à d'autres équipes.
Il faut bien le dire, faire cela vise aussi à préserver les quotas GPU de l'équipe.
Bien sûr, ce n'est pas un problème exclusif à xAI ; il s'agit en réalité d'un problème structurel répandu dans l'ensemble de l'industrie de l'IA — faire fonctionner efficacement l'infrastructure de l'IA à une échelle aussi massive représente un défi extrêmement difficile.

Les compétences d'optimisation nécessaires pour faire fonctionner l'infrastructure cloud AI couvrent les données, les algorithmes, les modèles, le calcul, les noyaux, l'interaction (humain - AI - monde, entre agents) et l'optimisation globale, ce qui présente une difficulté technique extrêmement élevée.
Certains géants de la technologie ont optimisé leurs infrastructures à grande échelle et parviennent désormais à une utilisation supérieure à 40 %. Meta et Google en sont des exemples typiques, avec une utilisation de leurs GPU atteignant respectivement 43 % et 46 %.
Les difficultés rencontrées par xAI démontrent que, dans la course actuelle aux IA, « acheter des GPU » n'est qu'une première étape ; savoir les utiliser efficacement est essentiel. La taille du matériel dépasse désormais la capacité de planification des architectures logicielles existantes.
Cependant, xAI travaille déjà à résoudre ce problème et a fixé un objectif d'utilisation de 50 %. Bien qu'il n'y ait pas encore de calendrier précis, les améliorations fondamentales se concentreront sur l'optimisation de l'infrastructure et de la pile logicielle. À mesure que les charges de travail futures seront progressivement migrées vers des plateformes matérielles spécifiquement conçues pour répondre aux besoins des « intelligences agentes » (Agentic AI), xAI est très susceptible de proposer la location de son vaste cluster GPU.
Elon Musk cherche également à effectuer une transition en misant sur le projet TeraFab de calcul interne : d'une part, il promeut plusieurs puces conçues en interne, les intégrant à la « famille de puces AI » d'xAI ; d'autre part, il souhaite exploiter la technologie de fabrication 14A d'Intel pour développer des solutions de pointe destinées aux futures activités d'xAI, de SpaceX et d'autres entreprises connexes.
La situation d'xAI rappelle à tous les poursuivants : en seconde période de la course à l'IA, ce n'est peut-être plus qui peut acheter plus de cartes graphiques qui compte.
Contenu de référence :
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus
Cet article provient du compte WeChat « Machine Heart » (ID : almosthuman2014), auteur : spécialisé dans les infrastructures IA
