La plateforme cloud Azure de Microsoft vient d'annoncer les résultats d'entraînement IA les plus rapides à la plus grande échelle jamais rapportée, grâce à une collaboration approfondie avec Nvidia. Cette réalisation, annoncée le 18 mars 2025, repose sur des performances record dans les benchmarks MLPerf Training v4.1, la norme indépendante largement reconnue pour mesurer les performances du matériel d'apprentissage automatique.
La configuration derrière les résultats : 512 GPU Nvidia H200 travaillant en concert, offrant une amélioration des performances de 28 % par rapport aux configurations précédentes basées sur les GPU H100.
Ce que les indicateurs de référence montrent réellement
Lors des précédents benchmarks de 2023, Azure a démontré qu'il pouvait entraîner un modèle GPT-3 de 175 milliards de paramètres sur 10 752 GPU H100 en environ 4 minutes. La nouvelle configuration basée sur les GPU H200 s'appuie sur cette base avec une performance par GPU significativement améliorée, réduisant ainsi le matériel total nécessaire pour atteindre des vitesses d'entraînement comparables.
La pile complète derrière ces résultats va au-delà du simple remplacement par des GPU plus récents. Microsoft a cité des innovations intégrées à travers le matériel, le réseau et le logiciel. Cette configuration utilise le réseau Nvidia Quantum InfiniBand, qui gère les exigences massives de transfert de données entre les GPU pendant l'entraînement distribué. Elle intègre également les microservices Nvidia aux services IA propres à Azure, notamment sa plateforme AI Foundry.
Qui utilise déjà cela et qu’est-ce qui vient ensuite ?
Black Forest Labs, l'entreprise d'IA connue pour ses modèles de génération d'images, utilise déjà les nouvelles machines virtuelles GB200 d'Azure pour ses projets.
La gamme de GPU prenant en charge ces fonctionnalités couvre plusieurs générations. Azure propose actuellement des configurations basées sur les séries de GPU H200, H100 et GB200. Plus tard en 2025, Microsoft prévoit d’intégrer les GPU Nvidia Blackwell Ultra, spécifiquement conçus pour améliorer les performances dans les charges de travail d’analyse et d’intelligence artificielle multimodale.
