MicrosoftのAzureクラウドプラットフォームは、Nvidiaとの協力強化により、これまでで最大規模のAIトレーニングで最速の結果を達成しました。この成果は2025年3月18日に発表され、機械学習ハードウェア性能を測定する広く認識された独立した基準であるMLPerf Training v4.1ベンチマークにおける記録更新のパフォーマンスを中心としています。
結果の背後にある構成:512枚のNvidia H200 GPUが連携して動作し、H100 GPUを基に構築された以前のセットアップと比較して28%のパフォーマンス向上を実現。
ベンチマークが実際に示していること
2023年の以前のベンチマークでは、Azureが10,752枚のH100 GPUを使用して、1750億パラメータのGPT-3モデルを約4分でトレーニングできることを示しました。新しいH200ベースの構成は、この基盤を踏まえ、GPUあたりのパフォーマンスが大幅に向上し、同等のトレーニング速度を達成するために必要なハードウェア全体を削減しています。
これらの結果の背後にあるフルスタックは、最新のGPUへの交換だけにとどまりません。Microsoftは、ハードウェア、ネットワーキング、ソフトウェアにわたる統合されたイノベーションを挙げています。この構成は、分散学習中にGPU間の膨大なデータ転送要求を処理するNvidia Quantum InfiniBandネットワーキングを活用しています。また、Nvidiaのマイクロサービスと、Azure独自のAIサービス、特にAI Foundryプラットフォームも組み込んでいます。
すでにこのサービスを利用しているのは誰で、次に何が来るのか
生成画像モデルで知られるAI企業Black Forest Labsは、すでに自社のプロジェクトにAzureの新GB200仮想マシンを活用しています。
これらの機能をサポートするGPUラインアップは複数の世代にわたります。Azureは現在、H200、H100、およびGB200シリーズのGPUを基にした構成を提供しています。2025年後半には、Microsoftは推論およびマルチモーダルAIワークロードのパフォーマンスを強化するために設計されたNvidiaのBlackwell Ultra GPUを統合する予定です。
