Microsoft’in Azure bulut platformu, Nvidia ile derinleşen iş birliği sayesinde en büyük bildirilen ölçekte en hızlı AI eğitimi sonuçlarını paylaştı. 18 Mart 2025 tarihinde duyurulan bu başarı, makine öğrenimi donanım performansını ölçmek için yaygın olarak kabul edilen bağımsız standart olan MLPerf Training v4.1 testlerinde rekor kırıcı performans odaklıdır.
Sonuçların arkasındaki yapılandırma: Önceki H100 GPU'lara dayalı sistemlere göre %28 performans artışı sağlayan 512 adet Nvidia H200 GPU'nun birlikte çalışması.
Benchmarklerin aslında ne gösterdiğini
Önceki 2023 referanslarında, Azure, 175 milyar parametreli bir GPT-3 modelini yaklaşık 4 dakikada 10.752 adet H100 GPU'da eğitebileceğini gösterdi. Yeni H200 tabanlı yapı, her GPU için anlamlı şekilde daha iyi performans sunarak, karşılaştırılabilir eğitim hızlarına ulaşmak için gerekli toplam donanım miktarını azaltır.
Bu sonuçların arkasındaki tam stack, yalnızca daha yeni GPU'larla değiştirme işleminden öteye gidiyor. Microsoft, donanım, ağ ve yazılım boyunca entegre yeniliklere atıfta bulundu. Kurulum, dağıtılmış eğitim sırasında GPU'lar arasında büyük veri transferi taleplerini karşılayan Nvidia Quantum InfiniBand ağından yararlanıyor. Aynı zamanda Nvidia’ın mikroservislerini ve Azure’un kendi AI hizmetlerini, bunlar arasında AI Foundry platformunu da içeriyor.
Bunu zaten kimler kullanıyor ve sonraki adım ne
Yapay zeka şirketi Black Forest Labs, projeleri için zaten Azure'un yeni GB200 sanal makinelerini kullanıyor.
Bu yetenekleri destekleyen GPU serisi, birden fazla nesil boyunca uzanmaktadır. Azure şu anda H200, H100 ve GB200 serisi GPU'lar etrafında kurulan yapılandırmalar sunmaktadır. 2025 yılının ilerleyen dönemlerinde Microsoft, Nvidia'ın akıl yürütme ve çoklu modlu AI iş yüklerinde performansı artırmak için özel olarak tasarlanmış Blackwell Ultra GPU'larını entegre etmeyi planlamaktadır.
