Platform awan Azure Microsoft baru saja mencatat hasil latihan AI tercepat pada skala terbesar yang dilaporkan, didorong oleh kerjasama yang diperdalam dengan Nvidia. Prestasi ini, diumumkan pada 18 Mac 2025, berpusat pada prestasi rekod dalam tolok MLPerf Training v4.1, tolok independen yang diakui luas untuk mengukur prestasi peranti keras pembelajaran mesin.
Konfigurasi di sebalik hasil: 512 GPU Nvidia H200 yang beroperasi secara serentak, memberikan peningkatan prestasi 28% berbanding susunan sebelumnya yang dibina berdasarkan GPU H100.
Apa yang sebenarnya ditunjukkan oleh tolok ukur
Dalam tolok ukur 2023 sebelumnya, Azure menunjukkan bahawa ia boleh melatih model GPT-3 dengan 175 bilion parameter pada 10.752 GPU H100 dalam masa kira-kira 4 minit. Konfigurasi baru berdasarkan H200 membina atas asas itu dengan prestasi setiap GPU yang jauh lebih baik, mengurangkan jumlah peranti keras yang diperlukan untuk mencapai kelajuan latihan yang sepadan.
Tiang belakang penuh di sebalik keputusan ini melampaui sekadar menukar GPU yang lebih baharu. Microsoft menyebut inovasi terpadu di seluruh peranti, rangkaian, dan perisian. Tetapan ini memanfaatkan rangkaian Nvidia Quantum InfiniBand, yang menangani permintaan pindahan data yang besar antara GPU semasa latihan teragih. Ia juga menggabungkan mikroperkhidmatan Nvidia bersama perkhidmatan AI Azure sendiri, termasuk platform AI Foundry-nya.
Siapa yang sudah menggunakannya dan apa yang akan datang seterusnya
Black Forest Labs, syarikat AI yang terkenal dengan model gambar generatifnya, sudah menggunakan mesin mayat GB200 Azure untuk projek-projeknya.
Jajaran GPU yang menyokong kemampuan ini merangkumi beberapa generasi. Azure semasa ini menawarkan konfigurasi yang dibina berdasarkan siri GPU H200, H100, dan GB200. Pada akhir 2025, Microsoft merancang untuk mengintegrasikan GPU Nvidia Blackwell Ultra, yang dirancang khusus untuk meningkatkan prestasi dalam beban kerja AI penalaran dan multimodal.
