Nvidia's GB300 NVL72 mencapai 61,4K agen AI per megawatt, 20x lebih baik daripada H200

Nvidia baru saja merilis angka yang seharusnya membuat setiap operator pusat data terkejut. Sistem GB300 NVL72 terbaru perusahaan mampu menangani 61.400 agen AI secara bersamaan per megawatt listrik yang dikonsumsi, dibandingkan hanya 2.600 pada generasi sebelumnya H200.

Itu adalah peningkatan 20x dalam kepadatan agen per unit energi. Bagi industri di mana biaya listrik dengan cepat menjadi kendala utama pertumbuhan, ini bukan sekadar pamer spesifikasi. Ini adalah perubahan struktural dalam ekonomi inferensi.

Apa yang ada di dalam rak

GB300 NVL72 dibangun di atas arsitektur Nvidia Blackwell Ultra, yang mengintegrasikan 72 GPU Blackwell Ultra dan 36 CPU Grace ke dalam satu rak yang didinginkan cair. Sistem ini mengintegrasikan sekitar 20 hingga 21 TB memori HBM3e dan menawarkan bandwidth NVLink sebesar 130 TB/s, yang merupakan jalan data internal yang membuat semua GPU tersebut tetap berkomunikasi satu sama lain tanpa terjadi bottleneck.

Nvidia mengatakan platform ini memberikan output pabrik AI hingga 50 kali lebih besar dibandingkan sistem generasi Hopper sebelumnya. Perusahaan juga mengklaim 10 kali lebih banyak token per detik per pengguna dan lima kali throughput per watt.

Sistem ini mencakup optimasi tingkat perangkat lunak seperti WideEP/DeepEP dan teknik Mixture of Experts (MoE) yang digabungkan, keduanya dirancang untuk memaksimalkan komputasi yang berguna dari setiap watt dan setiap siklus GPU. MoE adalah sistem routing yang hanya mengaktifkan bagian-bagian model yang relevan dengan permintaan tertentu, bukan mengaktifkan setiap neuron setiap kali.

Kinerja divalidasi menggunakan benchmark bernama AgentPerf, yang dikembangkan oleh Artificial Analysis khusus untuk mengevaluasi kinerja AI berorientasi agen. Benchmark ini menjalankan model DeepSeek V4 Pro, arsitektur MoE, dengan tujuan tingkat layanan ditetapkan pada 20 atau 60 token per detik per agen.

Siapa yang meng部署kannya

GB300 NVL72 telah menarik komitmen dari penyedia cloud yang paling penting. Microsoft Azure sedang mengimplementasikan cluster berskala besar pertama yang dibangun di sekitar sistem ini, dengan rak-rak tersebut diharapkan dapat memicu beban kerja OpenAI mulai akhir 2025 dan berlanjut hingga 2026.

CoreWeave telah mengumumkan instance produksi pertama dari GB300 NVL72, menempatkan dirinya sebagai pelopor awal di ruang GPU cloud. Oracle Cloud Infrastructure juga berada dalam jalur peluncuran.

Apa artinya ini bagi para investor

Peningkatan efisiensi 20x dibandingkan H200 menciptakan perhitungan ROI langsung bagi operator pusat data: lingkup daya yang sama secara teoritis dapat mendukung 20 kali lebih banyak agen pada perangkat keras GB300.

Peningkatan output 50x dibandingkan platform Hopper, ditambah dengan throughput lima kali lebih tinggi per watt, memberi Nvidia narasi yang kredibel bagi investor institusional yang peduli ESG. Seiring semakin ketatnya pengawasan regulator dan pemegang saham terhadap jejak energi infrastruktur AI, sistem yang menghasilkan lebih banyak kecerdasan per kilowatt-jam akan mendapatkan premi dalam keputusan pengadaan.