GB300 NVL72 Nvidia mencapai 61.4K agen AI per megawatt, 20 kali lebih baik daripada H200

Nvidia baru sahaja mengumumkan nombor yang sepatutnya membuat setiap pengendali pusat data menoleh dua kali. Sistem GB300 NVL70 baharu syarikat mampu menangani 61,400 agen AI serentak setiap megawatt tenaga yang digunakan, berbanding hanya 2,600 pada generasi sebelumnya H200.

Itu adalah peningkatan 20x dalam kepadatan agen per unit tenaga. Bagi satu industri di mana kos elektrik dengan cepat menjadi kekangan pengikat kepada pertumbuhan, ini bukan sekadar pamer spesifikasi. Ia adalah perubahan struktur dalam ekonomi inferens.

Apa yang ada di dalam rak

GB300 NVL72 dibina di atas arkaitektur Nvidia Blackwell Ultra, yang menggabungkan 72 GPU Blackwell Ultra dan 36 CPU Grace ke dalam satu rak yang dilengkapi dengan penyejukan cecair. Sistem ini mengintegrasikan sekitar 20 hingga 21 TB memori HBM3e dan menawarkan lebar pita NVLink sebanyak 130 TB/s, yang merupakan jalan data dalaman yang memastikan semua GPU berkomunikasi antara satu sama lain tanpa mengalami bottleneck.

Nvidia mengatakan platform ini memberikan keluaran pabrik AI sehingga hingga 50 kali ganda berbanding sistem generasi Hopper yang lebih lama. Ia juga mengklaim 10 kali lebih banyak token per saat setiap pengguna dan lima kali lebih banyak throughput per watt.

Sistem ini merangkumi pengoptimuman perisian seperti WideEP/DeepEP dan teknik Mixture of Experts (MoE) yang digabungkan, kedua-duanya direka untuk mengekstrak lebih banyak pengiraan yang berguna daripada setiap watt dan setiap kitaran GPU. MoE adalah sistem penghalaan yang hanya mengaktifkan bahagian model yang relevan dengan permintaan tertentu, bukan mengaktifkan setiap neuron setiap kali.

Prestasi telah disahkan menggunakan tolok bernama AgentPerf, yang dibangunkan oleh Artificial Analysis khas untuk menilai prestasi AI berorientasikan agen. Tolok ini menjalankan model DeepSeek V4 Pro, arsitektur MoE, dengan objektif peringkat perkhidmatan ditetapkan pada 20 atau 60 token per saat setiap agen.

Siapa yang menghulurkannya

GB300 NVL72 telah menarik komitmen daripada penyedia awan yang paling penting. Microsoft Azure sedang melaksanakan kumpulan berskala besar yang dibina di sekitar sistem ini, dengan rak-rak tersebut dijangka akan memberi kuasa kepada beban kerja OpenAI bermula pada akhir 2025 dan berterusan ke tahun 2026.

CoreWeave telah mengumumkan contoh produksi pertama GB300 NVL72, menempatkan dirinya sebagai pelopor awal dalam ruang awan GPU. Oracle Cloud Infrastructure juga berada dalam saluran pelaksanaan.

Apa yang bermaksud ini kepada pelabur

Peningkatan kecekapan 20x berbanding H200 mencipta pengiraan ROI terus untuk pengendali pusat data: envelop kuasa yang sama secara teori boleh menyokong 20 kali lebih banyak agen pada peranti GB300.

Peningkatan output 50x berbanding platform Hopper, digabungkan dengan lima kali ganda throughput per watt, memberikan Nvidia narasi yang kredibel kepada pelabur institusi yang peka terhadap ESG. Sebagai regulator dan pemegang saham semakin mengkaji jejak tenaga infrastruktur AI, sistem yang menghasilkan lebih banyak kecerdasan per kilowatt-jam akan diberi premium dalam keputusan pembelian.