Cerebras Mencapai 981 Token per Detik pada Model Kimi K2.6, 6,7x Lebih Cepat Daripada GPU Cloud

Cerebras Systems kini melayani Moonshot AI’s Kimi K2.6, model Mixture-of-Experts dengan 1 triliun parameter dan bobot terbuka, pada kecepatan 981 token keluaran per detik. Angka ini, yang telah diverifikasi oleh pengujian independen dari Artificial Analysis, mewakili kecepatan 6,7 kali lebih cepat dibanding penyedia cloud GPU terbaik berikutnya.

Sebagai konteks, penyedia inferensi median berjalan sekitar 23 kali lebih lambat.

Seperti apa angka-angka tersebut sebenarnya dalam praktik

Pada beban pengkodean agen representatif, dengan 10.000 token input dan 500 token output, pengaturan yang didukung Cerebras menghasilkan respons lengkap dalam 5,6 detik.

Tugas yang sama pada endpoint resmi Kimi memakan waktu 163,7 detik. Itu adalah peningkatan 29 kali dalam latensi end-to-end.

Model Kimi K2.6 itu sendiri patut dipahami. Dikembangkan oleh Moonshot AI dan dirilis pada 20 April 2026, model ini memiliki kemampuan multimodal dan agen. Meskipun jumlah total parameter mencapai 1 triliun, hanya 32 miliar parameter yang diaktifkan pada waktu tertentu, berkat arsitektur MoE.

Mengapa arsitektur skala wafer mengubah perhitungan

Teknologi inti Cerebras adalah Wafer-Scale Engine, sebuah chip yang merupakan seluruh wafer silikon. Chip tradisional dipotong dari wafer menjadi die-die kecil individu. Cerebras melewati proses pemotongan dan menggunakan seluruh wafer.

Cerebras mengklaim memiliki bandwidth lebih dari 200 kali lipat dibandingkan NVLink milik NVIDIA, teknologi interkoneksi yang menghubungkan GPU dalam kluster pusat data. Saat menjalankan inferensi pada model besar, bottleneck hampir selalu terjadi pada bandwidth memori, bukan daya komputasi mentah. Bobot perlu dibaca dari memori dan dialirkan ke prosesor untuk setiap token yang dihasilkan.

Konteks bisnis: perusahaan baru yang terdaftar di bursa dengan sesuatu yang harus dibuktikan

Cerebras menyelesaikan IPO-nya pada Mei 2026 dengan valuasi $95 miliar, menjadikannya IPO teknologi terbesar tahun ini.

Hasil 981 token-per-detik adalah bukti paling konkret hingga kini bahwa separuh teori tentang kecepatan tetap berlaku. Cerebras belum mempublikasikan perbandingan harga rinci bersama benchmark ini.

Dengan menyediakan salah satu model berbobot terbuka paling terkemuka dari laboratorium AI Tiongkok terkemuka, Cerebras menunjukkan bahwa perangkat kerasnya mampu menangani model yang benar-benar diinginkan pengembang.