Cerebras Mencapai 981 token per saat pada Model Kimi K2.6, 6.7x lebih pantas daripada GPU Cloud

Cerebras Systems kini melayani Moonshot AI’s Kimi K2.6, model Mixture-of-Experts terbuka dengan 1 triliun parameter, pada kadar 981 token output per saat. Nombor ini, yang disahkan melalui ujian bebas daripada Artificial Analysis, mewakili 6.7 kali kelajuan penyedia awan GPU terbaik seterusnya.

Sebagai konteks, penyedia inferensi median memakan masa kira-kira 23 kali lebih perlahan.

Bagaimana nombor-nombor itu kelihatan dalam amalan

Pada beban pengkodean agen yang mewakili, dengan 10,000 token input dan 500 token output, pengaturan yang didayakan oleh Cerebras menghantar respons lengkap dalam 5.6 saat.

Tugas yang sama pada endpoint rasmi Kimi mengambil masa 163.7 saat. Itu adalah peningkatan 29 kali dalam latensi end-to-end.

Model Kimi K2.6 itu sendiri patut dipahami. Dibangunkan oleh Moonshot AI dan dilancarkan pada 20 April 2026, ia menawarkan kemampuan multimodal dan agen. Walaupun jumlah parameter keseluruhan mencapai 1 trilion, hanya 32 bilion parameter yang diaktifkan pada masa tertentu, berkat arkaitektur MoE.

Mengapa arsitektur berskala wafer mengubah matematik

Teknologi inti Cerebras ialah Wafer-Scale Engine, satu cip yang merupakan seluruh wafer silikon. Cip tradisional dipotong daripada wafer menjadi die kecil individu. Cerebras melepasi bahagian pemotongan dan menggunakan keseluruhan wafer.

Cerebras mengklaim mempunyai bandwidth lebih daripada 200 kali ganda NVLink milik NVIDIA, teknologi antarhubung yang menghubungkan GPU bersama dalam kelompok pusat data. Semasa menjalankan inferens pada model besar, sempadan hampir selalunya adalah bandwidth memori, bukan pengiraan mentah. Berat perlu dibaca dari memori dan dihantar ke pemproses untuk setiap token yang dihasilkan.

Konteks perniagaan: syarikat yang baru dipermulaan awam dengan sesuatu yang perlu dibuktikan

Cerebras menyelesaikan IPO pada Mei 2026 pada penilaian $95 bilion, menjadikannya IPO teknologi terbesar tahun ini.

Keputusan 981 token-per-sec adalah bukti paling konkrit hingga kini bahawa separuh teori mengenai kelajuan itu berterusan. Cerebras belum menerbitkan perbandingan harga terperinci bersama benchmark ini.

Dengan menyediakan salah satu model terbuka berat paling terkemuka daripada sebuah lab AI China terkemuka, Cerebras menunjukkan bahawa peranti kerasnya mampu menangani model yang sebenarnya diingini oleh pembangun.