Cerebras Mencapai 981 token per saat pada Model Kimi K2.6, 6.7x lebih pantas daripada GPU Cloud

iconCryptoBriefing
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Cerebras Systems kini menghantar 981 token per saat untuk model Kimi K2.6 Moonshot AI, disahkan oleh Artificial Analysis. Model MoE terbuka dengan 1 trilion parameter ini berjalan 6.7 kali lebih pantas berbanding awan GPU terbaik. Data atas rantai menunjukkan peningkatan latensi 29 kali dalam tugas pengaturcaraan, dengan Cerebras menyelesaikan respons dalam 5.6 saat berbanding 163.7 saat pada endpoint Kimi rasmi. Analisis atas rantai mengesahkan jurang prestasi tetap konsisten merentas beban kerja.

Cerebras Systems kini melayani Moonshot AI’s Kimi K2.6, model Mixture-of-Experts terbuka dengan 1 triliun parameter, pada kadar 981 token output per saat. Nombor ini, yang disahkan melalui ujian bebas daripada Artificial Analysis, mewakili 6.7 kali kelajuan penyedia awan GPU terbaik seterusnya.

Sebagai konteks, penyedia inferensi median memakan masa kira-kira 23 kali lebih perlahan.

Bagaimana nombor-nombor itu kelihatan dalam amalan

Pada beban pengkodean agen yang mewakili, dengan 10,000 token input dan 500 token output, pengaturan yang didayakan oleh Cerebras menghantar respons lengkap dalam 5.6 saat.

Iklan

Tugas yang sama pada endpoint rasmi Kimi mengambil masa 163.7 saat. Itu adalah peningkatan 29 kali dalam latensi end-to-end.

Model Kimi K2.6 itu sendiri patut dipahami. Dibangunkan oleh Moonshot AI dan dilancarkan pada 20 April 2026, ia menawarkan kemampuan multimodal dan agen. Walaupun jumlah parameter keseluruhan mencapai 1 trilion, hanya 32 bilion parameter yang diaktifkan pada masa tertentu, berkat arkaitektur MoE.

Mengapa arsitektur berskala wafer mengubah matematik

Teknologi inti Cerebras ialah Wafer-Scale Engine, satu cip yang merupakan seluruh wafer silikon. Cip tradisional dipotong daripada wafer menjadi die kecil individu. Cerebras melepasi bahagian pemotongan dan menggunakan keseluruhan wafer.

Cerebras mengklaim mempunyai bandwidth lebih daripada 200 kali ganda NVLink milik NVIDIA, teknologi antarhubung yang menghubungkan GPU bersama dalam kelompok pusat data. Semasa menjalankan inferens pada model besar, sempadan hampir selalunya adalah bandwidth memori, bukan pengiraan mentah. Berat perlu dibaca dari memori dan dihantar ke pemproses untuk setiap token yang dihasilkan.

Konteks perniagaan: syarikat yang baru dipermulaan awam dengan sesuatu yang perlu dibuktikan

Cerebras menyelesaikan IPO pada Mei 2026 pada penilaian $95 bilion, menjadikannya IPO teknologi terbesar tahun ini.

Keputusan 981 token-per-sec adalah bukti paling konkrit hingga kini bahawa separuh teori mengenai kelajuan itu berterusan. Cerebras belum menerbitkan perbandingan harga terperinci bersama benchmark ini.

Dengan menyediakan salah satu model terbuka berat paling terkemuka daripada sebuah lab AI China terkemuka, Cerebras menunjukkan bahawa peranti kerasnya mampu menangani model yang sebenarnya diingini oleh pembangun.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.