Cerebras Mencapai 981 Token per Detik pada Model Kimi K2.6, 6,7x Lebih Cepat Daripada GPU Cloud

iconCryptoBriefing
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Cerebras Systems kini mengirimkan 981 token per detik untuk model Kimi K2.6 dari Moonshot AI, diverifikasi oleh Artificial Analysis. Model MoE berparameter 1 triliun dengan bobot terbuka ini berjalan 6,7 kali lebih cepat daripada cloud GPU terbaik. Data on-chain menunjukkan peningkatan latensi sebesar 29x dalam tugas pemrograman, dengan Cerebras menyelesaikan respons dalam 5,6 detik dibandingkan 163,7 detik di endpoint Kimi resmi. Analisis on-chain mengonfirmasi kesenjangan kinerja tetap konsisten di berbagai beban kerja.

Cerebras Systems kini melayani Moonshot AI’s Kimi K2.6, model Mixture-of-Experts dengan 1 triliun parameter dan bobot terbuka, pada kecepatan 981 token keluaran per detik. Angka ini, yang telah diverifikasi oleh pengujian independen dari Artificial Analysis, mewakili kecepatan 6,7 kali lebih cepat dibanding penyedia cloud GPU terbaik berikutnya.

Sebagai konteks, penyedia inferensi median berjalan sekitar 23 kali lebih lambat.

Seperti apa angka-angka tersebut sebenarnya dalam praktik

Pada beban pengkodean agen representatif, dengan 10.000 token input dan 500 token output, pengaturan yang didukung Cerebras menghasilkan respons lengkap dalam 5,6 detik.

Iklan

Tugas yang sama pada endpoint resmi Kimi memakan waktu 163,7 detik. Itu adalah peningkatan 29 kali dalam latensi end-to-end.

Model Kimi K2.6 itu sendiri patut dipahami. Dikembangkan oleh Moonshot AI dan dirilis pada 20 April 2026, model ini memiliki kemampuan multimodal dan agen. Meskipun jumlah total parameter mencapai 1 triliun, hanya 32 miliar parameter yang diaktifkan pada waktu tertentu, berkat arsitektur MoE.

Mengapa arsitektur skala wafer mengubah perhitungan

Teknologi inti Cerebras adalah Wafer-Scale Engine, sebuah chip yang merupakan seluruh wafer silikon. Chip tradisional dipotong dari wafer menjadi die-die kecil individu. Cerebras melewati proses pemotongan dan menggunakan seluruh wafer.

Cerebras mengklaim memiliki bandwidth lebih dari 200 kali lipat dibandingkan NVLink milik NVIDIA, teknologi interkoneksi yang menghubungkan GPU dalam kluster pusat data. Saat menjalankan inferensi pada model besar, bottleneck hampir selalu terjadi pada bandwidth memori, bukan daya komputasi mentah. Bobot perlu dibaca dari memori dan dialirkan ke prosesor untuk setiap token yang dihasilkan.

Konteks bisnis: perusahaan baru yang terdaftar di bursa dengan sesuatu yang harus dibuktikan

Cerebras menyelesaikan IPO-nya pada Mei 2026 dengan valuasi $95 miliar, menjadikannya IPO teknologi terbesar tahun ini.

Hasil 981 token-per-detik adalah bukti paling konkret hingga kini bahwa separuh teori tentang kecepatan tetap berlaku. Cerebras belum mempublikasikan perbandingan harga rinci bersama benchmark ini.

Dengan menyediakan salah satu model berbobot terbuka paling terkemuka dari laboratorium AI Tiongkok terkemuka, Cerebras menunjukkan bahwa perangkat kerasnya mampu menangani model yang benar-benar diinginkan pengembang.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.