Cerebras Uji Model Kimi K2.6 dengan Peningkatan Kelajuan 29x dalam Tugas Teks Panjang

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Cerebras mengumumkan pada 20 Mei (UTC+8) bahawa ia telah menguji model Kimi K2.6 dengan satu trilion parameter menggunakan cip skala wafer. Dengan memasang cip secara langsung pada wafer 12 inci penuh, syarikat tersebut mengurangkan kelewatan komunikasi. Menurut Artificial Analysis, model tersebut menghasilkan teks pada kadar 981 token/detik, 6.7 kali lebih pantas berbanding perkhidmatan GPU biasa. Dalam ujian teks panjang dengan 10,000 token input dan 500 token output, masa respons turun daripada 163.7 saat kepada 5.6 saat, peningkatan sebanyak 29 kali. Data pada rantai terus menonjolkan peningkatan prestasi dalam infrastruktur AI.

Berita ME, 20 Mei (UTC+8), menurut pemantauan Beating, syarikat cip skala wafer Cerebras mengumumkan pelancaran model bahasa besar dengan trilion parameter, Kimi K2.6, dalam ujian perniagaan, dengan menghilangkan sepenuhnya latensi interkoneksian komunikasi peringkat papan melalui integrasi cip secara langsung di atas wafer silikon 12 inci. Ujian oleh agensi penilaian pihak ketiga, Artificial Analysis, menunjukkan kelajuan penghasilan mencapai 981 token/s, 6.7 kali lebih pantas berbanding perkhidmatan awan GPU utama. Dalam tugas teks panjang dengan 10,000 token input dan 500 token output, masa respons keseluruhan berkurang daripada 163.7 saat pada antaramuka rasmi Kimi kepada hanya 5.6 saat, meningkatkan kelajuan sebanyak 29 kali. Disebabkan berat model dialokasikan ke beberapa wafer untuk penghantaran aliran nilai aktivasi, komunikasi antara lapisan beroperasi sepenuhnya di atas jaringan tenun di dalam wafer, dengan bandwidth komunikasi fizikal mencapai lebih 200 kali ganda NVLink dalam arsitektur NVIDIA NVL72. Dipadukan dengan pengoptimuman pengiraan teragih, Kimi K2.6 menyimpan berat asal dalam format 4-bit (4 bit) dengan kehilangan rendah, menggunakan nombor titik terapung 16-bit (16 bit) semasa pengiraan untuk mengekalkan ketepatan, serta menggunakan kernel operator tersuai dan dekod spekulatif untuk mencapai operasi secara masa nyata. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.