Peminat Cina menjalankan Kimi K2.5 dengan 1 triliun parameter pada RTX 3060 dengan memori Intel Optane 768GB

Model AI dengan satu triliun parameter baru sahaja dijalankan pada kad grafik yang kebanyakan pemain akan anggap sebagai sederhana.

Seorang peminat AI China yang dikenali sebagai APFrisco menunjukkan model Kimi K2.5 Moonshot AI, model bahasa besar Mixture-of-Experts (MoE) dengan jumlah parameter sebanyak 1 trilion, berjalan pada satu GPU Nvidia RTX 3060 yang dipasangkan dengan 768 GB Intel Optane Persistent Memory. Pemasangan ini mencapai kira-kira empat token per saat, yang perlahan mengikut piawaian pengeluaran tetapi luar biasa mengingat peralatan yang terlibat.

Bagaimana GPU peringkat sederhana menangani satu triliun parameter

Kimi K2.5 sebenarnya tidak mengaktifkan kesemua 1 trilion parameter secara serentak. Untuk setiap token yang dihasilkan, hanya 32 bilion parameter yang diaktifkan. Selebihnya berada dalam keadaan tidak aktif, menunggu giliran mereka.

Walaupun dengan trik kecekapan itu, model ini sangat besar. Kimi K2.5 penuh beratnya sekitar 630 GB. Versi terkuantisasi, yang mengompres presisi model untuk mengurangkan keperluan memori, masih berjumlah sekitar 381 GB. Itulah sebabnya APFrisco memerlukan 768 GB Intel Optane Persistent Memory: tiada setup RAM pengguna biasa yang hampir mampu menangani jejak sebesar itu.

Optane PMem DIMM adalah pilihan yang menarik. Intel telah menghentikan rangkaian Optane-nya, yang bermakna modul-modul ini kini merupakan peranti legasi yang beredar di pasaran barangan kedua. Ia lebih perlahan daripada DRAM tradisional tetapi jauh lebih murah setiap gigabait, menjadikannya penyelesaian yang tidak konvensional tetapi mengejutkan praktikal untuk memuatkan model besar yang sepatutnya memerlukan infrastruktur peringkat perusahaan.

RTX 3060 dilancarkan pada awal 2021 dengan 12 GB VRAM. Ia direka untuk permainan 1080p dan beban kerja kreatif ringan, bukan untuk menjalankan model AI terkini.

Bagaimana penyebaran Kimi K2.5 yang biasa

Inferens berprestasi tinggi untuk Kimi K2.5 biasanya bertujuan kepada konfigurasi dengan sehingga 8 GPU kelas atas. Penyusunan tersebut memberikan kelajuan antara 10 hingga 300-plus token per saat.

Demonstrasi itu dibahagikan di komuniti r/LocalLLaMA Reddit dan seterusnya diliput oleh Tom’s Hardware.

Kimi K2.5 itu sendiri dilancarkan pada 27 Januari 2026 oleh Moonshot AI. Ia menawarkan kemampuan multimodal dan dilatih menggunakan sekitar 15 trilion token visual dan teks bercampur. Ia adalah model berbobot terbuka, bermakna sesiapa sahaja boleh memuat turun dan menjalankannya, yang tepatnya menjadikan eksperimen APFrisco mungkin dilakukan.