Pecinta Tiongkok Menjalankan Kimi K2.5 dengan 1 Triliun Parameter di RTX 3060 dengan 768GB Intel Optane Memory

Model AI dengan satu triliun parameter baru saja dijalankan pada kartu grafis yang kebanyakan gamer anggap sebagai kelas menengah.

Seorang penggemar AI Tiongkok yang dikenal sebagai APFrisco memperagakan model Kimi K2.5 dari Moonshot AI, sebuah model bahasa besar Mixture-of-Experts (MoE) dengan total 1 triliun parameter, yang berjalan pada satu GPU Nvidia RTX 3060 yang dipasangkan dengan 768 GB Intel Optane Persistent Memory. Pengaturan ini mencapai sekitar empat token per detik, yang lambat menurut standar produksi tetapi luar biasa mengingat perangkat keras yang digunakan.

Bagaimana GPU kelas menengah menangani satu triliun parameter

Kimi K2.5 sebenarnya tidak mengaktifkan semua 1 triliun parameter sekaligus. Untuk setiap token yang dihasilkan, hanya 32 miliar parameter yang diaktifkan. Sisanya tetap tidak aktif, menunggu gilirannya.

Meskipun dengan trik efisiensi itu, modelnya sangat besar. Kimi K2.5 versi penuh beratnya sekitar 630 GB. Versi terkuantisasi, yang memadatkan presisi model untuk mengurangi kebutuhan memori, masih berukuran sekitar 381 GB. Itulah sebabnya APFrisco membutuhkan 768 GB Intel Optane Persistent Memory: tidak ada setup RAM konsumen standar yang mendekati kemampuan menangani ukuran sebesar itu.

Optane PMem DIMMs adalah pilihan yang menarik. Intel telah menghentikan lini Optane-nya, yang berarti modul-modul ini kini pada dasarnya merupakan perangkat keras lama yang beredar di pasar bekas. Mereka lebih lambat daripada DRAM tradisional, tetapi jauh lebih murah per gigabynenya, menjadikannya solusi yang tidak konvensional namun secara mengejutkan praktis untuk memuat model-model besar yang sebelumnya memerlukan infrastruktur kelas perusahaan.

RTX 3060 diluncurkan pada awal 2021 dengan 12 GB VRAM. Dirancang untuk gaming 1080p dan beban kreatif ringan, bukan untuk menjalankan model AI terkini.

Seperti apa penyebaran Kimi K2.5 yang umum

Inferensi berkinerja tinggi untuk Kimi K2.5 biasanya menargetkan konfigurasi dengan hingga 8 GPU kelas atas. Pengaturan tersebut memberikan kecepatan antara 10 hingga lebih dari 300 token per detik.

Demonstrasi tersebut dibagikan di komunitas r/LocalLLaMA Reddit dan selanjutnya diliput oleh Tom’s Hardware.

Kimi K2.5 sendiri dirilis pada 27 Januari 2026 oleh Moonshot AI. Model ini memiliki kemampuan multimodal dan dilatih menggunakan sekitar 15 triliun token visual dan teks campuran. Ini adalah model open-weight, artinya siapa pun dapat mengunduh dan menjalankannya, yang justru membuat eksperimen APFrisco mungkin dilakukan sejak awal.