Pecinta Tiongkok Menjalankan Kimi K2.5 dengan 1 Triliun Parameter di RTX 3060 dengan 768GB Intel Optane Memory

iconCryptoBriefing
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Seorang penggemar AI Tiongkok bernama APFrisco memperlihatkan Moonshot AI’s Kimi K2.5, model MoE dengan 1 triliun parameter, yang berjalan pada satu GPU RTX 3060 dengan memori Intel Optane 768GB. Setup ini memproses sekitar empat token per detik. Berita AI + kripto ini menonjolkan terobosan besar berita on-chain, karena ukuran model melebihi 630GB. Perangkat kerasnya kelas menengah, sehingga kinerjanya sangat mencolok.

Model AI dengan satu triliun parameter baru saja dijalankan pada kartu grafis yang kebanyakan gamer anggap sebagai kelas menengah.

Seorang penggemar AI Tiongkok yang dikenal sebagai APFrisco memperagakan model Kimi K2.5 dari Moonshot AI, sebuah model bahasa besar Mixture-of-Experts (MoE) dengan total 1 triliun parameter, yang berjalan pada satu GPU Nvidia RTX 3060 yang dipasangkan dengan 768 GB Intel Optane Persistent Memory. Pengaturan ini mencapai sekitar empat token per detik, yang lambat menurut standar produksi tetapi luar biasa mengingat perangkat keras yang digunakan.

Bagaimana GPU kelas menengah menangani satu triliun parameter

Kimi K2.5 sebenarnya tidak mengaktifkan semua 1 triliun parameter sekaligus. Untuk setiap token yang dihasilkan, hanya 32 miliar parameter yang diaktifkan. Sisanya tetap tidak aktif, menunggu gilirannya.

Iklan

Meskipun dengan trik efisiensi itu, modelnya sangat besar. Kimi K2.5 versi penuh beratnya sekitar 630 GB. Versi terkuantisasi, yang memadatkan presisi model untuk mengurangi kebutuhan memori, masih berukuran sekitar 381 GB. Itulah sebabnya APFrisco membutuhkan 768 GB Intel Optane Persistent Memory: tidak ada setup RAM konsumen standar yang mendekati kemampuan menangani ukuran sebesar itu.

Optane PMem DIMMs adalah pilihan yang menarik. Intel telah menghentikan lini Optane-nya, yang berarti modul-modul ini kini pada dasarnya merupakan perangkat keras lama yang beredar di pasar bekas. Mereka lebih lambat daripada DRAM tradisional, tetapi jauh lebih murah per gigabynenya, menjadikannya solusi yang tidak konvensional namun secara mengejutkan praktis untuk memuat model-model besar yang sebelumnya memerlukan infrastruktur kelas perusahaan.

RTX 3060 diluncurkan pada awal 2021 dengan 12 GB VRAM. Dirancang untuk gaming 1080p dan beban kreatif ringan, bukan untuk menjalankan model AI terkini.

Seperti apa penyebaran Kimi K2.5 yang umum

Inferensi berkinerja tinggi untuk Kimi K2.5 biasanya menargetkan konfigurasi dengan hingga 8 GPU kelas atas. Pengaturan tersebut memberikan kecepatan antara 10 hingga lebih dari 300 token per detik.

Demonstrasi tersebut dibagikan di komunitas r/LocalLLaMA Reddit dan selanjutnya diliput oleh Tom’s Hardware.

Kimi K2.5 sendiri dirilis pada 27 Januari 2026 oleh Moonshot AI. Model ini memiliki kemampuan multimodal dan dilatih menggunakan sekitar 15 triliun token visual dan teks campuran. Ini adalah model open-weight, artinya siapa pun dapat mengunduh dan menjalankannya, yang justru membuat eksperimen APFrisco mungkin dilakukan sejak awal.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.