Bir trilyon parametreli bir AI modeli, çoğu oyuncağın orta seviye olarak değerlendireceği bir grafik kartında çalıştı.
Çinli bir yapay zeka hayranı olan APFrisco, 1 trilyon toplam parametreye sahip olan Moonshot AI'nın Kimi K2.5 modelini, tek bir Nvidia RTX 3060 GPU ve 768 GB Intel Optane Sürekli Bellek ile çalıştırdı. Bu kurulum, üretim standartlarına göre yavaş olsa da, kullanılan donanım göz önüne alındığında dikkat çekici bir şekilde saniyede yaklaşık dört token elde etti.
Orta seviye bir GPU, trilyon parametreleri nasıl işler
Kimi K2.5, tüm 1 trilyon parametreyi aynı anda etkinleştirmiyor. Her bir token üretildiğinde yalnızca 32 milyar parametre aktif hale geliyor. Geri kalanlar, sırasını bekliyor.
Bu verimlilik hilesine rağmen model çok büyük. Tam Kimi K2.5 yaklaşık 630 GB ağırlığında. Modelin bellek gereksinimlerini azaltmak için hassasiyetini sıkıştıran kuantize versiyonları hâlâ yaklaşık 381 GB yer kaplıyor. Bu yüzden APFrisco, 768 GB Intel Optane Sürekli Bellek gerektirdi: standart tüketici RAM kurulumları bu tür bir boyutu işlemek için hiçbir zaman yeterli olmaz.
Optane PMem DIMM'ler ilginç bir seçim. Intel, Optane serisini durdurdu, bu da bu modüllerin artık ikinci el pazarında kalıtsal donanım olarak dolaştığı anlamına geliyor. Geleneksel DRAM'den daha yavaş olsalar da, gigabayt başına çok daha ucuza mal oluyorlar ve aksi takdirde kurumsal düzeyde altyapı gerektirecek büyük modelleri yüklemek için nadiren ama şaşırtıcı derecede pratik bir çözüm sunuyorlar.
RTX 3060, 12 GB VRAM ile 2021 yılının başlarında piyasaya sürüldü. 1080p oyun oynamak ve hafif yaratıcı iş yükleri için tasarlandı, öncü AI modellerini çalıştırmak için değil.
Kimi K2.5 dağıtımlarının tipik görünümleri nasıl olur
Kimi K2.5 için yüksek performanslı çıkarım genellikle en fazla 8 yüksek performanslı GPU içeren yapılandırmaları hedefler. Bu kurulumlar saniyede 10 ile 300+ token arasında hızlar sunar.
Demo, Reddit’in r/LocalLLaMA topluluğunda paylaşıldı ve ardından Tom’s Hardware tarafından ele alındı.
Kimi K2.5, Moonshot AI tarafından 27 Ocak 2026 tarihinde yayımlandı. Çok modlu yeteneklere sahiptir ve yaklaşık 15 trilyon karışık görsel ve metin jetonu üzerinde eğitildi. Açık ağırlıklı bir modeldir, bu da herkesin indirip çalıştırabilmesi anlamına gelir ve tam olarak bu özellik, APFrisco'nun deneyini mümkün kıldı.
