Isang AI model na may isang trilyon na parameter ay nag-run na sa isang graphics card na itinuturing ng karamihan sa mga gamer bilang mid-range.
Isang Chinese AI enthusiast na kilala bilang APFrisco ay ipinakita ang Moonshot AI’s Kimi K2.5 model, isang Mixture-of-Experts (MoE) large language model na may kabuuang 1 trilyon na parameter, na tumatakbo sa isang solong Nvidia RTX 3060 GPU na kasama ang 768 GB ng Intel Optane Persistent Memory. Ang setup ay nakamit ang halos apat na tokens bawat segundo, na mabagal ayon sa mga pamantayan ng produksyon ngunit nakakagulat sa pagtingin sa mga kagamitan na ginamit.
Paano nilalampasan ng mid-tier GPU ang isang trilyon na parameter
Hindi nagpapagana ng buong 1 trilyon na parameter ang Kimi K2.5 nang sabay-sabay. Para sa bawat token na nabubuo, lamang 32 bilyon na parameter ang nagpapagana. Ang natitira ay naka-antay nang tahimik, naghihintay ng kanilang pagkakataon.
Kahit may efficiency trick na iyon, ang modelo ay napakalaking. Ang buong Kimi K2.5 ay may timbang na humigit-kumulang 630 GB. Ang mga quantized na bersyon, na kumikompres ng precision ng modelo upang bawasan ang mga pangangailangan sa memorya, ay nananatili pa ring nasa paligid ng 381 GB. Dito nagkakaroon ng pangangailangan si APFrisco ng 768 GB ng Intel Optane Persistent Memory: walang karaniwang consumer RAM setup ang makakapag-handle sa ganitong laki ng footprint.
Ang mga Optane PMem DIMMs ay isang interesanteng pagpili. Ipinagpapatuloy ng Intel ang kanilang linya ng Optane, na nangangahulugan na ang mga module na ito ay ngayon ay mga legacy hardware na umiikot sa merkado ng pangalawang kamay. Mas mabagal sila kaysa sa tradisyonal na DRAM ngunit mas mura nang malaki bawat gigabyte, na nagiging isang hindi karaniun ngunit napakaprasikto solusyon para sa pag-load ng malalaking modelo na kailangan ng iba pang enterprise-grade infrastructure.
Lumabas ang RTX 3060 noong unang bahagi ng 2021 na may 12 GB ng VRAM. Ito ay disenyo para sa 1080p gaming at mga maliit na creative workload, hindi para sa pagpapatakbo ng mga frontier AI model.
Ano ang karaniwang mga pag-deploy ng Kimi K2.5
High-performance inference para sa Kimi K2.5 ay karaniwang nakatuon sa mga konfigurasyon na may hanggang 8 na high-end GPUs. Ang mga setup na ito ay nagdadala ng bilis na nasa pagitan ng 10 at 300+ na tokens bawat segundo.
Ipinakita ang demonstrasyon sa komunidad ng Reddit na r/LocalLLaMA at sinundan ng Tom’s Hardware.
Ipinakilala na si Kimi K2.5 noong Enero 27, 2026, ng Moonshot AI. Nagtatampok ito ng multimodal na kakayahan at tinuruan sa halos 15 trilyon na mixed visual at text tokens. Ito ay isang open-weight model, kaya maaaring i-download at i-run ng sinuman, na eksaktong dahilan kung bakit posible ang eksperimento ni APFrisco.
