Китайский энтузиаст запустил Kimi K2.5 с 1 триллионом параметров на RTX 3060 с 768 ГБ Intel Optane Memory

Модель ИИ с триллионом параметров успешно запущена на графическом процессоре, который большинство геймеров считают средним классом.

Китайский энтузиаст ИИ по имени APFrisco продемонстрировал модель Moonshot AI Kimi K2.5 — крупная языковая модель типа Mixture-of-Experts (MoE) с общим количеством параметров 1 триллион, работающая на одном GPU Nvidia RTX 3060 в паре с 768 ГБ постоянной памяти Intel Optane. Данная конфигурация достигла примерно четырех токенов в секунду, что медленно по стандартам промышленного использования, но впечатляет с учетом используемого оборудования.

Как видеокарта среднего класса справляется с триллионом параметров

Kimi K2.5 фактически не активирует все 1 триллион параметров одновременно. Для каждого генерируемого токена активируются только 32 миллиарда параметров. Остальные остаются неактивными, ожидая своей очереди.

Даже с этим эффективным трюком модель огромна. Полная версия Kimi K2.5 весит примерно 630 ГБ. Квантованные версии, которые сжимают точность модели для снижения требований к памяти, все еще занимают около 381 ГБ. Именно поэтому APFrisco потребовалось 768 ГБ постоянной памяти Intel Optane: ни одна стандартная потребительская конфигурация ОЗУ не способна справиться с таким объемом.

Optane PMem DIMM — интересный выбор. Intel прекратила производство линейки Optane, что означает, что эти модули теперь представляют собой устаревшее оборудование, циркулирующее на вторичном рынке. Они медленнее традиционной DRAM, но значительно дешевле за гигабайт, что делает их нестандартным, но удивительно практичным решением для загрузки огромных моделей, которые иначе требовали бы инфраструктуру корпоративного уровня.

RTX 3060 была выпущена в начале 2021 года с 12 ГБ VRAM. Она была разработана для игр в разрешении 1080p и легких творческих задач, а не для запуска передовых моделей ИИ.

Как выглядят типичные развертывания Kimi K2.5

Высокопроизводительный вывод для Kimi K2.5 обычно ориентирован на конфигурации с использованием до 8 высокопроизводительных GPU. Такие настройки обеспечивают скорость от 10 до более чем 300 токенов в секунду.

Демонстрация была опубликована в сообществе r/LocalLLaMA на Reddit и затем освещена Tom’s Hardware.

Kimi K2.5 был выпущен 27 января 2026 года компанией Moonshot AI. Он обладает мультимодальными возможностями и был обучен на примерно 15 триллионах смешанных визуальных и текстовых токенов. Это модель с открытыми весами, что означает, что любой может скачать и запустить её — именно это и сделало эксперимент APFrisco возможным в первую очередь.