Китайський ентузіаст запускає Kimi K2.5 з 1 трильйоном параметрів на RTX 3060 з 768 ГБ Intel Optane Memory

Модель ШІ з трильйоном параметрів успішно запущена на графічній карті, яку більшість геймерів вважають середнього рівня.

Китайський ентузіаст штучного інтелекту, відомий як APFrisco, продемонстрував модель Moonshot AI Kimi K2.5 — велику мовну модель типу Mixture-of-Experts (MoE) з загальною кількістю 1 трильйона параметрів, яка працює на одному GPU Nvidia RTX 3060 у парі з 768 ГБ постійної пам’яті Intel Optane. Ця конфігурація досягла приблизно чотирьох токенів за секунду, що повільно за стандартами виробництва, але вражає з урахуванням використаного обладнання.

Як графічний процесор середнього рівня справляється з трильйоном параметрів

Kimi K2.5 насправді не активує всі 1 трильйон параметрів одночасно. Для кожного згенерованого токена активуються лише 32 мільярди параметрів. Решта залишаються неактивними, чекаючи свого чергового ходу.

Навіть з цим ефективним трюком модель є надзвичайно великою. Повна версія Kimi K2.5 має розмір приблизно 630 ГБ. Квантовані версії, які зменшують точність моделі для зменшення вимог до пам’яті, все ще займають близько 381 ГБ. Саме тому APFrisco потребував 768 ГБ інтелігентної постійної пам’яті Intel Optane: жодна стандартна споживча конфігурація оперативної пам’яті не може навіть наблизитися до обробки такого обсягу.

Optane PMem DIMM — це цікавий вибір. Intel припинила лінійку Optane, що означає, що ці модулі зараз є майже застарілим обладнанням, яке зустрічається на ринку б/у. Вони повільніші за традиційну DRAM, але значно дешевші за гігабайт, що робить їх незвичним, але дивовижно практичним рішенням для завантаження величезних моделей, які інакше вимагали б інфраструктури корпоративного рівня.

RTX 3060 була запущена на початку 2021 року з 12 ГБ VRAM. Вона була розроблена для ігор у роздільній здатності 1080p та легких творчих завдань, а не для запуску передових моделей ШІ.

Як виглядають типові розгортання Kimi K2.5

Високопродуктивний висновок для Kimi K2.5 зазвичай призначений для конфігурацій з до 8 високопродуктивних GPU. Такі налаштування забезпечують швидкість від 10 до 300+ токенів за секунду.

Демонстрацію було опубліковано в спільноті r/LocalLLaMA на Reddit, а потім про неї написав Tom’s Hardware.

Kimi K2.5 було випущено 27 січня 2026 року компанією Moonshot AI. Він має мультимодальні можливості та був навчений на приблизно 15 трильйонах змішаних візуальних і текстових токенів. Це модель з відкритими вагами, що означає, що будь-хто може завантажити та запустити її — саме це зробило експеримент APFrisco можливим у першу чергу.