Китайський ентузіаст запускає Kimi K2.5 з 1 трильйоном параметрів на RTX 3060 з 768 ГБ Intel Optane Memory

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Китайський ентузіаст штучного інтелекту на ім’я APFrisco продемонстрував Moonshot AI’s Kimi K2.5 — модель MoE з 1 трильйоном параметрів, яка працює на одній GPU RTX 3060 з 768 ГБ пам’яті Intel Optane. Ця конфігурація обробляє приблизно чотири токени за секунду. Ця новина про штучний інтелект та криптовалюту підкреслює важливий прорив у блокчейн-новинах, оскільки розмір моделі перевищує 630 ГБ. Апаратне забезпечення — середнього рівня, що робить продуктивність особливо вражаючою.

Модель ШІ з трильйоном параметрів успішно запущена на графічній карті, яку більшість геймерів вважають середнього рівня.

Китайський ентузіаст штучного інтелекту, відомий як APFrisco, продемонстрував модель Moonshot AI Kimi K2.5 — велику мовну модель типу Mixture-of-Experts (MoE) з загальною кількістю 1 трильйона параметрів, яка працює на одному GPU Nvidia RTX 3060 у парі з 768 ГБ постійної пам’яті Intel Optane. Ця конфігурація досягла приблизно чотирьох токенів за секунду, що повільно за стандартами виробництва, але вражає з урахуванням використаного обладнання.

Як графічний процесор середнього рівня справляється з трильйоном параметрів

Kimi K2.5 насправді не активує всі 1 трильйон параметрів одночасно. Для кожного згенерованого токена активуються лише 32 мільярди параметрів. Решта залишаються неактивними, чекаючи свого чергового ходу.

Реклама

Навіть з цим ефективним трюком модель є надзвичайно великою. Повна версія Kimi K2.5 має розмір приблизно 630 ГБ. Квантовані версії, які зменшують точність моделі для зменшення вимог до пам’яті, все ще займають близько 381 ГБ. Саме тому APFrisco потребував 768 ГБ інтелігентної постійної пам’яті Intel Optane: жодна стандартна споживча конфігурація оперативної пам’яті не може навіть наблизитися до обробки такого обсягу.

Optane PMem DIMM — це цікавий вибір. Intel припинила лінійку Optane, що означає, що ці модулі зараз є майже застарілим обладнанням, яке зустрічається на ринку б/у. Вони повільніші за традиційну DRAM, але значно дешевші за гігабайт, що робить їх незвичним, але дивовижно практичним рішенням для завантаження величезних моделей, які інакше вимагали б інфраструктури корпоративного рівня.

RTX 3060 була запущена на початку 2021 року з 12 ГБ VRAM. Вона була розроблена для ігор у роздільній здатності 1080p та легких творчих завдань, а не для запуску передових моделей ШІ.

Як виглядають типові розгортання Kimi K2.5

Високопродуктивний висновок для Kimi K2.5 зазвичай призначений для конфігурацій з до 8 високопродуктивних GPU. Такі налаштування забезпечують швидкість від 10 до 300+ токенів за секунду.

Демонстрацію було опубліковано в спільноті r/LocalLLaMA на Reddit, а потім про неї написав Tom’s Hardware.

Kimi K2.5 було випущено 27 січня 2026 року компанією Moonshot AI. Він має мультимодальні можливості та був навчений на приблизно 15 трильйонах змішаних візуальних і текстових токенів. Це модель з відкритими вагами, що означає, що будь-хто може завантажити та запустити її — саме це зробило експеримент APFrisco можливим у першу чергу.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.