Cerebras досягає 981 токенів за секунду на моделі Kimi K2.6, у 6,7 раза швидше, ніж хмара GPU

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Cerebras Systems тепер доставляє 981 токенів за секунду для моделі Kimi K2.6 від Moonshot AI, що підтверджено Artificial Analysis. Ця відкрита MoE-модель з 1 трильйоном параметрів працює в 6,7 раза швидше, ніж найкращий хмарний GPU. Дані в ланцюжку показують 29-кратне покращення затримки у завданнях з програмування: Cerebras завершує відповідь за 5,6 секунди, порівняно з 163,7 секунди на офіційному ендпоінті Kimi. Аналіз у ланцюжку підтверджує, що розрив у продуктивності залишається постійним для різних завантажень.

Cerebras Systems тепер обслуговує Moonshot AI’s Kimi K2.6 — відкриту модель з мішаністю експертів з 1 трильйоном параметрів — зі швидкістю 981 вихідних токенів за секунду. Цей показник, підтверджений незалежним тестуванням від Artificial Analysis, у 6,7 раза швидший, ніж у найкращого конкурента серед хмарних провайдерів GPU.

Для контексту, медіанний провайдер висновків працює приблизно у 23 рази повільніше.

Як виглядають ці числа на практиці

На репрезентативній завантажені агентного кодування з 10 000 вхідних токенів і 500 вихідних токенів система на базі Cerebras надала повну відповідь за 5,6 секунди.

Реклама

Та сама задача на офіційному endpoint Kimi зайняла 163,7 секунди. Це покращення загальної затримки у 29 разів.

Модель Kimi K2.6 варта розуміння. Розроблена Moonshot AI та випущена 20 квітня 2026 року, вона має мультимодальні та агентні можливості. Хоча загальна кількість параметрів досягає 1 трильйона, на будь-який момент активовано лише 32 мільярди параметрів завдяки архітектурі MoE.

Чому архітектура на рівні ватера змінює математику

Основною технологією Cerebras є Wafer-Scale Engine — чіп, який є цілою кремнієвою вусою. Традиційні чіпи вирізаються з вусів на маленькі окремі дії. Cerebras пропускає етап розрізання і використовує цілу вусу.

Cerebras стверджує, що має більше ніж у 200 разів більшу пропускну здатність, ніж NVLink від NVIDIA — технологію з’єднання, яка з’єднує GPU в кластерах центрів обробки даних. Під час виконання висновків на великих моделях вузьким місцем майже завжди є пропускна здатність пам’яті, а не сира обчислювальна потужність. Ваги потрібно читати з пам’яті і подавати на процесори для кожного окремого токена, що генерується.

Бізнес-контекст: недавно публічна компанія, якій щось доводити

Cerebras провела своє IPO у травні 2026 року з оцінкою у 95 мільярдів доларів США, що зробило його найбільшим технологічним IPO року.

Результат у 981 токенів за секунду — найбільш конкретний доказ того, що швидкісна частина цієї теорії підтверджується. Cerebras не публікувала детальних порівнянь цін разом із цим тестом.

Надаючи один із найвідоміших моделей з відкритим ваговим весом від провідної китайської лабораторії штучного інтелекту, Cerebras демонструє, що його апаратне забезпечення може обробляти моделі, які розробники насправді хочуть використовувати.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.