Cerebras досягає 981 токенів за секунду на моделі Kimi K2.6, у 6,7 раза швидше, ніж хмара GPU

Cerebras Systems тепер обслуговує Moonshot AI’s Kimi K2.6 — відкриту модель з мішаністю експертів з 1 трильйоном параметрів — зі швидкістю 981 вихідних токенів за секунду. Цей показник, підтверджений незалежним тестуванням від Artificial Analysis, у 6,7 раза швидший, ніж у найкращого конкурента серед хмарних провайдерів GPU.

Для контексту, медіанний провайдер висновків працює приблизно у 23 рази повільніше.

Як виглядають ці числа на практиці

На репрезентативній завантажені агентного кодування з 10 000 вхідних токенів і 500 вихідних токенів система на базі Cerebras надала повну відповідь за 5,6 секунди.

Та сама задача на офіційному endpoint Kimi зайняла 163,7 секунди. Це покращення загальної затримки у 29 разів.

Модель Kimi K2.6 варта розуміння. Розроблена Moonshot AI та випущена 20 квітня 2026 року, вона має мультимодальні та агентні можливості. Хоча загальна кількість параметрів досягає 1 трильйона, на будь-який момент активовано лише 32 мільярди параметрів завдяки архітектурі MoE.

Чому архітектура на рівні ватера змінює математику

Основною технологією Cerebras є Wafer-Scale Engine — чіп, який є цілою кремнієвою вусою. Традиційні чіпи вирізаються з вусів на маленькі окремі дії. Cerebras пропускає етап розрізання і використовує цілу вусу.

Cerebras стверджує, що має більше ніж у 200 разів більшу пропускну здатність, ніж NVLink від NVIDIA — технологію з’єднання, яка з’єднує GPU в кластерах центрів обробки даних. Під час виконання висновків на великих моделях вузьким місцем майже завжди є пропускна здатність пам’яті, а не сира обчислювальна потужність. Ваги потрібно читати з пам’яті і подавати на процесори для кожного окремого токена, що генерується.

Бізнес-контекст: недавно публічна компанія, якій щось доводити

Cerebras провела своє IPO у травні 2026 року з оцінкою у 95 мільярдів доларів США, що зробило його найбільшим технологічним IPO року.

Результат у 981 токенів за секунду — найбільш конкретний доказ того, що швидкісна частина цієї теорії підтверджується. Cerebras не публікувала детальних порівнянь цін разом із цим тестом.

Надаючи один із найвідоміших моделей з відкритим ваговим весом від провідної китайської лабораторії штучного інтелекту, Cerebras демонструє, що його апаратне забезпечення може обробляти моделі, які розробники насправді хочуть використовувати.