Cerebras достигает 981 токенов в секунду на модели Kimi K2.6, что в 6,7 раз быстрее, чем облако GPU

Cerebras Systems теперь обслуживает Moonshot AI’s Kimi K2.6 — открытую модель со смесью экспертов с 1 триллионом параметров — со скоростью 981 выходных токенов в секунду. Этот показатель, подтвержденный независимыми тестами от Artificial Analysis, в 6,7 раза превышает скорость следующего по производительности облачного провайдера на базе GPU.

Для контекста, медианный провайдер вывода работает примерно в 23 раза медленнее.

Как выглядят эти числа на практике

На типичной рабочей нагрузке агентного кодирования с 10 000 входных токенов и 500 выходными токенами система на базе Cerebras предоставила полный ответ за 5,6 секунды.

Та же задача на официальном endpoint Kimi заняла 163,7 секунды. Это улучшение общей задержки в 29 раз.

Сама модель Kimi K2.6 заслуживает понимания. Разработанная Moonshot AI и выпущенная 20 апреля 2026 года, она обладает мультимодальными и агентными возможностями. Хотя общее количество параметров достигает 1 триллиона, в любой момент активировано только 32 миллиарда параметров благодаря архитектуре MoE.

Почему архитектура на основе вайфера меняет расчеты

Основной технологией Cerebras является Wafer-Scale Engine — чип, представляющий собой целую кремниевую пластину. Традиционные чипы вырезаются из пластин на мелкие отдельные кристаллы. Cerebras пропускает этап резки и использует всю пластину целиком.

Cerebras утверждает, что пропускная способность в более чем 200 раз превышает пропускную способность NVLink от NVIDIA — технологии межсоединения, объединяющей GPU в кластерах центров обработки данных. При выполнении инференса на крупных моделях узким местом почти всегда является пропускная способность памяти, а не производительность процессоров. Веса необходимо считывать из памяти и передавать процессорам для каждого генерируемого токена.

Бизнес-контекст: недавно вышедшая на публичный рынок компания, которой есть что доказать

Cerebras провела IPO в мае 2026 года при оценке в 95 миллиардов долларов, став крупнейшим технологическим IPO года.

Результат в 981 токенов в секунду — это наиболее конкретное доказательство того, что скорость, указанная в этой теории, подтверждается. Cerebras не опубликовала подробных сравнений цен вместе с этим тестом.

Предоставляя один из самых известных моделей с открытым весом от ведущей китайской лаборатории ИИ, Cerebras демонстрирует, что его аппаратное обеспечение способно справляться с моделями, которые разработчики действительно хотят использовать.