Cerebras Systems теперь обслуживает Moonshot AI’s Kimi K2.6 — открытую модель со смесью экспертов с 1 триллионом параметров — со скоростью 981 выходных токенов в секунду. Этот показатель, подтвержденный независимыми тестами от Artificial Analysis, в 6,7 раза превышает скорость следующего по производительности облачного провайдера на базе GPU.
Для контекста, медианный провайдер вывода работает примерно в 23 раза медленнее.
Как выглядят эти числа на практике
На типичной рабочей нагрузке агентного кодирования с 10 000 входных токенов и 500 выходными токенами система на базе Cerebras предоставила полный ответ за 5,6 секунды.
Та же задача на официальном endpoint Kimi заняла 163,7 секунды. Это улучшение общей задержки в 29 раз.
Сама модель Kimi K2.6 заслуживает понимания. Разработанная Moonshot AI и выпущенная 20 апреля 2026 года, она обладает мультимодальными и агентными возможностями. Хотя общее количество параметров достигает 1 триллиона, в любой момент активировано только 32 миллиарда параметров благодаря архитектуре MoE.
Почему архитектура на основе вайфера меняет расчеты
Основной технологией Cerebras является Wafer-Scale Engine — чип, представляющий собой целую кремниевую пластину. Традиционные чипы вырезаются из пластин на мелкие отдельные кристаллы. Cerebras пропускает этап резки и использует всю пластину целиком.
Cerebras утверждает, что пропускная способность в более чем 200 раз превышает пропускную способность NVLink от NVIDIA — технологии межсоединения, объединяющей GPU в кластерах центров обработки данных. При выполнении инференса на крупных моделях узким местом почти всегда является пропускная способность памяти, а не производительность процессоров. Веса необходимо считывать из памяти и передавать процессорам для каждого генерируемого токена.
Бизнес-контекст: недавно вышедшая на публичный рынок компания, которой есть что доказать
Cerebras провела IPO в мае 2026 года при оценке в 95 миллиардов долларов, став крупнейшим технологическим IPO года.
Результат в 981 токенов в секунду — это наиболее конкретное доказательство того, что скорость, указанная в этой теории, подтверждается. Cerebras не опубликовала подробных сравнений цен вместе с этим тестом.
Предоставляя один из самых известных моделей с открытым весом от ведущей китайской лаборатории ИИ, Cerebras демонстрирует, что его аппаратное обеспечение способно справляться с моделями, которые разработчики действительно хотят использовать.
