Cerebras достигает 981 токенов в секунду на модели Kimi K2.6, что в 6,7 раз быстрее, чем облако GPU

iconCryptoBriefing
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Cerebras Systems теперь обеспечивает 981 токенов в секунду для модели Kimi K2.6 от Moonshot AI, что подтверждено Artificial Analysis. Эта открытая MoE-модель с万亿 параметрами работает в 6,7 раз быстрее, чем лучший облачный GPU. Данные в блокчейне показывают улучшение задержки на 29 раз в задачах программирования: Cerebras завершает ответ за 5,6 секунды, в то время как на официальном endpoint Kimi — за 163,7 секунды. Анализ в блокчейне подтверждает, что этот разрыв в производительности сохраняется при различных нагрузках.

Cerebras Systems теперь обслуживает Moonshot AI’s Kimi K2.6 — открытую модель со смесью экспертов с 1 триллионом параметров — со скоростью 981 выходных токенов в секунду. Этот показатель, подтвержденный независимыми тестами от Artificial Analysis, в 6,7 раза превышает скорость следующего по производительности облачного провайдера на базе GPU.

Для контекста, медианный провайдер вывода работает примерно в 23 раза медленнее.

Как выглядят эти числа на практике

На типичной рабочей нагрузке агентного кодирования с 10 000 входных токенов и 500 выходными токенами система на базе Cerebras предоставила полный ответ за 5,6 секунды.

Реклама

Та же задача на официальном endpoint Kimi заняла 163,7 секунды. Это улучшение общей задержки в 29 раз.

Сама модель Kimi K2.6 заслуживает понимания. Разработанная Moonshot AI и выпущенная 20 апреля 2026 года, она обладает мультимодальными и агентными возможностями. Хотя общее количество параметров достигает 1 триллиона, в любой момент активировано только 32 миллиарда параметров благодаря архитектуре MoE.

Почему архитектура на основе вайфера меняет расчеты

Основной технологией Cerebras является Wafer-Scale Engine — чип, представляющий собой целую кремниевую пластину. Традиционные чипы вырезаются из пластин на мелкие отдельные кристаллы. Cerebras пропускает этап резки и использует всю пластину целиком.

Cerebras утверждает, что пропускная способность в более чем 200 раз превышает пропускную способность NVLink от NVIDIA — технологии межсоединения, объединяющей GPU в кластерах центров обработки данных. При выполнении инференса на крупных моделях узким местом почти всегда является пропускная способность памяти, а не производительность процессоров. Веса необходимо считывать из памяти и передавать процессорам для каждого генерируемого токена.

Бизнес-контекст: недавно вышедшая на публичный рынок компания, которой есть что доказать

Cerebras провела IPO в мае 2026 года при оценке в 95 миллиардов долларов, став крупнейшим технологическим IPO года.

Результат в 981 токенов в секунду — это наиболее конкретное доказательство того, что скорость, указанная в этой теории, подтверждается. Cerebras не опубликовала подробных сравнений цен вместе с этим тестом.

Предоставляя один из самых известных моделей с открытым весом от ведущей китайской лаборатории ИИ, Cerebras демонстрирует, что его аппаратное обеспечение способно справляться с моделями, которые разработчики действительно хотят использовать.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.