Cerebras тестирует модель Kimi K2.6 с ускорением в 29 раз при работе с длинными текстами

KuCoinFlash

Время выхода: 20.05.2026, 11:12:40

Сводка

Cerebras сообщила 20 мая (UTC+8), что протестировала модель Kimi K2.6 с триллионом параметров с использованием своих чипов на основе целой пластины. За счет непосредственного монтажа чипов на полную пластину диаметром 12 дюймов компания сократила задержки связи. Согласно данным Artificial Analysis, модель генерировала текст со скоростью 981 токен/с — в 6,7 раза быстрее, чем стандартные услуги на GPU. При тестировании с длинным текстом (10 000 входных и 500 выходных токенов) время отклика снизилось с 163,7 секунды до 5,6 секунды — улучшение в 29 раз. Данные в блокчейне продолжают подтверждать повышение производительности инфраструктуры ИИ.

Согласно новости ME, 20 мая (UTC+8), по данным мониторинга Beating, компания Cerebras, производящая чипы на уровне вайфера, объявила о запуске крупной модели с триллионами параметров Kimi K2.6 в корпоративном тестировании, полностью устранив задержки межплатной связи за счет интеграции чипов непосредственно на целую 12-дюймовую кремниевую вайфер. Согласно реальным тестам независимой оценочной организации Artificial Analysis, скорость генерации достигла 981 токена/с, что в 6,7 раз быстрее, чем у основных облачных сервисов на базе GPU. В задачах с длинными текстами — 10 000 входных и 500 выходных токенов — общее время отклика сократилось с 163,7 секунды на официальном интерфейсе Kimi до 5,6 секунды, что составляет ускорение в 29 раз. Поскольку веса модели распределены между несколькими вайферами для потоковой передачи активаций, а межслойная связь полностью реализована на внутренней сетевой ткани вайфера, физическая пропускная способность связи превышает NVLink в архитектуре NVIDIA NVL72 более чем в 200 раз. В сочетании с оптимизацией распределенных вычислений Kimi K2.6 обеспечивает низкопотерную сохранность весов в исходном 4-битном (4-битном) формате, использует 16-битные (16-битные) числа с плавающей запятой для сохранения точности при вычислениях и применяет пользовательские ядра операторов и спекулятивное декодирование для достижения работы в реальном времени. (Источник: BlockBeats)

Источник:Показать оригинал

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.