Xiaomi запускает ускоренную версию MiMo со скоростью более 1000 токенов/сек

icon币界网
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Xiaomi запустила новую модель, готовую к листингу токенов: MiMo-V2.5-Pro-UltraSpeed, способную обрабатывать более 1000 токенов в секунду на стандартных серверах. Модель использует квантование FP4 и декодирование DFlash для повышения скорости без использования специализированных чипов. Оптимизация TileRT снижает нагрузку на GPU. Она превосходит GPT, Claude Opus и Gemini Flash. Доступ через API начнется 9 июня. Модель в три раза дороже, но в десять раз быстрее. Чекпоинты FP4 и DFlash открыты для общего доступа. Новости SEC остаются ключевым фактором для проектов токенов.
CoinDesk сообщает:

Xiaomi выпустила MiMo-V2.5-Pro-UltraSpeed — ускоренную версию своего флагманского модели с триллионами параметров. Компания заявляет, что новая версия достигла скорости вывода более 1000 токенов в секунду на стандартном сервере с 8 универсальными GPU, с пиковой производительностью, приближающейся к 1200 токенам.

Основное внимание в этом обновлении уделяется не самой новой модели, а эффективности вывода. В отличие от решений, зависящих от специализированных чипов, Xiaomi подчеркивает использование универсального оборудования и ускорение за счет оптимизации программного обеспечения и модели. Это означает, что барьеры для быстрого развертывания крупных моделей могут еще больше снизиться.

Две технологии способствуют ускорению

В этот раз Xiaomi в основном использовала две технологии. Первая — квантование FP4. Компания сжала экспертовые слои, составляющие основную часть параметров модели, до точности 4 бита, остальные части остались с высокой точностью. Это позволяет снизить нагрузку на видеопамять и пропускную способность, тем самым ускорив вывод.

Вторым является предсказательное декодирование DFlash. Традиционное предсказательное декодирование обычно сначала использует небольшую модель для предсказания небольшого количества токенов, а затем крупная модель параллельно их проверяет. DFlash изменяет этот подход: он сразу предлагает целый блок токенов, который затем проверяется основной моделью. В задачах, связанных с кодом, основная модель в среднем принимает 6,3 токена из 8 кандидатов за один цикл.

Xiaomi и партнер по выводу TileRT также оптимизировали процесс выполнения. Их подход заключается в том, чтобы поддерживать вычислительный процесс постоянно внутри GPU, уменьшая дополнительные накладные расходы, связанные с поочередным запуском операторов.

Сравнение скорости основных моделей

Согласно данным Artificial Analysis, приведенным в статье, текущая скорость вывода основных универсальных моделей普遍 ниже этого уровня. В статье упоминается, что типичная скорость взаимодействия с серией GPT составляет около 68 токенов в секунду, Claude Opus 4.6 — около 71 токена в секунду, а Gemini Flash — около 192 токенов в секунду.

В отчете также отмечается, что такие компании, как Cerebras и Groq, долгое время сосредотачивались на высокопроизводительных выводах и полагались на собственные архитектуры чипов для повышения скорости. Напротив, Xiaomi добилась этого результата на универсальных узлах GPU, подчеркивая повышение производительности за счет оптимизации программного обеспечения.

Запуск ограниченного тестирования 9 июня

Xiaomi заявила, что UltraSpeed ускоряет оригинальную модель MiMo-V2.5-Pro, а не упрощенную легкую версию. Ранее производительность этой модели в кодовых тестах описывалась как близкая к уровню Claude Opus.

Компания планирует открыть ограниченный тестовый доступ к API с 9 по 23 июня по заявкам; приоритет получат корпоративные пользователи и профессиональные разработчики. В плане ценообразования версия UltraSpeed стоит примерно в 3 раза дороже стандартной тарифной ставки MiMo, но скорость генерации может увеличиться примерно в 10 раз.

Дополнительная информация: Xiaomi сообщила, что модель проверки с использованием FP4 и DFlash уже открыта на Hugging Face для тестирования сообществом.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.