Xiaomi запускает ускоренную версию MiMo со скоростью более 1000 токенов/сек

CoinDesk сообщает:

Xiaomi выпустила MiMo-V2.5-Pro-UltraSpeed — ускоренную версию своего флагманского модели с триллионами параметров. Компания заявляет, что новая версия достигла скорости вывода более 1000 токенов в секунду на стандартном сервере с 8 универсальными GPU, с пиковой производительностью, приближающейся к 1200 токенам.

Основное внимание в этом обновлении уделяется не самой новой модели, а эффективности вывода. В отличие от решений, зависящих от специализированных чипов, Xiaomi подчеркивает использование универсального оборудования и ускорение за счет оптимизации программного обеспечения и модели. Это означает, что барьеры для быстрого развертывания крупных моделей могут еще больше снизиться.

Две технологии способствуют ускорению

В этот раз Xiaomi в основном использовала две технологии. Первая — квантование FP4. Компания сжала экспертовые слои, составляющие основную часть параметров модели, до точности 4 бита, остальные части остались с высокой точностью. Это позволяет снизить нагрузку на видеопамять и пропускную способность, тем самым ускорив вывод.

Вторым является предсказательное декодирование DFlash. Традиционное предсказательное декодирование обычно сначала использует небольшую модель для предсказания небольшого количества токенов, а затем крупная модель параллельно их проверяет. DFlash изменяет этот подход: он сразу предлагает целый блок токенов, который затем проверяется основной моделью. В задачах, связанных с кодом, основная модель в среднем принимает 6,3 токена из 8 кандидатов за один цикл.

Xiaomi и партнер по выводу TileRT также оптимизировали процесс выполнения. Их подход заключается в том, чтобы поддерживать вычислительный процесс постоянно внутри GPU, уменьшая дополнительные накладные расходы, связанные с поочередным запуском операторов.

Сравнение скорости основных моделей

Согласно данным Artificial Analysis, приведенным в статье, текущая скорость вывода основных универсальных моделей普遍 ниже этого уровня. В статье упоминается, что типичная скорость взаимодействия с серией GPT составляет около 68 токенов в секунду, Claude Opus 4.6 — около 71 токена в секунду, а Gemini Flash — около 192 токенов в секунду.

В отчете также отмечается, что такие компании, как Cerebras и Groq, долгое время сосредотачивались на высокопроизводительных выводах и полагались на собственные архитектуры чипов для повышения скорости. Напротив, Xiaomi добилась этого результата на универсальных узлах GPU, подчеркивая повышение производительности за счет оптимизации программного обеспечения.

Запуск ограниченного тестирования 9 июня

Xiaomi заявила, что UltraSpeed ускоряет оригинальную модель MiMo-V2.5-Pro, а не упрощенную легкую версию. Ранее производительность этой модели в кодовых тестах описывалась как близкая к уровню Claude Opus.

Компания планирует открыть ограниченный тестовый доступ к API с 9 по 23 июня по заявкам; приоритет получат корпоративные пользователи и профессиональные разработчики. В плане ценообразования версия UltraSpeed стоит примерно в 3 раза дороже стандартной тарифной ставки MiMo, но скорость генерации может увеличиться примерно в 10 раз.

Дополнительная информация: Xiaomi сообщила, что модель проверки с использованием FP4 и DFlash уже открыта на Hugging Face для тестирования сообществом.