Xiaomi запускає прискорену версію MiMo зі швидкістю 1000+ токенів/сек

CoinDesk повідомляє:

Xiaomi випустила MiMo-V2.5-Pro-UltraSpeed — прискорену версію своєї флагманської моделі з трильйоном параметрів. Компанія стверджує, що нова версія досягла швидкості виведення понад 1000 токенів на секунду на стандартному сервері з 8 універсальними GPU, а пікове значення наближається до 1200 токенів.

Основна увага цього оновлення не на самій новій моделі, а на ефективності виведення. Натомість із рішеннями, що залежать від спеціалізованих чіпів, Xiaomi підкреслює використання універсального апаратного забезпечення та прискорення за рахунок оптимізації програмного забезпечення та моделі. Це означає, що бар’єри для швидкого розгортання великих моделей можуть подальше знизитися.

Дві технології забезпечують прискорення

Міні цього разу використала дві основні технології. Перша — квантування FP4. Компанія стиснула експертні шари, що становлять основну частину параметрів моделі, до точності 4 біт, а решту залишила з високою точністю. Це дозволяє зменшити використання відеопам’яті та навантаження на пропускну здатність, що підвищує швидкість виведення.

Другим елементом є DFlash — спекулятивне декодування. Традиційне спекулятивне декодування зазвичай спочатку передбачає невелику кількість токенів за допомогою меншої моделі, а потім велика модель паралельно їх перевіряє. DFlash змінює цей підхід: він одразу пропонує цілий блок токенів, який потім перевіряє основна модель. У завданнях, пов’язаних із кодом, основна модель у середньому приймає 6,3 токени з 8 кандидатів за один цикл.

Xiaomi та партнер з висновками TileRT також оптимізували процес виконання. Їхній підхід полягає у тому, щоб тримати обчислювальний процес постійно в межах GPU, зменшуючи додаткові витрати, пов’язані з почерговим запуском операторів.

Порівняння швидкості основних моделей

Згідно з даними Artificial Analysis, нинішня швидкість виведення загальних моделей зазвичай нижча за цей рівень. У статті зазначається, що типова швидкість взаємодії з серією GPT становить приблизно 68 токенів на секунду, Claude Opus 4.6 — близько 71 токена на секунду, а Gemini Flash — приблизно 192 токени на секунду.

У доповіді також зазначалося, що такі компанії, як Cerebras і Groq, протягом тривалого часу фокусувалися на високопродуктивному висновку та використовували власні архітектури чіпів для підвищення швидкості. Навпаки, Xiaomi досягла цього результату на загальних вузлах GPU, підкреслюючи зростання продуктивності завдяки оптимізації програмного забезпечення.

Запуск обмеженого тестування 9 червня

Xiaomi зазначила, що UltraSpeed прискорює оригінальну версію MiMo-V2.5-Pro, а не спрощену легку модель. Раніше продуктивність цієї моделі у кодових тестах описувалася як близька до рівня Claude Opus.

Компанія планує відкрити обмежений тестовий доступ до API з 9 по 23 червня за заявкою; пріоритет отримають корпоративні користувачі та професійні розробники. Щодо ціноутворення, версія UltraSpeed коштує приблизно в 3 рази більше, ніж стандартна тарифна ставка MiMo, але швидкість генерації збільшується майже в 10 разів.

Додаткова інформація: Xiaomi повідомила, що модель чекпоінту з використанням FP4 та DFlash вже відкрита на Hugging Face для тестування спільнотою.