Модель MiMo-V2.5 от Xiaomi снижает затраты за счет вычислений внимания, эквивалентных 10 слоям

Согласно новости ME, 27 мая (UTC+8), по данным мониторинга Beating, после постоянного снижения цен на API в серии собственных крупных моделей MiMo-V2.5, руководитель команды крупных моделей Xiaomi Ло Фули опубликовала на платформе X механизм снижения затрат на алгоритмы. Ло Фули сообщила, что после выравнивания цен на API с DeepSeek, высоконагруженный движок вывода Xiaomi сохраняет точку безубыточности. Снижение затрат в основном достигнуто за счет гибридной архитектуры внимания и оптимизации иерархического KV-кэша. С целью снижения стоимости достижения кэша (Cache Hit) на 99% инженеры Xiaomi реализовали иерархическую оптимизацию KV-кэша для механизма скользящего окна внимания (SWA). Результаты производственного тестирования показали, что иерархическая оптимизация увеличила емкость кэша в 5 раз и снизила стоимость кэширования на 80%. В сочетании с технологией перекрытия чтения кэша (Cache Read Overlap) между модулями глобального внимания, система дополнительно снизила фактические расходы на достижение кэша. Ло Фули объяснила снижение базовых затрат на ввод и вывод на 60–80% за счет внедрения в модель разреженности слоев 1:7 — соотношения между слоями глобального внимания (GA) и скользящего окна внимания (SWA). На этапе предзаполнения длинных текстов (Prefill) 60 слоев SWA вычисляют только локальные скользящие окна, благодаря чему общее количество вычислений внимания в модели MiMo-V2.5-Pro с 70 слоями эквивалентно только 10 слоям традиционной модели GQA с глобальным вниманием. Сверхнизкая вычислительная нагрузка снизила первоначальную стоимость вывода, до снижения цен обеспечивая Xiaomi прибыль в 2–3 раза выше. Таким образом, снижение цен является результатом структурного сокращения затрат, а не убыточной конкуренции. Ло Фули отметила, что низкая стоимость сервисов вывода способствует стимулированию спроса на конечный интеллект. Компаниям, работающим с крупными моделями, следует избегать слепой ценовой войны и вместо этого добиваться снижения реальных эксплуатационных расходов ниже точки безубыточности за счет совместной нижнеуровневой оптимизации алгоритмов и систем вывода. (Источник: BlockBeats)