Модель MiMo-V2.5 от Xiaomi снижает затраты за счет вычислений внимания, эквивалентных 10 слоям

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Модель MiMo-V2.5 от Xiaomi снижает затраты с помощью вычислений внимания, эквивалентных 10 слоям. Версия Pro с 70 слоями снижает затраты на попадание в кэш на 99%, а затраты на ввод/вывод — на 60–80%. Ончейн-новости показывают, что модель использует коэффициент разреженности 1:7 между глобальным и скользящим окном внимания. Изменения в глобальной криптовалютной политике могут повлиять на то, как такие достижения в эффективности скажутся на внедрении ИИ.

Согласно новости ME, 27 мая (UTC+8), по данным мониторинга Beating, после постоянного снижения цен на API в серии собственных крупных моделей MiMo-V2.5, руководитель команды крупных моделей Xiaomi Ло Фули опубликовала на платформе X механизм снижения затрат на алгоритмы. Ло Фули сообщила, что после выравнивания цен на API с DeepSeek, высоконагруженный движок вывода Xiaomi сохраняет точку безубыточности. Снижение затрат в основном достигнуто за счет гибридной архитектуры внимания и оптимизации иерархического KV-кэша. С целью снижения стоимости достижения кэша (Cache Hit) на 99% инженеры Xiaomi реализовали иерархическую оптимизацию KV-кэша для механизма скользящего окна внимания (SWA). Результаты производственного тестирования показали, что иерархическая оптимизация увеличила емкость кэша в 5 раз и снизила стоимость кэширования на 80%. В сочетании с технологией перекрытия чтения кэша (Cache Read Overlap) между модулями глобального внимания, система дополнительно снизила фактические расходы на достижение кэша. Ло Фули объяснила снижение базовых затрат на ввод и вывод на 60–80% за счет внедрения в модель разреженности слоев 1:7 — соотношения между слоями глобального внимания (GA) и скользящего окна внимания (SWA). На этапе предзаполнения длинных текстов (Prefill) 60 слоев SWA вычисляют только локальные скользящие окна, благодаря чему общее количество вычислений внимания в модели MiMo-V2.5-Pro с 70 слоями эквивалентно только 10 слоям традиционной модели GQA с глобальным вниманием. Сверхнизкая вычислительная нагрузка снизила первоначальную стоимость вывода, до снижения цен обеспечивая Xiaomi прибыль в 2–3 раза выше. Таким образом, снижение цен является результатом структурного сокращения затрат, а не убыточной конкуренции. Ло Фули отметила, что низкая стоимость сервисов вывода способствует стимулированию спроса на конечный интеллект. Компаниям, работающим с крупными моделями, следует избегать слепой ценовой войны и вместо этого добиваться снижения реальных эксплуатационных расходов ниже точки безубыточности за счет совместной нижнеуровневой оптимизации алгоритмов и систем вывода. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.