Модель MiMo-V2.5 від Xiaomi знижує витрати за рахунок обчислення уваги, еквівалентного 10 шарам

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Модель MiMo-V2.5 від Xiaomi зменшує витрати за допомогою обчислення уваги, еквівалентного 10 шарам. Версія Pro з 70 шарами зменшує витрати на досягнення кешу на 99% і витрати на вхід/вихід на 60–80%. Новини на ланцюзі показують, що модель використовує співвідношення розрідженості 1:7 між глобальною та ковзною увагою. Зміни у глобальній криптовалютній політиці можуть впливати на те, як такі досягнення в ефективності впливають на розгортання ШІ.

Новини ME, 27 травня (UTC+8): За даними моніторингу Beating, після постійного зниження цін на API в серії власних великих моделей MiMo-V2.5, керівник команди великих моделей Xiaomi Luo Fuli опублікував механізм зниження витрат на платформі X. Luo Fuli зазначила, що після вирівнювання цін на API з DeepSeek, високонавантажений інференс-енджин Xiaomi залишається на рівні беззбитковості. Зниження витрат зумовлене переважно гібридною архітектурою уваги та оптимізацією ієрархічного KV-кешу. Для досягнення цілі зниження витрат на спрацьовування кешу (Cache Hit) на 99%, фреймворк інференсу Xiaomi реалізував ієрархічну оптимізацію KV-кешу для слайдінг-віндоу аттеншн (SWA). Результати виробничого тестування показали, що ієрархічна оптимізація збільшила ємність кешу на 5 разів і знизила витрати на кеш на 80%. У поєднанні з технологією перекриття читання кешу між глобальними модулями уваги (Cache Read Overlap), система додатково знизила реальні витрати на спрацьовування кешу. Щодо зниження витрат на базовий ввід і вивід на 60–80%, Luo Fuli пояснила це введенням розрідженого співвідношення шарів 1:7 — співвідношення кількості шарів глобальної уваги (GA) до слайдінг-віндоу уваги (SWA) становить 1:7. На етапі попереднього заповнення довгих текстів (Prefill) 60 шарів SWA обчислюють лише локальні слайдінг-віндоу, що дозволяє моделі MiMo-V2.5-Pro з 70 шарами мати загальний обсяг обчислень уваги, еквівалентний лише 10-шаровій традиційній моделі GQA. Надзвичайно низька обчислювальна навантаження знизила початкову вартість інференсу, що до зниження цін надавало Xiaomi прибутковий простір у 2–3 рази. Таким чином, зниження цін є результатом структурного зменшення витрат, а не втратної конкуренції. Luo Fuli зазначила, що низькобюджетні сервіси інференсу сприяють стимулюванню попиту на термінальний інтелект. Компанії, що розробляють великі моделі, повинні уникати слепих цінових війн і замість цього забезпечувати нижчий рівень реальних експлуатаційних витрат шляхом синергетичного проектування алгоритмів та інференс-систем на нижньому рівні. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.