El modelo MiMo-V2.5 de Xiaomi reduce costos con cálculo de atención equivalente a 10 capas

Noticias de ME, el 27 de mayo (UTC+8), según el monitoreo de Beating, tras implementar una reducción permanente de precios en la API de la serie de modelos grandes autodesarrollados MiMo-V2.5, Luo Fuli, líder del equipo de modelos grandes de Xiaomi, publicó en la plataforma X el mecanismo de reducción de costos algorítmica. Luo reveló que, tras alinear los precios de la API con los de DeepSeek, el motor de inferencia de alta carga de Xiaomi aún mantiene el equilibrio entre ingresos y gastos. La reducción de costos se debe principalmente a la arquitectura de atención híbrida y a la optimización jerárquica del caché KV. Con el objetivo de reducir un 99 % el costo de los aciertos de caché (Cache Hit), el marco de inferencia de Xiaomi implementó una optimización jerárquica del caché KV para la atención de ventana deslizante (SWA). Las pruebas de producción mostraron que la optimización jerárquica aumentó la capacidad de tokens del caché hasta cinco veces y redujo un 80 % el costo del caché. Combinada con la técnica de superposición de lectura de caché (Cache Read Overlap) entre módulos de atención global, el sistema redujo aún más el costo real de los aciertos de caché. En cuanto a la reducción del 60 % al 80 % en los costos básicos de entrada y salida, Luo atribuyó esto a la relación de esparsidad entre capas 1:7 introducida en el modelo, es decir, la proporción entre capas de atención global (GA) y atención de ventana deslizante (SWA) es 1:7. Durante la fase de prellenado (Prefill) de textos largos, las 60 capas SWA solo calculan ventanas deslizantes locales, lo que hace que la cantidad total de cálculos de atención del modelo MiMo-V2.5-Pro, con 70 capas, sea equivalente a la de un modelo tradicional GQA con solo 10 capas. La carga computacional extremadamente baja redujo el costo original de inferencia, lo que antes dejaba un margen de ganancia de 2 a 3 veces a Xiaomi antes del ajuste de precios. Por lo tanto, la reducción de precios refleja una disminución estructural de costos, no una competencia con pérdidas. Luo indicó que los servicios de inferencia de bajo costo ayudan a estimular la demanda de inteligencia en terminales. Las empresas de modelos grandes deben evitar guerras de precios ciegas y, en cambio, controlar los costos operativos reales por debajo del punto de equilibrio mediante un diseño coordinado a nivel fundamental entre algoritmos y sistemas de inferencia. (Fuente: BlockBeats)