Noticias de ME, el 27 de mayo (UTC+8), según el monitoreo de Beating, tras implementar una reducción permanente de precios en la API de la serie de modelos grandes autodesarrollados MiMo-V2.5, Luo Fuli, líder del equipo de modelos grandes de Xiaomi, publicó en la plataforma X el mecanismo de reducción de costos algorítmica. Luo reveló que, tras alinear los precios de la API con los de DeepSeek, el motor de inferencia de alta carga de Xiaomi aún mantiene el equilibrio entre ingresos y gastos. La reducción de costos se debe principalmente a la arquitectura de atención híbrida y a la optimización jerárquica del caché KV. Con el objetivo de reducir un 99 % el costo de los aciertos de caché (Cache Hit), el marco de inferencia de Xiaomi implementó una optimización jerárquica del caché KV para la atención de ventana deslizante (SWA). Las pruebas de producción mostraron que la optimización jerárquica aumentó la capacidad de tokens del caché hasta cinco veces y redujo un 80 % el costo del caché. Combinada con la técnica de superposición de lectura de caché (Cache Read Overlap) entre módulos de atención global, el sistema redujo aún más el costo real de los aciertos de caché. En cuanto a la reducción del 60 % al 80 % en los costos básicos de entrada y salida, Luo atribuyó esto a la relación de esparsidad entre capas 1:7 introducida en el modelo, es decir, la proporción entre capas de atención global (GA) y atención de ventana deslizante (SWA) es 1:7. Durante la fase de prellenado (Prefill) de textos largos, las 60 capas SWA solo calculan ventanas deslizantes locales, lo que hace que la cantidad total de cálculos de atención del modelo MiMo-V2.5-Pro, con 70 capas, sea equivalente a la de un modelo tradicional GQA con solo 10 capas. La carga computacional extremadamente baja redujo el costo original de inferencia, lo que antes dejaba un margen de ganancia de 2 a 3 veces a Xiaomi antes del ajuste de precios. Por lo tanto, la reducción de precios refleja una disminución estructural de costos, no una competencia con pérdidas. Luo indicó que los servicios de inferencia de bajo costo ayudan a estimular la demanda de inteligencia en terminales. Las empresas de modelos grandes deben evitar guerras de precios ciegas y, en cambio, controlar los costos operativos reales por debajo del punto de equilibrio mediante un diseño coordinado a nivel fundamental entre algoritmos y sistemas de inferencia. (Fuente: BlockBeats)
El modelo MiMo-V2.5 de Xiaomi reduce costos con cálculo de atención equivalente a 10 capas
KuCoinFlashCompartir






El modelo MiMo-V2.5 de Xiaomi reduce costos utilizando un cálculo de atención equivalente a 10 capas. La versión Pro de 70 capas reduce los costos de acierto en caché en un 99% y los costos de entrada/salida en un 60-80%. Las noticias en cadena muestran que el modelo utiliza una relación de escasez de 1:7 entre la atención de ventana deslizante y la atención global. Los cambios en la política cripto global podrían influir en cómo estos logros de eficiencia impactan la implementación de IA.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.