Xiaomi lanzó MiMo-V2.5-Pro-UltraSpeed, una versión acelerada de inferencia de su modelo insignia de billones de parámetros. La empresa afirma que la nueva versión alcanza una velocidad de inferencia superior a 1000 tokens por segundo en un servidor estándar equipado con 8 GPU genéricas, con un pico demostrado cercano a 1200 tokens.
El enfoque de esta actualización no está en el modelo en sí, sino en la eficiencia de inferencia. En comparación con las soluciones que dependen de chips personalizados, Xiaomi enfatiza el uso de hardware genérico y logra aceleración mediante optimizaciones en el software y el modelo. Esto significa que la barrera para implementar rápidamente modelos grandes podría reducirse aún más.
Dos tecnologías impulsan el aumento de velocidad
Xiaomi utilizó principalmente dos tecnologías en esta ocasión. La primera es la cuantización FP4. La empresa comprimió las capas de expertos que representan la mayor parte de los parámetros del modelo a una precisión de 4-bit, mientras que el resto se mantuvo con una precisión más alta. Esto reduce el uso de memoria VRAM y la presión sobre el ancho de banda, mejorando así la velocidad de inferencia.
El segundo es la decodificación especulativa de DFlash. La decodificación especulativa tradicional primero predice unos pocos tokens mediante un modelo más pequeño, luego verifica en paralelo con un modelo grande. DFlash, en cambio, propone un bloque completo de tokens de una sola vez, que luego es verificado por el modelo principal. En tareas de código, el modelo principal acepta en promedio 6.3 de cada 8 tokens candidatos por ronda.
Xiaomi y su socio de inferencia TileRT también optimizaron el proceso de ejecución. Su enfoque consiste en mantener el proceso de cálculo permanentemente dentro de la GPU, reduciendo el overhead adicional causado por el inicio secuencial de operadores.
Comparación de velocidades de modelos principales
Según los datos citados de Artificial Analysis, la velocidad de salida de los modelos generales principales actualmente es generalmente inferior a este nivel. El informe señala que la velocidad de interacción común de la serie GPT es de aproximadamente 68 tokens por segundo, Claude Opus 4.6 es de aproximadamente 71 tokens por segundo y Gemini Flash es de aproximadamente 192 tokens por segundo.
El informe también menciona que empresas como Cerebras y Groq han estado posicionándose a largo plazo en la inferencia de alto rendimiento, confiando en arquitecturas de chips propios para mejorar la velocidad. En contraste, Xiaomi logró este resultado en nodos GPU generales, destacando el aumento de rendimiento logrado mediante optimización de software.
Lanzamiento de prueba limitada el 9 de junio
Xiaomi indica que UltraSpeed acelera la versión original de MiMo-V2.5-Pro, no el modelo ligero simplificado. El rendimiento de este modelo en pruebas de código previas se describió como cercano al nivel de Claude Opus.
La empresa planea abrir una prueba limitada de API del 9 de junio al 23 de junio, bajo sistema de solicitud; los usuarios empresariales y desarrolladores profesionales tendrán prioridad. En cuanto a precios, la versión UltraSpeed cuesta aproximadamente tres veces la tarifa estándar de MiMo, pero la velocidad de generación puede aumentar hasta diez veces.
Información adicional: Xiaomi indicó que el modelo de punto de control con FP4 y DFlash ya está disponible en Hugging Face para que la comunidad lo pruebe.
