Medios extranjeros indican que los fabricantes chinos de modelos avanzados han seguido reduciendo los precios de sus API recientemente; DeepSeek y Xiaomi anunciaron nuevos esquemas de precios, mientras que los nuevos modelos de los laboratorios líderes de EE. UU. se dirigen hacia precios más altos. Esto amplía aún más la brecha en los costos de inferencia entre los modelos avanzados de China y EE. UU.
Para clientes empresariales, el precio del modelo se refleja principalmente en el costo de la API cobrada por token. Después de integrar el modelo, la entrada, la salida y los aciertos en la caché generan costos, por lo que los cambios en el precio unitario afectan directamente la viabilidad comercial del producto de IA.
DeepSeek y Xiaomi reducen precios simultáneamente
DeepSeek aplicará el descuento del 75% para V4-Pro como precio permanente el 22 de mayo. Después del ajuste, el precio de entrada del modelo es de 0,435 dólares por millón de tokens y el precio de salida es de 0,87 dólares.
Xiaomi redujo los precios de la API MiMo-V2.5 el 26 de mayo, bajando el precio de entrada para la versión Pro a $0.0036 por millón de tokens, con reducciones máximas de hasta el 99% en algunos proyectos. Según el nuevo plan de precios de Xiaomi, la misma cantidad de dinero permite obtener entre 5 y 8 veces más tokens.
Detrás de la reducción de precios se encuentra la optimización del razonamiento
El artículo indica que esta reducción de precios no es simplemente una acción de marketing. Luo Fuli, líder del equipo MiMo de Xiaomi y exdesarrollador clave de DeepSeek, señaló que los principales ahorros provienen de la optimización del caché y del marco de inferencia. El sistema puede reutilizar más información ya procesada, reduciendo los cálculos repetitivos y, por lo tanto, disminuyendo los costos de almacenamiento e inferencia.
Según sus afirmaciones, las optimizaciones relacionadas aumentaron significativamente la capacidad de procesamiento de tokens en caché, reduciendo los costos totales de almacenamiento y procesamiento aproximadamente un 80%. Con los nuevos precios de la API, el motor de inferencia en producción puede mantener aproximadamente el punto de equilibrio incluso cuando opera cerca de su capacidad máxima.
DeepSeek aborda esto mediante la compresión de la arquitectura del modelo para reducir el costo de cálculo del contexto. El artículo señala que V4 utiliza dos mecanismos de atención intercalados, que reducen significativamente el tamaño del caché KV y el costo de inferencia por token en escenarios de contexto largo. Con un contexto de un millón de tokens, el caché KV de V4-Pro es solo aproximadamente una décima parte del anterior, y el costo de inferencia por token es aproximadamente el 27% del anterior.
El precio del modelo estadounidense se mueve en dirección opuesta
El artículo señala que los modelos líderes de Estados Unidos no han seguido la tendencia de reducción de precios recientemente. OpenAI, al lanzar el GPT-5.5 a finales de abril, aumentó el precio de salida a 30 dólares por millón de tokens, aproximadamente el doble que la generación anterior. El precio del Claude Opus 4.7 de Anthropic se mantuvo sin cambios, pero debido a la actualización del tokenizador, el mismo texto puede generar más tokens, lo que podría aumentar la factura final hasta en un 35%.
En comparación, DeepSeek V4-Pro obtiene un puntaje del 80,6% en el benchmark de código SWE-Verified, cercano al 80,8% de Claude Opus 4.6, pero con una diferencia de precio de salida de decenas de veces. Tras la última actualización de precios, MiMo-V2.5-Pro de Xiaomi también alcanza el mismo precio de entrada y salida que DeepSeek V4-Pro.
El artículo también menciona que otras empresas chinas de modelos, como MiniMax, Moonshot AI y Z.AI, mantienen precios bajos. Según la comparación presentada en el artículo, en el segundo trimestre de 2026, la diferencia de precios entre los modelos avanzados de China y Estados Unidos oscila aproximadamente entre 15 y 30 veces; si se incluyen los descuentos por caché, esta brecha se amplía aún más.
