Las optimizaciones de ingeniería de Zhipu AI impulsan la eficiencia de costos y la confianza del mercado

El primer día de operación después del feriado del Día Internacional del Trabajo, Zhipu y MiniMax se dispararon.

El 4 de mayo, Zhipu aumentó más del 10%, y su precio volvió a acercarse al umbral de mil yuanes; MiniMax subió un 12,62%, cerrando en 803 dólares de Hong Kong.

Según el informe de Morgan Stanley, el aumento explosivo de los precios de las acciones se debe a la narrativa única de China sobre el valor del IA.

Morgan Stanley indicó en el informe "China’s AI Path: More Bang For The Buck" que, bajo la limitación de capacidad de cómputo, el nivel de inteligencia de los modelos líderes de Estados Unidos y China se está acercando rápidamente, y la brecha se ha reducido a entre 3 y 6 meses.

Al mismo tiempo, el informe señala que lo realmente destacable de los modelos chinos es que pueden lograr un nivel de inteligencia casi equivalente con un costo de inferencia del 15% al 20% del de sus homólogos estadounidenses.

Esta frase es en realidad muy fácil de entender. No todos necesitan usar el modelo más potente, pero la mayoría de las personas quieren usar modelos económicos.

El mercado no está comprando una simple historia de "sustitución nacional", sino que la IA china está convirtiendo su relación calidad-precio en volumen real de uso, ingresos reales y elasticidad real de valoración.

Pero surge la pregunta: ¿de dónde proviene esta relación calidad-precio?

Si solo se trata de adquirir clientes a bajo precio, pronto se convertirá en una guerra de precios.

Si solo se trata de distilación de modelos, y empresas como Anthropic y OpenAI ya han cerrado el acceso a la distilación, ¿no debería disminuir la calificación? ¿Por qué se aumentó entonces?

De hecho, lo que realmente hace que esta narrativa sea más convincente es el blog técnico publicado por Zhipu antes del Día Internacional del Trabajo, titulado “Scaling Pain: Prácticas de inferencia de agentes de codificación a gran escala”.

Este blog no habla de una visión amplia de la AGI, sino que expone al mercado los detalles técnicos subyacentes como el KV Cache, el rendimiento, la programación y las salidas anómalas.

Lo más importante es que ha "desvelado" el secreto detrás del valor excepcional de la IA en China.

01

En este blog, Zhipu explica cómo optimizar la caché, la programación y la supervisión de excepciones para que la misma GPU realice más tareas y cometa menos errores.

ZhiPu descubrió que el mal funcionamiento de la IA no necesariamente se debe a que el modelo no sea inteligente, sino que podría deberse a un sistema de fondo desordenado. Corrigió el problema de datos mezclados en la caché, optimizó la programación de GPU y la reutilización de caché, e incorporó un alerta capaz de detectar anticipadamente salidas anómalas.

Como resultado, el mismo modelo y la misma GPU pueden atender a más usuarios con una menor probabilidad de errores. Por lo tanto, su narrativa de relación calidad-precio no se trata simplemente de reducir precios, sino de optimizar la ingeniería para extraer más capacidad de cómputo estable y utilizable de cada GPU.

Tras la optimización de la ingeniería subyacente, el rendimiento del sistema en escenarios de Coding Agent del serie GLM-5 aumentó hasta un 132%, y la tasa de salidas anómalas del sistema disminuyó de aproximadamente 10 por diez mil a 3 por diez mil.

Por ejemplo, antes una GPU podía atender 100 tareas por hora, pero ahora, tras la optimización, puede atender hasta 232 tareas por hora.

Cada elemento por separado no es suficiente para decidir el resultado. Pero cuando se combinan, se logra el doble de rendimiento con la misma potencia de cálculo y una mejora en la estabilidad de más de un orden de magnitud.

El modelo no ha cambiado. Lo que ha cambiado es la forma en que se "utiliza" el modelo.

Concretamente, desde marzo, Zhipu ha observado tres tipos de anomalías en el monitoreo en línea y los comentarios de los usuarios de GLM-5: caracteres ilegibles, repetición y caracteres raros. Estos fenómenos parecen similares, en apariencia, al "descenso de inteligencia" común en escenarios de contexto largo.

Pero el equipo de Zhipu no ha implementado ninguna optimización que reduzca la precisión del modelo. ¿Entonces, la anomalía proviene del modelo en sí o de la cadena de inferencia?

Tras analizar y razonar repetidamente los registros de logs, encontraron un punto de entrada inesperado: los indicadores de muestreo especulativo pueden servir como señal de referencia para la detección de anomalías.

La muestra de especulación era originalmente solo una técnica de optimización de rendimiento. Primero, el modelo de borrador genera tokens candidatos, y luego el modelo objetivo los verifica y decide si aceptarlos, mejorando así la eficiencia de decodificación sin alterar la distribución de salida final.

Primero, que el modelo pequeño genere rápidamente una serie de respuestas, y luego el modelo grande seleccione las correctas; así se logra velocidad y precisión.

El equipo de ZhiPu descubrió que, cuando ocurre una anomalía, los dos indicadores de muestreo especulativo presentan un patrón estable. Por lo tanto, ampliaron el muestreo especulativo desde una simple optimización de rendimiento hasta una señal de monitoreo en tiempo real de la calidad de la salida.

Cuando spec_accept_length permanece por debajo de 1.4 y la longitud generada supera los 128 tokens, o cuando spec_accept_rate supera 0.96, el sistema interrumpe activamente la generación actual y redirige la solicitud al balanceador de carga para reintentarla.

Estos dos números son como indicadores de un examen médico; si hay alguna anomalía, significa que el modelo está "enfermo" y necesita reiniciarse para recibir tratamiento.

Aunque el usuario no percibe este proceso, el sistema de fondo sí ha completado un reinicio así.

La causa raíz del error es un conflicto en la reutilización del KV Cache.

Es como en la cocina, durante la hora pico de las comidas, muchas personas llegan al mismo tiempo para hacer pedidos.

El sistema debe guardar temporalmente el contexto de cada usuario, es decir, el KV Cache. Qué ordenó este cliente justo antes, si quiere menos chile o sin cilantro. Uno o dos clientes están bien, pero cuando hay muchos, el camarero容易记错.

MiniMax

Cuando hay alta concurrencia, el orden de recuperación, reutilización y lectura de ciertos cachés se desordena. Como resultado, el modelo puede obtener el contexto incorrecto y generar caracteres aleatorios, repeticiones o caracteres poco comunes.

En el motor de inferencia, bajo la arquitectura de separación PD, existe una incoherencia entre el ciclo de vida de la solicitud y la secuencia de reciclaje y reutilización del KV Cache. Cuando aumenta la presión de concurrencia, los conflictos se amplifican, lo que se manifiesta en el lado del usuario como caracteres corruptos y repeticiones.

Entonces, múltiples solicitudes compiten simultáneamente por un bloque de memoria, lo que provoca que los datos se corrompan, y lo que el usuario ve es texto ilegible.

The Zhipu team identified this bug and fixed it.

Además, descubrieron y corrigieron en el nivel del código fuente del marco de inferencia de código abierto principal SGLang el problema de falta de secuencia de carga del módulo HiCache, conocido como read-before-ready.

La solución se propuso a la comunidad SGLang mediante el Pull Request #22811 y fue aceptada.

SGLang es un proyecto de código abierto cuyo nombre completo puede entenderse como un marco de inferencia/servicio orientado a modelos de lenguaje grandes. No es un modelo grande ni una empresa de IA, sino un conjunto de software básico que permite que los modelos grandes funcionen de manera eficiente.

Zhipu descubrió un error de caché de alta concurrencia al utilizar el marco de inferencia de código abierto SGLang.

No solo lo arregló internamente; Zhipu también envió el código de reparación al proyecto de código abierto SGLang.

Después de ser revisado por el mantenedor del proyecto, se acepta y se fusiona. Así, esta corrección se incorpora a la versión pública, y otros desarrolladores y empresas que usan SGLang también podrán utilizarla.

What does this mean?

Si alguna ruta de implementación de Qwen utiliza SGLang+HiCache, Alibaba también se beneficiará debido a que Zhipu descubrió y solucionó este problema.

Siguen siendo las mismas palabras de antes: el modelo no ha cambiado, pero mediante optimizaciones de ingeniería, se ha vuelto más inteligente al usarlo.

02

Lo que realmente desenmascara este blog de Zhipu es un nivel más profundo.

La economía en la era de los chatbots proviene en gran medida de los bajos costos de entrenamiento, y parte de los conjuntos de entrenamiento provienen de la destilación de modelos líderes.

En la era de los agentes, este método ya no funciona.

Este año, Anthropic y OpenAI han cerrado progresivamente las vías de distilación, prohibiendo explícitamente el uso de las salidas de sus modelos para entrenar modelos competidores. El camino de aprovechar la distilación como atajo se está volviendo cada vez más estrecho.

Pero la narrativa de valor de las empresas chinas de IA no ha debilitado; el mercado, de hecho, está reforzando esta historia.

La razón es que la definición de relación calidad-precio ha cambiado.

En la era de los chatbots, el contexto promedio es de 55K tokens, por conversación única y baja concurrencia.

En la era de los agentes, el contexto promedio supera los 70K tokens, tareas de larga duración (nivel de 8 horas), alta concurrencia y alta reutilización de prefijos.

En la era de los chatbots, la unidad de medida para la relación calidad-precio de la IA es sencilla: al hacer la misma pregunta, ¿qué modelo es más barato y qué respuesta es más cercana al nivel de primera línea?

La industria discute cuánto cuesta por millón de tokens, qué tan grandes son los parámetros del modelo y qué tan altos son los resultados en las listas.

En la era de los agentes, nadie preguntaba por esto; este algoritmo dejó de funcionar.

El usuario no está comprando una respuesta. Está comprando el resultado completo de una tarea.

Un agente de codificación debe leer el código, comprender el contexto, planificar pasos, llamar herramientas, modificar archivos, ejecutar pruebas y reintentar en caso de fallo. Los tokens que consume no son un incremento de una sola pregunta y respuesta, sino el saldo total de un flujo de trabajo.

OpenRouter, como la plataforma de llamadas más grande del mundo, aumentó el volumen total de tokens procesados semanalmente de 6,4 billones durante la primera semana de enero de 2026 a 13 billones durante la semana del 9 de febrero, duplicándose en un mes.

La afirmación oficial de OpenRouter es que la demanda incremental de llamadas en el intervalo de texto largo de 100K a 1M es un escenario típico de consumo de flujos de agentes.

El modo en que las personas utilizan la IA ha pasado de "conversacional" a "por flujos de trabajo". Por lo tanto, la unidad de relación costo-beneficio de la IA ha pasado de "precio por token" a "precio por tarea".

Esto hace que algunos modelos, aunque sus tokens sean baratos, fallen constantemente durante la ejecución de tareas o no cumplan con los resultados esperados debido a su bajo rendimiento, lo que hace que el precio de su agente no sea realmente económico.

Por ejemplo, una tarea de codificación de 8 horas puede requerir reiniciarse por completo si se produce un solo error de codificación. El ahorro en el precio unitario de los tokens no compensa el tiempo desperdiciado.

La narrativa de relación calidad-precio de la IA en China está siendo actualizada.

Antes se decía: "Te doy respuestas del mismo nivel, pero soy más barato". Ahora se dice: "Para tareas igual de complejas, puedo completarlas con un costo más bajo".

La infraestructura de código abierto también se está convirtiendo en el nuevo foso defensivo de la IA en China.

Como se mencionó anteriormente, SGLang es así. La capacidad de ingeniería de la IA china comienza a extenderse hacia la comunidad aguas arriba.

El valor de esto no radica solo en que Zhipu haya corregido un error, sino en que las empresas chinas de IA están retroalimentando las capacidades de alta concurrencia, largos contextos y llamadas a agentes en aplicaciones reales como habilidades de infraestructura pública.

Como se mencionó anteriormente, cuando una corrección se incorpora a un marco de código abierto como SGLang, ya no solo beneficia los modelos propios de Zhipu. Todos los equipos que implementan modelos grandes con este marco tienen la oportunidad de obtener una caché más estable, costos de inferencia más bajos y una mejor experiencia para los agentes.

La capacidad del modelo puede ser alcanzada, el precio puede ser presionado, pero la infraestructura, una vez incorporada al ecosistema de código abierto, se convierte en un estándar, una interfaz y un hábito de desarrollo.

Quien escriba antes su experiencia en ingeniería en estos sistemas subyacentes tendrá más probabilidades de posicionarse favorablemente en la próxima ola de explosión de aplicaciones de IA.

03

Volver al mercado de capitales.

Los valores relacionados con grandes modelos de IA subieron todos, ¿está el capital dispuesto a reevaluar a las empresas de IA? ¿Qué es exactamente lo que está comprando el mercado?

La respuesta es que los mercados de capitales están pagando por la narrativa de que las empresas chinas de IA pueden lograr inteligencia cercana a la de primer nivel con costos de inferencia más bajos.

Aún con los datos de OpenRouter.

La cuota de consumo de tokens de las principales empresas de IA de China aumentó rápidamente del 5% en abril de 2025 al 32% en marzo de 2026. La cuota de los modelos principales de Estados Unidos descendió drásticamente del 58% al 19%.

El uso de tokens de MiniMax, Zhipu y Alibaba aumentó de 4 a 6 veces en febrero-marzo de 2026 en comparación con diciembre del año pasado.

Además de la llamada de tokens, la IA china está desarrollando un modelo de crecimiento completamente diferente al de los gigantes extranjeros.

Los modelos líderes en el extranjero están vendiendo una prima de capacidad.

Cuanto más potente sea el modelo, más caro será cada llamado, y los usuarios pagan por la inteligencia más avanzada. Claude, GPT-5 y Gemini están avanzando en esta dirección.

China's AI is selling "engineering".

La capacidad del modelo se acerca a la de los modelos de primera línea, pero con precios, latencia y umbrales de llamada más bajos, lo que lo hace más adecuado para la mayoría de los escenarios de alta frecuencia.

El informe de Morgan Stanley menciona que el precio de entrada del modelo chino es de aproximadamente 0,3 dólares por millón de tokens, mientras que algunos productos similares en el extranjero tienen un precio de alrededor de 5 dólares. Existe una diferencia de varias veces entre ellos.

Cuando la IA pasa de ser una herramienta de prueba a una herramienta de productividad, la relación calidad-precio determinará directamente la frecuencia de uso.

Cuanto más barato sea el modelo, más empresas se atreverán a asignarle tareas como atención al cliente, código, marketing y análisis de datos. Cuantas más tareas se ejecuten, mayor será el consumo de tokens, lo que permite a la plataforma distribuir mejor los costos de infraestructura.

MiniMax

Creo que en esta etapa es posible que se forme una rueda de inercia.

La primera ronda busca atraer a desarrolladores y empresas con precios de API más bajos y una capacidad más cercana a la de primer nivel.

Segunda ronda: un mayor volumen de llamadas traerá más escenarios reales, forzando a los modelos y sistemas de inferencia a seguir optimizándose.

La tercera ronda, a la que se refiere este blog técnico de Zhipu, consiste en reducir el costo por token y por tarea mediante optimizaciones de ingeniería, permitiendo a los fabricantes seguir bajando precios, aumentando volumen o subiendo precios en escenarios de alto valor.

Cuarta ronda: cuando el consumo de tokens se convierta en el nuevo tráfico de la era de la IA, quien pueda soportar más tokens a un costo más bajo estará más cerca de convertirse en la próxima empresa de plataforma.

Si solo se reduce el precio del modelo, el mercado se preocupará de que se trate de subsidios y una guerra de precios, lo que consume cada vez más dinero, y finalmente alguien no podrá soportar el gasto.

Además, la guerra de precios no sustenta una alta valoración.

Pero si detrás de la reducción de precios hay un aumento en el rendimiento, reutilización de caché, disminución de la tasa de anomalías y mejora en la eficiencia de programación, entonces el precio bajo no es una pérdida de beneficios a cambio de crecimiento, sino un espacio de costo liberado por la capacidad de ingeniería.

El resultado de la guerra de precios y esta optimización de ingeniería, aunque ambos hacen que el modelo sea más barato y puedan parecerse en los estados financieros, son muy distintos en los modelos de valoración.

El primero es un subsidio, y el mercado lo descuenta. El segundo es una barrera técnica, y el mercado lo valora con prima.

Finalmente se puede llegar a una conclusión.

Anteriormente, la valoración de las empresas de IA se basaba en el límite de capacidad del modelo y en quién estaba más cerca de la AGI. En ese momento, el mercado pagaba por el "intelecto más fuerte", y la definición de intelecto más fuerte se volvía cada vez más borrosa, mientras que cada llamada individual se volvía más cara.

En la era de los agentes, la valoración aún depende del límite inferior de costos. Mira quién puede entregar inteligencia de manera estable, económica y a gran escala.

For those seeking the most advanced "intelligence," this may not be what Chinese AI excels at.

Sin embargo, la IA china es la más probable en convertir las palabras "inteligencia" en una infraestructura accesible para todos y todas las empresas.

Y el mercado solo está dispuesto a pagar por empresas que puedan explicar claramente su lógica.

Este artículo proviene del canal de WeChat "Letras榜" (ID: wujicaijing), autor: Miao Zheng