Las acciones de Zhipu AI aumentan un 26% tras el lanzamiento de la API de 400 tokens/s

Texto | AIDeepDive

Hoy, "la primera empresa global de modelos grandes", Zhipu (02513.HK), volvió a experimentar un fuerte aumento.

La ganancia intradía alcanzó más del 30%. Cerró en 1282 dólares hongkoneses, con un aumento total del día superior al 26%, y una capitalización de mercado de 571.570 millones de dólares hongkoneses, volviendo a establecer un nuevo récord histórico.

Modelo grande

Lo que desencadenó este aumento fue un indicador técnico específico: 400 tokens/s.

El 22 de mayo, Zhipu lanzó oficialmente la API GLM-5.1-highspeed para clientes empresariales, con un parámetro clave: la velocidad de salida del modelo alcanza 400 tokens por segundo, superando el límite superior de velocidad de las API de fabricantes de modelos grandes a nivel mundial.

Inicialmente pensé que se trataba de otra campaña de relaciones públicas de un modelo grande nacional, pero al revisar detalladamente los aspectos técnicos, finalmente comprendí la lógica detrás del mercado de capitales.

¿Qué significa 400 tokens/s?

El modelo puede generar aproximadamente 200 caracteres chinos por segundo, equivalente a la producción intensa de un escritor profesional durante un minuto, comprimida en un solo segundo.

La cantidad de texto que un creador tarda días escribiendo sin descanso, GLM-5.1 versión rápida puede entregar en un minuto; una tarea de reestructuración de sistema que un ingeniero tarda tres días en completar, puede ejecutarse mientras toma una taza de café.

01 La velocidad es más importante de lo que piensas

La velocidad ha sido históricamente la dimensión más ignorada en la competencia entre modelos de IA.

En los últimos tres años, la carrera armamentista de los modelos grandes se ha centrado en dos vías: el tamaño de los parámetros (modelos más grandes y más inteligentes) y la guerra de precios (tokens más baratos y más accesibles). "Rapidez" nunca ha sido el protagonista.

Esto se debe a que, en el pasado, la “velocidad” generalmente se lograba reduciendo los parámetros del modelo. Para acelerar, era necesario utilizar modelos más pequeños y simplificados, con la consecuencia de una reducción en su capacidad.

La versión rápida de GLM-5.1 tiene como significado principal que, al mantener la capacidad de base completa de gama alta, impulsa la velocidad hasta 400 tokens/s.

Por primera vez, tanto desde la perspectiva de los modelos nacionales como desde el ámbito internacional, se logró "capacidad de bandera" y "latencia extremadamente baja" sin compromisos.

Modelo grande

¿Por qué es tan crucial la velocidad? Porque el campo de batalla principal de la IA está experimentando una migración fundamental.

Cuando la IA pasa de la era del ChatBot a la era del Agent, las preguntas y respuestas ya no son el escenario principal de la IA; para completar una tarea, un Agent a menudo requiere que el modelo realice decenas e incluso cientos de llamadas internas: escribir código, llamar a interfaces, buscar información, utilizar herramientas...

En este modo de trabajo, la latencia entre cada llamada se acumula y amplifica sin piedad. Una tarea que requiere 50 llamadas, si se ahorra 1 segundo en cada una, se completa casi un minuto más rápido. Para asistentes de programación por IA, interacciones por voz y sistemas de toma de decisiones comerciales, esta diferencia puede ser decisiva.

En un nivel más profundo, una inferencia más rápida dentro de un presupuesto de tiempo fijo significa que el modelo puede recorrer rutas de inferencia más profundas y realizar más rondas de validación propia. La velocidad está pasando de ser una métrica del sistema a convertirse en el límite mismo de la inteligencia.

02 ¿Qué tan difícil es la velocidad?

¿Cuál es el nivel actual de la industria en términos de velocidad?

Entre los principales fabricantes, GPT-4o de OpenAI opera aproximadamente entre 100 y 150 tokens/s, la serie Claude Sonnet de Anthropic entre 80 y 120 tokens/s, y la mayoría de los modelos insignia principales en China operan en el rango de 50 a 100 tokens/s. 400 tokens/s es aproximadamente de 3 a 5 veces el promedio de la industria.

Más importante aún, esta brecha no se puede compensar con más poder de cómputo.

Un servidor equipado con 8 tarjetas gráficas H200 puede teóricamente transferir hasta 38 TB de datos por segundo. Para GLM-5.1, generar un solo token requiere leer aproximadamente 42 GB de parámetros de activación; según cálculos puramente teóricos, debería acercarse a 1000 tokens/s.

Pero los sistemas reales suelen solo lograr decenas de tokens/s.

Modelo grande

Esta es una brecha de orden de magnitud. La GPU no es lo suficientemente rápida, sino que gran parte del tiempo se pierde en espera, inactividad y programación ineficaz.

ZhiPu está innovando simultáneamente en tres niveles: motor de inferencia, estrategia paralela y arquitectura de red, logrando una ruptura en la velocidad final.

Modelo grande

03 Tres capas de tecnología superpuestas, acercándose al límite físico del hardware

Los modelos grandes funcionan de esta manera: se dividen en operadores individuales, cada operador inicia una vez el núcleo de cálculo (kernel), termina el cálculo y luego espera en sincronización antes de iniciar el siguiente.

Durante la fase de entrenamiento, cada cálculo tarda varios segundos o incluso minutos, por lo que los costos de inicio y espera pueden ignorarse por completo. Sin embargo, durante la inferencia, al generar un solo token a la vez, un paso clave puede tomar solo decenas de microsegundos, lo que hace que los costos de inicio y espera se vuelvan relativamente significativos.

La idea central de TileRT: compilar todo el modelo en un motor que funcione de forma continua, iniciado una sola vez y nunca detenido.

TileRT expandirá estáticamente toda la lógica de cálculo del modelo en una sola línea de flujo continuo durante la fase de compilación del código, manteniendo la GPU en funcionamiento constante a alta velocidad durante la ejecución, con cálculos, transferencia de datos y comunicación avanzando en paralelo, y los resultados intermedios permaneciendo lo más posible dentro de la memoria caché de alta velocidad de la GPU, evitando escrituras y lecturas repetidas en la memoria VRAM más lenta.

Modelo grande

Aquí hay un detalle de diseño clave: especialización de Warp.

Para comprender Warp, primero debes entender cómo funciona la GPU. La principal diferencia entre la GPU y la CPU es que la GPU contiene miles de unidades de cálculo relativamente simples, agrupadas en conjuntos de 32, a los que se denomina Warp.

Los 32 unidades dentro del mismo Warp deben actuar siempre sincronizadas y ejecutar la misma instrucción, como un escuadrón en el ejército donde el sargento da la orden y todos realizan el mismo movimiento al mismo tiempo.

En los marcos tradicionales, todos los Warp ejecutan la misma secuencia de instrucciones; TileRT asigna diferentes responsabilidades a distintos grupos de Warp: un grupo se encarga exclusivamente de anticipar la carga de los siguientes datos, otro se dedica únicamente a cálculos matemáticos, y otro se ocupa exclusivamente de la comunicación con otras GPU. Los tres grupos trabajan simultáneamente, en flujo coordinado, sin esperar unos a otros.

Es como pasar de que "un trabajador traslade ladrillos, construya paredes y verifique secuencialmente" a que "el equipo de traslado de ladrillos, el equipo de construcción de paredes y el equipo de inspección trabajen simultáneamente".

Se resolvió la eficiencia dentro de una sola tarjeta, pero el paralelismo múltiple presenta nuevos desafíos.

La práctica estándar de la industria es el paralelismo de tensores (Tensor Parallel): dividir las matrices de pesos del modelo en varias partes, asignar cada parte a una GPU, y luego consolidar los resultados mediante una interconexión de alta velocidad (NVLink).

Este enfoque funciona muy bien para cálculos densos y regulares como la multiplicación de matrices, y es la solución estándar de múltiples tarjetas en casi todos los marcos de inferencia de modelos grandes actualmente.

GLM-5.1 utiliza **MLA (Multi-head Latent Attention, Multi-head Latent Attention), un mecanismo de atención propuesto por DeepSeek.

El mecanismo de atención tradicional requiere guardar completamente todos los datos intermedios calculados en cada paso (KV Cache) para su uso posterior, lo que consume mucha memoria gráfica; el enfoque de MLA comprime primero estos datos intermedios en un "vector latente" compacto para almacenarlos, y los descomprime y restaura cuando se necesitan, reduciendo significativamente la demanda de memoria gráfica y aumentando la eficiencia de inferencia.

Pero en el proceso de cálculo de MLA hay un paso especial: se necesita crear un índice disperso a partir de una gran cantidad de información histórica: similar a encontrar rápidamente unos pocos libros más relevantes en una biblioteca enorme, y luego leerlos en detalle.

El paso "buscar el libro" depende de información global y no es adecuado para distribuirse entre múltiples tarjetas; solo la "lectura detallada" es un cálculo intensivo adecuado para el paralelismo entre múltiples tarjetas. Si se fuerza a que las 8 GPU participen en "buscar el libro", gran parte del tiempo se perderá en la sincronización y comunicación entre las GPU.

La solución de TileRT consiste en hacer funcionar de forma heterogénea las GPU: la GPU 0 actúa exclusivamente como "bibliotecario", encargándose del índice disperso y las decisiones de enrutamiento; las GPU 1–7 actúan como "analistas de lectura detallada", encargándose de los cálculos de atención densa y las operaciones matriciales. Ambos tipos de trabajadores emplean estrategias de paralelización optimizadas para cada uno y colaboran para completar toda la capa de cálculo.

Modelo grande

A continuación, TileRT también integra directamente las operaciones de comunicación entre GPU en la tubería de ejecución, ya no como pasos independientes. Desde el exterior, el sistema de 8 GPU completa un cálculo de atención con solo una inicialización de kernel, y la comunicación y el cálculo internos se realizan sin interrupciones dentro de la tubería continua.

Las dos capas anteriores resuelven problemas dentro del ámbito de una sola máquina. Cuando el clúster se expande a cientos o incluso miles de GPU, la transferencia de datos entre GPU se convierte en un nuevo límite.

La práctica estándar de la industria es ROFT (Rail-Optimized Fat-Tree), la solución recomendada oficialmente por NVIDIA y el estándar absoluto de la industria.

Su estructura es un árbol: el servidor primero se conecta al switch Leaf inferior (capa de acceso, directamente orientado a los servidores), y el switch Leaf se conecta hacia arriba al switch Spine (capa principal, responsable de la interconexión entre diferentes Leaf, como un nodo de autopista). Los datos transmitidos entre dos GPU deben "subir primero al Spine y luego bajar al switch Leaf de destino", atravesando al menos tres saltos.

Para evitar que el tráfico se concentre en pocas rutas, esta arquitectura depende del algoritmo ECMP para distribuir los datos entre múltiples caminos, funcionando bien bajo la suposición de que el tráfico de internet es "estadísticamente uniforme".

Pero el tráfico en escenarios de inferencia es completamente desigual. La longitud del contexto puede variar hasta en decenas de veces entre diferentes solicitudes, y la dirección de transferencia del KV Cache entre GPUs es casi aleatoria. Algunos switches Leaf se convierten periódicamente en puntos calientes, activando el mecanismo de retroalimentación negativa y propagando la congestión desde lo local hasta toda la cadena. Esta congestión no se puede resolver ajustando parámetros del protocolo; es un producto inherente de la estructura de topología.

Modelo grande

El avance fundamental de ZCube: impedir físicamente este tipo de congestión a nivel de arquitectura.

El diseño principal se realiza en dos pasos:

Paso 1: Desactivar la capa Spine y planificar la red. Dividir todos los switches Leaf en dos grupos según números impares y pares, y conectar completamente ambos grupos: cualquier switch impar se conecta a todos los switches pares, y viceversa. Cualquier par de GPU puede comunicarse entre sí mediante un máximo de dos switches, reduciendo el número de saltos de 3 a 2.

Modelo grande

Paso dos, y también el más sofisticado: cada tarjeta GPU se conecta a dos grupos de switches mediante dos métodos completamente distintos. Esta topología especial proporciona una propiedad matemática clave: entre cualquier par de GPUs en la red, existe exactamente una ruta óptima.

Modelo grande

La "única ruta" elimina directamente la causa raíz de la congestión. Las arquitecturas tradicionales son propensas a puntos calientes precisamente porque hay múltiples rutas disponibles; si el algoritmo de equilibrio de carga elige mal, se produce una concentración de tráfico. ZCube elimina en su diseño la propia "elección": no se necesita equilibrio, porque simplemente no hay bifurcaciones.

04 Bajo las mismas condiciones de hardware, ¿cómo se calcula la cuenta?

Después de actualizar el clúster de producción de GLM-5.1 de ROFT tradicional a ZCube, Zhipu obtuvo tres números:

En resumen, con la misma inversión en GPU, el clúster puede atender a más usuarios; con los mismos requisitos de experiencia de usuario, el clúster puede comprar un tercio menos de equipos de red. Mejora la eficiencia y reduce los costos.

Modelo grande

Específicamente, un aumento del 15% en el rendimiento equivale a obtener un 15% adicional de potencia de cálculo gratis. Sin cambiar la cantidad de GPU, un aumento del 15% en el rendimiento equivale a una reducción de aproximadamente el 13% en el costo promedio por token, o lo que es lo mismo, con el mismo costo se pueden atender un 15% más de usuarios.

Si un clúster tiene 1000 GPU, esta actualización equivale a agregar repentinamente una capacidad de 150 tarjetas adicionales; según el precio actual del mercado de tarjetas de inferencia de gama alta, esto representa un valor de capacidad de cientos de millones de yuanes.

La latencia de cola disminuyó un 40,6%, resolviendo la estabilidad, no la velocidad promedio. Una tarea de Agent que requiere 50 rondas de llamadas, si la latencia de cola se reduce en 1 segundo en cada ocasión, comprime el tiempo de finalización más largo en casi un minuto.

Los costos se redujeron en un tercio, un ahorro directo en la infraestructura. ZCube eliminó la capa Spine, reduciendo directamente en un tercio la cantidad de switches y módulos ópticos necesarios para el mismo tamaño de clúster. Según cálculos de Zhipu, en un clúster de escala de diez mil GPUs, solo esta medida puede ahorrar entre 210 y 640 millones de yuanes.

A largo plazo, a medida que la escala del clúster se intensifica exponencialmente, la complejidad de la comunicación entre GPU aumenta varias veces, y la probabilidad e impacto de la congestión también se amplifican simultáneamente. Esto significa que el valor de innovaciones arquitectónicas como ZCube se manifestará más rápidamente a medida que los clústeres de inferencia sigan expandiéndose. Los beneficios de los clústeres de nivel diez mil mañana podrían superar con creces el 15% de hoy.

05 Al final

Después de leer el informe técnico de Zhipu, me pregunto si esto generará una tormenta en la industria, al igual que DeepSeek.

Al pensarlo con cuidado, los impactos parecen ser en aspectos diferentes. Cuando salió DeepSeek, demostró que la misma inteligencia puede lograrse con mucho menos poder de cómputo. El mercado se preocupó por "necesitar menos GPU", por lo que el valor de mercado de NVIDIA se desplomó casi 600 mil millones de dólares ese día.

Pero hoy la prueba técnica de Zhipu demuestra: con la misma potencia de cómputo, se puede producir más. Está reestructurando "¿Cómo deberían ser las otras infraestructuras además de la GPU?".

A corto plazo, NVIDIA no se verá afectada, pero a largo plazo, la ventaja competitiva formada por GPU + NVLink + red InfiniBand + ecosistema de software CUDA está siendo erosionada, especialmente el InfiniBand que NVIDIA adquirió por 6.900 millones de dólares en 2019, lo que reducirá significativamente la prima de NVIDIA en el segmento de redes.

Además, ZCube eliminó la capa Spine, pero aumentó los requisitos de densidad de puertos para los conmutadores Leaf. Los beneficiados son los fabricantes que pueden producir conmutadores Leaf de alta densidad y muchos puertos (Ruijie, Arista, chips de conmutación Broadcom), mientras que los perjudicados son los fabricantes que dependen principalmente de conmutadores de gama alta en la capa Spine para obtener márgenes más altos.

En 2025, Celestica y NVIDIA representan aproximadamente el 50% del mercado de interruptores de red posterior de IA, un panorama que enfrentará un reajuste tras la difusión del paradigma ZCube.

Los módulos ópticos son la dirección más directamente beneficiada por los cambios en la cadena de suministro, con una lógica muy clara. Para los fabricantes domésticos de módulos ópticos (Infinera, Tianfu Communications, etc.), esto representa un beneficio estructural: no solo aumenta la cantidad total, sino que la demanda de módulos ópticos de alta velocidad (800G, 1.6T) bajo el paradigma ZCube es más concentrada y urgente que en las arquitecturas tradicionales.

Tanto la arquitectura TileRT como ZCube son motores de inferencia puramente software que se ejecutan sobre GPU estándar, sin depender de características de hardware propietarias de NVIDIA, y teóricamente pueden portarse a chips nacionales como los Huawei Ascend. Si este camino se logra, reducirá significativamente la barrera de entrada del software para chips de IA nacionales en escenarios de inferencia.

This may be the greater significance behind this technological innovation.