As otimizações de engenharia da Zhipu AI impulsionam eficiência de custos e confiança no mercado

No primeiro dia de negociação após o feriado do Dia do Trabalho, Zhipu e MiniMax dispararam.

Em 4 de maio, Zhipu subiu mais de 10%, com seu preço de ação se aproximando novamente da barreira de mil yuan; MiniMax subiu 12,62%, encerrando em 803 dólares de Hong Kong.

De acordo com o relatório do Morgan Stanley, a disparada dos preços das ações deve-se à narrativa única da IA chinesa sobre custo-benefício.

O Morgan Stanley, no relatório “China’s AI Path: More Bang For The Buck”, afirmou que, sob restrições de capacidade de computação, o nível de inteligência dos modelos mais avançados da China e dos EUA está se aproximando rapidamente, com a lacuna reduzida para 3 a 6 meses.

Ao mesmo tempo, o relatório aponta que o verdadeiro destaque dos modelos chineses é conseguir níveis de inteligência quase equivalentes, com custos de inferência de apenas 15% a 20% dos seus pares americanos.

Esta frase é na verdade bem fácil de entender. Nem todos precisam usar o modelo mais poderoso, mas a maioria das pessoas quer usar um modelo barato.

O mercado não está comprando uma simples história de "substituição nacional", mas sim o fato de que a IA chinesa está transformando custo-benefício em volume real de uso, receita real e elasticidade real de avaliação.

Mas a pergunta que surge é: de onde vem essa relação custo-benefício?

Se for apenas para atrair clientes com preços baixos, isso logo se tornará uma guerra de preços.

Se for apenas model distillation, mas empresas como Anthropic e OpenAI já fecharam o acesso à distillation, o rating não deveria diminuir? Por que foi aumentado?

Na verdade, o que realmente tornou essa narrativa mais convincente foi o blog técnico publicado pelo Zhipu antes do Dia do Trabalho, intitulado “Scaling Pain: Práticas de Inferência de Agentes de Codificação em Escala Ultramassiva”.

Este blog post não aborda uma visão ampla de AGI, mas sim expõe ao mercado os detalhes de engenharia subjacentes, como KV Cache, throughput, agendamento e saídas anômalas.

O mais importante é que ele revelou o segredo por trás do custo-benefício da IA na China.

01

Neste blog, Zhipu explicou como otimizar cache, agendamento e monitoramento de exceções para permitir que o mesmo GPU execute mais tarefas com menos erros.

A Zhipu descobriu que o AI não funcionar bem não é necessariamente porque o modelo não é inteligente, mas pode ser devido a um sistema de fundo desorganizado. Corrigiu o problema de dados corrompidos no cache, otimizou o agendamento da GPU e a reutilização de cache, e adicionou um alarme capaz de detectar saídas anômalas antecipadamente.

O resultado é que, com o mesmo modelo e a mesma GPU, é possível atender mais usuários com menor probabilidade de erros. Portanto, sua narrativa de custo-benefício não se baseia apenas em redução de preços, mas em otimizações de engenharia que extraem mais capacidade de processamento estável e utilizável de cada GPU.

Após otimizações de engenharia de base, a série GLM-5 aumentou em até 132% o throughput do sistema no cenário de Coding Agent, reduzindo a taxa de saídas anormais do sistema de aproximadamente 10 em 10.000 para 3 em 10.000.

Por exemplo, anteriormente, uma única GPU conseguia atender 100 tarefas por hora; agora, após otimização, pode atender até 232 tarefas.

Cada item isolado não é suficiente para decidir o resultado. Mas, quando combinados, proporcionam o dobro do throughput sob a mesma capacidade de processamento e um aumento de mais de uma ordem de grandeza na estabilidade.

O modelo não mudou. O que mudou foi a maneira como o modelo está sendo "utilizado".

Concretamente, desde março, o Zhipu observou três tipos de anomalias no monitoramento online e nos feedbacks dos usuários do GLM-5: caracteres corrompidos, repetição e caracteres raros. Essas anomalias parecem, à primeira vista, semelhantes ao "declínio de inteligência" comum em cenários de longo contexto.

Mas a equipe Zhipu não implementou nenhuma otimização que reduza a precisão do modelo. Então, a anomalia origina-se do próprio modelo ou da cadeia de inferência?

Após analisar e raciocinar repetidamente os logs, eles encontraram um ponto de entrada inesperado: os indicadores de amostragem especulativa podem servir como sinal de referência para detecção de anomalias.

A amostragem de especulação era originalmente apenas uma técnica de otimização de desempenho. Primeiro, o modelo rascunho gera tokens candidatos, e em seguida, o modelo alvo verifica e decide se aceita ou não, aumentando assim a eficiência da decodificação sem alterar a distribuição final da saída.

É fazer o modelo pequeno gerar rapidamente um conjunto de respostas, e depois o modelo grande selecionar as corretas — assim, é rápido e preciso.

A equipe do Zhipu descobriu que, quando ocorre uma anomalia, os dois indicadores da amostragem especulativa apresentam um padrão estável. Assim, eles expandiram a amostragem especulativa de uma simples otimização de desempenho para um sinal de monitoramento em tempo real da qualidade da saída.

Quando spec_accept_length permanecer continuamente abaixo de 1,4 e o comprimento gerado exceder 128 tokens, ou quando spec_accept_rate ultrapassar 0,96, o sistema interromperá ativamente a geração atual e encaminhará a solicitação para o balanceador de carga tentar novamente.

Esses dois números funcionam como indicadores de exame médico; se houver alguma anomalia, significa que o modelo está "doente" e precisa ser reiniciado para tratamento.

O usuário não percebe esse processo, mas o sistema de fundo realmente realizou uma reinicialização dessa forma.

A causa raiz da anomalia é o conflito de reutilização do KV Cache.

É como uma cozinha, no horário de pico das refeições, muitas pessoas vêm ao mesmo tempo para fazer pedidos.

O sistema precisa salvar temporariamente o contexto de cada usuário, ou seja, o KV Cache. O que este cliente pediu anteriormente, se quer menos pimenta ou sem coentro. Um ou dois clientes estão bem, mas quando há muitos clientes, o garçom容易记错.

MiniMax

Em altas cargas, a ordem de recuperação, reutilização e leitura de alguns caches pode se desorganizar. Como resultado, o modelo pode acessar o contexto incorreto e produzir caracteres aleatórios, repetições ou caracteres raros.

No mecanismo de inferência, sob a arquitetura de separação PD, existe uma inconsistência entre o ciclo de vida da requisição e a sequência de liberação e reutilização do KV Cache. Com maior pressão de concorrência, os conflitos são amplificados, resultando em caracteres corrompidos e repetições no lado do usuário.

Vários pedidos competindo simultaneamente por um bloco de memória resultaram em dados corrompidos, e o que os usuários viram foram caracteres ilegíveis.

A equipe do ZhiPu identificou esse bug e o corrigiu.

Além disso, eles identificaram e corrigiram, no nível do código-fonte do framework de inferência de código aberto SGLang, o problema de ausência de sequência de carregamento no módulo HiCache, conhecido como read-before-ready.

A solução foi submetida à comunidade SGLang por meio do Pull Request #22811 e foi aceita.

SGLang é um projeto de código aberto, cujo nome completo pode ser entendido como um framework de inferência/serviço voltado para modelos de linguagem de grande porte. Não é um modelo grande nem uma empresa de IA, mas sim um conjunto de software básico que permite a execução eficiente de modelos de grande porte.

ZhiPu descobriu um bug de cache de alta concorrência ao usar o framework de inferência open-source SGLang.

Ele não apenas corrigiu internamente; o Zhipu também enviou o código de correção para o projeto de código aberto SGLang.

Após revisão e aprovação pelo mantenedor do projeto, a correção foi integrada à versão pública, permitindo que outros desenvolvedores e empresas que utilizam o SGLang também a utilizem.

What does this mean?

Se alguma cadeia de implantação do Qwen usar SGLang+HiCache, a Alibaba também se beneficiará com a descoberta e correção desse problema pela Zhipu.

Ainda a mesma frase dita anteriormente: o modelo não mudou, mas, por meio de otimizações de engenharia, tornou-se mais inteligente ao ser utilizado.

02

O blog da Zhipu realmente expôs um nível mais profundo.

A economia na era dos chatbots vem em grande parte do baixo custo de treinamento, com parte dos conjuntos de treinamento provenientes da destilação de modelos líderes.

Na era do Agente, esse truque não funciona mais.

Este ano, a Anthropic e a OpenAI fecharam progressivamente as entradas de distilação, proibindo explicitamente o uso das saídas de seus modelos para treinar modelos concorrentes. O caminho de aproveitar a distilação como atalho está ficando cada vez mais restrito.

Mas a narrativa de custo-benefício das empresas chinesas de IA não enfraqueceu; o mercado, pelo contrário, está reforçando essa história.

A razão é que a definição de relação custo-benefício mudou.

Na era dos chatbots, o contexto médio é de 55K tokens, por conversa única e baixa concorrência.

Na era do Agent, contexto médio de 70K+ tokens, tarefas de longa duração (nível de 8 horas), alta concorrência e alta reutilização de prefixos.

Na era dos chatbots, a unidade de medida para o custo-benefício da IA é simples: ao fazer a mesma pergunta, qual modelo é mais barato e cuja resposta está mais próxima do nível de primeira linha?

A indústria discute o preço por milhão de tokens, o tamanho dos parâmetros do modelo e o desempenho nas listas.

Na era do agente, ninguém perguntava sobre isso; este algoritmo deixou de funcionar.

O usuário não está comprando apenas uma resposta. Ele está comprando o resultado completo de uma tarefa.

Um agente de codificação precisa ler código, compreender o contexto, planejar etapas, chamar ferramentas, modificar arquivos, executar testes e tentar novamente em caso de falha. Os tokens consumidos não são um acréscimo de uma única pergunta e resposta, mas sim o saldo total de um fluxo de trabalho.

Como a maior plataforma de chamadas global, o OpenRouter aumentou o volume total de tokens processados por semana de 6,4 trilhões na primeira semana de janeiro de 2026 para 13 trilhões na semana de 9 de fevereiro, dobrando em um mês.

A afirmação oficial do OpenRouter é que a demanda incremental por chamadas no intervalo de 100K a 1M de texto longo é um cenário típico de consumo de fluxos de agente.

O modo como as pessoas usam IA passou de "conversacional" para "baseado em fluxos". Portanto, a unidade de custo-benefício da IA mudou de "preço por token" para "preço por tarefa".

Isso faz com que alguns modelos, embora tenham tokens baratos, falhem frequentemente durante a execução das tarefas ou não atinjam os resultados esperados, tornando o preço do seu agente não tão barato.

Por exemplo, uma tarefa de codificação em um timeframe de 8 horas, se houver apenas uma única corrupção de dados durante o processo, pode exigir que todo o fluxo de trabalho seja reiniciado. O valor economizado por token não compensa o tempo desperdiçado.

A narrativa de custo-benefício da IA na China está sendo aprimorada.

Antes, falava-se: "Forneço respostas do mesmo nível, mas sou mais barato". Agora, fala-se: "Para tarefas igualmente complexas, consigo concluí-las com custos mais baixos".

A infraestrutura de código aberto também está se tornando o novo fosso defensivo da IA na China.

O SGLang mencionado anteriormente é exatamente assim. A capacidade de engenharia da IA chinesa começa a se irradiar para a comunidade a montante.

O valor deste evento não está apenas no fato de que Zhipu corrigiu um bug, mas no fato de que empresas chinesas de IA estão transformando desafios reais de negócios — como alta concorrência, contextos longos e chamadas de agentes — em capacidades de infraestrutura pública.

Como mencionado anteriormente, quando um reparo é integrado a um framework de código aberto como o SGLang, ele deixa de servir apenas aos modelos da Zhipu. Todos os times que utilizam esse framework para implantar modelos grandes têm a oportunidade de obter cache mais estável, custos de inferência mais baixos e uma melhor experiência para agentes.

A capacidade do modelo pode ser alcançada, os preços podem ser pressionados, mas a infraestrutura, uma vez incorporada ao ecossistema de código aberto, torna-se padrão, interface e hábito de desenvolvimento.

Quem escreveu antes sua experiência de engenharia nesses sistemas subjacentes terá mais facilidade em se posicionar na próxima onda de explosão de aplicações de IA.

03

De volta ao mercado de capitais.

As ações de empresas relacionadas a grandes modelos de IA subiram todas, o capital está disposto a reavaliar as empresas de IA? O que o mercado está realmente comprando?

A resposta é que o mercado de capitais está pagando pela narrativa de que as empresas chinesas de IA podem produzir inteligência quase tão avançada quanto as líderes, com custos de inferência mais baixos.

Ainda com base nos dados do OpenRouter.

A participação no consumo de tokens das principais empresas chinesas de IA aumentou rapidamente de 5% em abril de 2025 para 32% em março de 2026. A participação dos principais modelos norte-americanos caiu significativamente de 58% para 19%.

O uso de tokens da MiniMax, Zhipu e Alibaba aumentou de 4 a 6 vezes em fevereiro a março de 2026 em comparação com dezembro do ano passado.

Além da chamada de tokens, a IA chinesa está desenvolvendo um modelo de crescimento totalmente diferente do das grandes empresas estrangeiras.

Os principais modelos internacionais estão vendendo "prêmio de capacidade".

Quanto mais poderoso o modelo, mais caro é cada chamada; os usuários pagam pelo maior nível de inteligência. Claude, GPT-5 e Gemini estão seguindo nessa direção.

A IA chinesa está vendendo "engenharia".

As capacidades do modelo aproximam-se dos modelos de primeira linha, mas com preço, latência e barreiras de chamada mais baixas, atendendo melhor às necessidades da maioria dos cenários de alta frequência.

O relatório do Morgan Stanley menciona que o preço de entrada do modelo chinês é de aproximadamente 0,3 dólares por milhão de tokens, enquanto alguns produtos similares no exterior estão em torno de 5 dólares. Há uma diferença de várias vezes entre eles.

Quando a IA passa de uma ferramenta de experimentação para uma ferramenta de produtividade, o custo-benefício determinará diretamente a frequência de chamada.

Quanto mais barato o modelo, mais as empresas ousam delegar tarefas de atendimento ao cliente, código, marketing e análise de dados a ele. Quanto mais tarefas forem executadas, maior o consumo de tokens, permitindo que a plataforma distribua melhor os custos da infraestrutura.

MiniMax

Acho que, neste estágio, é possível que se forme uma roda de inércia.

A primeira rodada visa atrair desenvolvedores e empresas com preços de API mais baixos e capacidades mais próximas das de primeira linha.

Segunda rodada: maior volume de chamadas trará mais cenários reais, forçando o modelo e o sistema de inferência a continuarem sendo otimizados.

Terceira rodada, mencionada no blog técnico da Zhipu, que utiliza otimizações de engenharia para reduzir o custo por token e por tarefa, permitindo que os fabricantes continuem a reduzir preços, aumentar volume ou aumentar preços em cenários de alto valor.

Na quarta rodada, quando o consumo de tokens se torna o novo tráfego da era da IA, quem conseguir suportar mais tokens com menor custo estará mais próximo de se tornar uma empresa de plataforma na próxima fase.

Se apenas o modelo for reduzido de preço, o mercado se preocupará que isso seja um subsídio e uma guerra de preços, cada vez mais onerosa, até que alguém finalmente não consiga mais suportar os gastos.

Além disso, a guerra de preços não sustenta altas valorações.

Mas se a redução de preço for acompanhada por aumento de throughput, reutilização de cache, redução da taxa de exceções e melhoria da eficiência de agendamento, então o preço baixo não é um sacrifício de lucro em troca de crescimento, mas sim um espaço de custo liberado pela capacidade de engenharia.

O resultado da guerra de preços e dessa otimização de engenharia, embora ambos tornem o modelo mais barato e possam parecer semelhantes nas demonstrações financeiras, são muito diferentes nos modelos de avaliação.

O primeiro é um subsídio, o mercado desconta. O segundo é uma barreira técnica, o mercado premiumiza.

Por fim, pode-se chegar a uma conclusão.

Anteriormente, a avaliação das empresas de IA era baseada no limite de capacidade dos modelos e em quem estava mais próximo da AGI. No mercado, pagava-se pelo “maior inteligência”, cuja definição tornou-se cada vez mais vaga, e cada chamada individual ficou mais cara.

Na era dos agents, a avaliação ainda depende do limite de custo. Veja quem consegue entregar inteligência estável, barata e em grande escala.

Para quem busca a inteligência mais avançada, isso pode não ser o forte da IA chinesa.

No entanto, a IA chinesa é a mais provável a transformar as palavras "inteligência" em uma infraestrutura acessível a todos e a todas as empresas.

E o mercado só está disposto a pagar por empresas que conseguem explicar claramente sua lógica.

Este artigo é do número oficial do WeChat "Letras Board" (ID: wujicaijing), autor: Miao Zheng