Les optimisations techniques de Zhipu AI stimulent l'efficacité des coûts et la confiance du marché

Le premier jour de négociation après les vacances du 1er mai, Zhipu et MiniMax ont explosé.

Le 4 mai, Zhipu a augmenté de plus de 10 %, et son cours a à nouveau approché le seuil de 1 000 yuans ; MiniMax a bondi de 12,62 % pour clôturer à 803 dollars de Hong Kong.

Selon le rapport de Morgan Stanley, la forte hausse des cours des actions est due au récit unique de la relation qualité-prix de l'IA en Chine.

Dans son rapport intitulé « China’s AI Path: More Bang For The Buck », Morgan Stanley indique que, dans un contexte de contraintes sur la puissance de calcul, le niveau d’intelligence des modèles les plus avancés en Chine et aux États-Unis se rapproche rapidement, et l’écart s’est réduit à 3 à 6 mois.

Le rapport souligne également que le véritable atout des modèles chinois réside dans leur capacité à atteindre un niveau d'intelligence presque équivalent à celui de leurs homologues américains, tout en réduisant les coûts d'inférence à 15 % à 20 %.

Cette phrase est en réalité très facile à comprendre. Tout le monde n'a pas besoin d'utiliser le modèle le plus puissant, mais la grande majorité des gens souhaitent utiliser un modèle peu coûteux.

Le marché ne s'achète pas un simple récit de « remplacement national », mais plutôt le fait que l'IA chinoise transforme sa relation qualité-prix en volumes d'utilisation réels, en revenus réels et en élasticité de valorisation réelle.

Mais la question qui se pose est : d'où vient ce rapport qualité-prix ?

Si c'est seulement pour acquérir des clients à bas prix, cela deviendra rapidement une guerre des prix.

Si l'enseignement par distillation est uniquement utilisé, et que des entreprises telles qu'Anthropic et OpenAI ont déjà fermé l'accès à la distillation, la cote ne devrait-elle pas diminuer ? Pourquoi est-elle alors augmentée ?

En réalité, ce qui rend ce récit encore plus convaincant, c'est le blog technique publié par Zhipu avant le 1er mai intitulé « Scaling Pain : Pratiques de raisonnement pour un agent de codage à très grande échelle ».

Ce billet de blog ne présente pas une vaste vision de l'AGI, mais expose au marché les composants techniques sous-jacents tels que le KV Cache, le débit, l'ordonnancement et les sorties anormales.

Ce qui est le plus important, c’est qu’il a « dévoilé » le secret derrière le rapport qualité-prix de l’IA en Chine.

01

Dans ce billet de blog, Zhipu explique comment optimiser le cache, l'ordonnancement et la surveillance des anomalies pour permettre à la même GPU d'effectuer plus de tâches avec moins d'erreurs.

ZhiPu a constaté qu'une mauvaise performance de l'IA n'est pas toujours due à un modèle peu intelligent, mais peut aussi provenir d'un système d'exploitation arrière-plan désordonné. Elle a corrigé le problème de corruption des données dans le cache, optimisé l'ordonnancement GPU et la réutilisation du cache, et ajouté une alerte capable de détecter à l'avance les sorties anormales.

Le résultat est que, avec le même modèle et la même GPU, il est possible de servir plus d'utilisateurs tout en réduisant la probabilité d'erreurs. Ainsi, son récit de rapport qualité-prix ne repose pas sur une simple baisse de prix, mais sur une optimisation technique qui extrait davantage de puissance de calcul stable et utilisable de chaque GPU.

Grâce à une optimisation des infrastructures sous-jacentes, le débit système du série GLM-5 dans les scénarios d'Agent de codage a augmenté de jusqu'à 132 %, et le taux de sorties anormales est passé d'environ 10 pour dix mille à 3 pour dix mille.

Par exemple, une carte GPU qui pouvait auparavant traiter 100 tâches par heure peut désormais en traiter jusqu'à 232 après optimisation.

Chacun pris individuellement, aucun n'est suffisant pour déterminer la victoire. Mais lorsqu'ils sont combinés, ils offrent un débit doublé et une amélioration de la stabilité d'un ordre de grandeur ou plus, avec la même puissance de calcul.

Le modèle n'a pas changé. Ce qui a changé, c'est la manière dont le modèle est "utilisé".

Plus précisément, depuis mars, Zhipu a observé trois types d'anomalies dans la surveillance en ligne et les retours des utilisateurs de GLM-5 : des caractères illisibles, des répétitions et des caractères rares. Ces phénomènes ressemblent superficiellement à la « dégradation d'intelligence » couramment observée dans les scénarios à long contexte.

Mais l'équipe Zhipu n'a pas mis en ligne aucune optimisation réduisant la précision du modèle. L'anomalie provient-elle du modèle lui-même ou de la chaîne d'inférence ?

Après une analyse et un raisonnement répétés des journaux, ils ont trouvé un point d'entrée inattendu : les indicateurs de sampling spéculatif peuvent servir de signal de référence pour la détection d'anomalies.

L'échantillonnage par anticipation était à l'origine une technique d'optimisation des performances. D'abord, le modèle brouillon génère des jetons candidats, puis le modèle cible les valide et décide s'ils doivent être acceptés, augmentant ainsi l'efficacité du décodage sans modifier la distribution de sortie finale.

Faites d'abord qu'un petit modèle génère rapidement un ensemble de réponses, puis laissez le grand modèle sélectionner les bonnes, ce qui est à la fois rapide et précis.

L'équipe Zhipu a constaté que, lorsqu'une anomalie se produit, les deux indicateurs de l'échantillonnage prospectif présentent un modèle stable. Ils ont donc étendu l'échantillonnage prospectif d'une simple optimisation de performance à un signal de surveillance en temps réel de la qualité des sorties.

Lorsque spec_accept_length reste en dessous de 1,4 pendant une durée prolongée et que la longueur générée dépasse 128 jetons, ou que spec_accept_rate dépasse 0,96, le système interrompt automatiquement la génération en cours et redirige la requête vers l'équilibreur de charge pour un nouvel essai.

Ces deux chiffres agissent comme des indicateurs médicaux ; dès qu'ils présentent une anomalie, cela signifie que le modèle est « malade » et nécessite un redémarrage pour traitement.

L'utilisateur ne perçoit pas ce processus, mais un redémarrage a bien été effectué en arrière-plan.

La cause racine de l'anomalie est un conflit de réutilisation du KV Cache.

C'est comme dans une cuisine : à l'heure de pointe des repas, beaucoup de personnes viennent commander en même temps.

Le système doit enregistrer temporairement le contexte de chaque utilisateur, c'est-à-dire le KV Cache. Qu'est-ce que ce client a commandé tout à l'heure ? Souhaite-t-il moins de piment ou éviter la coriandre ? Un ou deux clients, c'est gérable, mais dès que le nombre de clients augmente, le serveur risque de se tromper.

MiniMax

Lors d'une forte charge, l'ordre de recyclage, de réutilisation et de lecture de certains caches est perturbé. En conséquence, le modèle peut récupérer le mauvais contexte, ce qui peut entraîner des sorties de caractères aléatoires, des répétitions ou des caractères rares.

Dans le moteur d'inférence, sous l'architecture de séparation PD, il existe une incohérence entre le cycle de vie des requêtes et le moment du recyclage et de la réutilisation du KV Cache. Sous une forte pression de concurrence, les conflits sont amplifiés, se traduisant côté utilisateur par des caractères aléatoires et des répétitions.

Ainsi, plusieurs demandes tentent d'accéder simultanément à un même bloc de mémoire, ce qui entraîne une corruption des données, et l'utilisateur voit du texte illisible.

The Zhipu team has identified this bug and fixed it.

De plus, ils ont identifié et corrigé au niveau du code source du framework d'inférence open source principal SGLang le problème de séquence de chargement manquante dans le module HiCache, connu sous le nom de read-before-ready.

La solution a été soumise à la communauté SGLang via la Pull Request #22811 et a été adoptée.

SGLang est un projet open source, dont le nom complet peut être compris comme un cadre d'inférence/service dédié aux grands modèles linguistiques. Ce n'est pas un grand modèle ni une entreprise d'IA, mais un ensemble de logiciels de base permettant d'exécuter efficacement les grands modèles.

ZhiPu a découvert un bogue de cache à haut débit lors de l'utilisation du cadre d'inférence open source SGLang.

Il n'a pas seulement corrigé le problème en interne ; Zhipu a également soumis le code de correction au projet open source SGLang.

Après validation et fusion par les maintaineurs du projet, ce correctif est devenu disponible dans la version publique, permettant à d'autres développeurs et entreprises utilisant SGLang d'en bénéficier par la suite.

What does this mean?

Si l'un des chemins de déploiement de Qwen utilise SGLang+HiCache, Alibaba bénéficiera également de la découverte et de la correction de ce problème par Zhipu.

C'est toujours la même phrase : le modèle n'a pas changé, mais grâce à des optimisations techniques, il devient plus intelligent lors de son utilisation.

02

Ce blog de Zhipu révèle en réalité un niveau plus profond.

Le faible coût de la génération de chatbots provient en grande partie du faible coût d'entraînement, une partie des jeux de données d'entraînement provenant de la distillation des modèles de pointe.

À l'ère des agents, cette méthode ne fonctionne plus.

Depuis le début de l'année, Anthropic et OpenAI ont progressivement fermé les entrées de distillation, interdisant explicitement l'utilisation des sorties de leurs modèles pour former des modèles concurrents. La voie de l'astuce par distillation devient de plus en plus étroite.

Mais le récit de la rentabilité des entreprises chinoises d'IA n'a pas faibli ; au contraire, le marché renforce cette histoire.

La raison en est que la définition du rapport qualité-prix a changé.

À l'ère des chatbots, contexte moyen de 55 K tokens, conversation unique, faible concurrence.

À l'ère des agents, contexte moyen de 70K+ tokens, tâches de longue durée (niveau 8 heures), haute concurrence et forte réutilisation des préfixes.

À l'ère des chatbots, l'unité de mesure du rapport qualité-prix de l'IA est simple : pour la même question, quel modèle est le moins cher et offre une réponse la plus proche du niveau de première ligne ?

L'industrie discute du prix par million de tokens, de la taille des paramètres du modèle et de la performance sur les classements.

À l'ère des agents, personne ne posait cette question, cet algorithme est inopérant.

L'utilisateur n'achète plus une simple réponse. Il achète le résultat d'une tâche complète.

Un agent de programmation doit lire le code, comprendre le contexte, planifier les étapes, appeler des outils, modifier des fichiers, exécuter des tests et réessayer en cas d'échec. Les tokens qu'il consomme ne constituent pas une augmentation par réponse unique, mais le bilan total d'un flux de travail.

OpenRouter, en tant que plus grande plateforme d'appels au monde, a vu le volume total de tokens traités chaque semaine passer de 6,4 billions la première semaine de janvier 2026 à 13 billions la semaine du 9 février, doublant en un mois.

Selon OpenRouter, la demande croissante d'appels dans la plage de texte de 100K à 1M correspond exactement aux scénarios de consommation typiques des flux d'agents.

Les utilisateurs ont passé d'un modèle d'IA « conversationnel » à un modèle « procédural ». Par conséquent, l'unité de rentabilité de l'IA est passée du « coût par token » au « coût par tâche ».

Cela entraîne le fait que certains modèles ont des tokens bon marché, mais en raison de leurs performances insuffisantes, ils échouent fréquemment lors de l'exécution des tâches ou ne répondent pas aux critères attendus, ce qui fait que leur agent n'est pas réellement bon marché.

Par exemple, pour une tâche de codage sur une période de 8 heures, une seule erreur de codage peut obliger à tout recommencer. Le gain sur le prix unitaire des jetons ne compense pas le temps perdu.

Le récit sur le rapport qualité-prix de l'IA chinoise est en cours de renforcement.

Avant, on disait : « Je fournis des réponses de même qualité, et je suis moins cher. » Maintenant, on dit : « Pour des tâches aussi complexes, je peux les exécuter à un coût inférieur. »

Les infrastructures open source deviennent également un nouveau fossé défensif pour l'IA en Chine.

SGLang, mentionné précédemment, en est un exemple. La capacité d'ingénierie de l'IA chinoise commence à s'étendre vers la communauté en amont.

La valeur de cette initiative ne réside pas seulement dans la correction d’un bogue par Zhipu, mais dans le fait que les entreprises chinoises d’IA transforment les défis réels de haute concurrence, de contextes longs et d’appels d’agents en capacités d’infrastructure publique.

Comme mentionné précédemment, lorsqu'un correctif est intégré dans un cadre open source comme SGLang, il ne sert plus uniquement les modèles de Zhipu. Toutes les équipes qui déployent des modèles de grande taille avec ce cadre ont la possibilité d'obtenir un cache plus stable, des coûts d'inférence réduits et une meilleure expérience pour les agents.

Les capacités des modèles peuvent être rattrapées, les prix peuvent être abaissés, mais une fois intégrée à l'écosystème open source, l'infrastructure devient une norme, une interface et une habitude de développement.

Celui qui a le plus tôt intégré son expérience en ingénierie dans ces systèmes sous-jacents aura plus de chances de s'imposer lors du prochain essor des applications d'IA.

03

Retour aux marchés financiers.

Les actions des entreprises liées aux grands modèles d'IA grimpent toutes en flèche, les capitaux sont-ils prêts à réévaluer les entreprises d'IA ? Que les marchés achètent-ils exactement ?

La réponse est que les marchés financiers paient pour le récit selon lequel les entreprises chinoises d’IA peuvent produire des performances proches des meilleures intelligences à un coût d’inférence plus faible.

Toujours avec les données d'OpenRouter.

La part de consommation de jetons des principales entreprises chinoises d'IA est passée de 5 % en avril 2025 à 32 % en mars 2026. La part des principaux modèles américains est passée de 58 % à 19 %.

La consommation de jetons de MiniMax, Zhipu et Alibaba a augmenté de 4 à 6 fois entre février et mars 2026 par rapport à décembre de l'année précédente.

En dehors de l'appel de jetons, l'IA chinoise établit une logique de croissance complètement différente de celle des géants étrangers.

Les principaux modèles étrangers vendent une prime de compétence.

Plus le modèle est puissant, plus chaque appel coûte cher ; les utilisateurs paient pour la meilleure intelligence. Claude, GPT-5 et Gemini s'orientent tous dans cette direction.

L'IA chinoise vend des « projets ».

Les performances du modèle approchent celles des modèles de première ligne, mais avec un prix, une latence et des seuils d'appel plus bas, ce qui le rend plus adapté aux besoins de la plupart des scénarios à haute fréquence.

Le rapport de Morgan Stanley indique que le prix d'entrée du modèle chinois est d'environ 0,3 dollar par million de tokens, tandis que certains produits similaires à l'étranger se situent autour de 5 dollars. Il existe un écart de plusieurs dizaines de fois entre les deux.

Lorsque l'IA passe d'un outil de test à un outil de productivité, le rapport qualité-prix déterminera directement la fréquence d'appel.

Plus le modèle est abordable, plus les entreprises oseront lui confier de nombreuses tâches telles que le service client, le développement logiciel, le marketing et l'analyse de données. Plus de tâches exécutées signifient une consommation accrue de tokens, ce qui permet à la plateforme de répartir ses coûts d'infrastructure.

MiniMax

Je pense que, à ce stade, il est possible de créer une dynamique de roue.

La première phase vise à attirer les développeurs et les entreprises grâce à des prix API plus bas et à une capacité plus proche de la première ligne.

Deuxième tour : un volume d'appels plus élevé apportera davantage de scénarios réels, forçant le modèle et le système d'inférence à continuer leur optimisation.

Troisième cercle, tel que décrit dans ce billet technique de Zhipu : optimisation technique pour réduire le coût par token et par tâche, permettant aux fabricants de continuer à baisser les prix, augmenter le volume, ou augmenter les prix dans des scénarios à forte valeur ajoutée.

Quatrième tour : lorsque la consommation de jetons devient le nouveau trafic de l'ère de l'IA, celui qui peut supporter un plus grand nombre de jetons à un coût plus faible se rapproche davantage du statut de plateforme du prochain stade.

Si seules les modèles sont réduits en prix, le marché craindra qu'il s'agisse de subventions et d'une guerre des prix, de plus en plus coûteuse, jusqu'à ce que le portefeuille de quelqu'un ne puisse plus tenir.

De plus, la guerre des prix ne peut soutenir une évaluation élevée.

Mais si la baisse de prix s'accompagne d'une augmentation du débit, d'une réutilisation du cache, d'une réduction du taux d'erreurs et d'une amélioration de l'efficacité de la planification, alors le prix bas n'est pas un sacrifice de profit au profit de la croissance, mais un espace de coûts libéré par les capacités techniques.

Le résultat de la guerre des prix et de cette optimisation technique, bien qu’ils rendent tous deux le modèle moins cher et semblent similaires sur les états financiers, sont très différents dans un modèle d’évaluation.

Le premier est une subvention, le marché le cote à un rabais. Le second est un obstacle technique, le marché le cote à un premium.

On peut enfin en tirer une conclusion.

Auparavant, la valorisation des entreprises d'IA était basée sur la capacité maximale de leurs modèles et sur qui se rapprochait le plus de l'AGI. Le marché payait pour « l'intelligence la plus forte », mais la définition de cette intelligence devenait de plus en plus floue, et chaque appel devenait de plus en plus coûteux.

À l'ère des agents, l'évaluation dépend encore du coût minimal. Il s'agit de voir qui pourra livrer intelligemment, de manière stable, économique et à grande échelle.

For those seeking the most advanced "intelligence," this may not be where Chinese AI excels.

Cependant, l'IA chinoise est la plus susceptible de faire des deux mots « intelligence » une infrastructure accessible à tous et à toutes les entreprises.

Mais le marché ne souhaite payer que les entreprises capables d'expliquer clairement leur logique.

Cet article provient du compte officiel WeChat « Lettre Board » (ID : wujicaijing), auteur : Miao Zheng