La version K2.6 de Moonshot et l'augmentation des prix considérées comme un pré-IPO

Article | Xiang Xian Zhi

Avant-hier soir, Moonshot a lancé Kimi K2.6 et a ajusté le prix d'entrée de l'API de 0,60 $ à 0,95 $ par million de tokens.

Augmentation de 58 %. Première hausse depuis le lancement de la série K2.

Mais il semble que personne ne prête attention à cela.

Il y a quatre mois, dans une lettre interne datée du dernier jour de 2025, Yang Zhilin a écrit que Moonshot « n’est pas pressé d’effectuer un IPO à court terme ». À cette époque, les dossiers de présentation de Zhipu et de MiniMax avaient déjà été déposés à la Bourse de Hong Kong, ce qui constituait clairement une distinction délibérée de position.

Il a également écrit dans cette lettre que les réserves de trésorerie de l'entreprise dépassent 1,4 milliard de dollars américains et que le tour C de 500 millions de dollars américains a été surabondamment souscrit — sous-entendant que le potentiel du marché primaire n'a pas encore été pleinement exploité, et qu'il n'y a pas d'urgence sur le marché secondaire.

Trois mois plus tard, Bloomberg a révélé qu'il avait commencé à contacter CICC et Goldman Sachs. Trois semaines plus tard, K2.6 a été lancé.

Une personne qui n'aime pas « l'urgence » a accompli en quatre mois ce qu'elle disait ne pas vouloir faire.

K2.6 n'est certainement pas la dernière publication de produit avant le listing de Moonshot. Mais cette version est la première présentation de Yang ZhiLin après le plan de listing de Moonshot.

Kimi n'a jamais publié une telle version de modèle

Kimi avait une série d'actions fixes pour publier ses modèles.

Publier des rapports techniques, ouvrir les poids sur GitHub, et se classer sur HuggingFace, puis attendre l'examen de la communauté technique. K1.5 cible l'approche d'inférence de o1, avec plus de détails techniques que de chiffres de benchmark ; K2 Thinking publie directement les poids sur HuggingFace pour permettre aux développeurs de lancer leurs propres tests. Ces actions sont adressées aux développeurs et chercheurs.

Le discours est celui habituel de la communauté technique : nous avons résolu quel problème, pourquoi notre approche est meilleure, et nous vous invitons à reproduire.

Les actions de K2.6 sont différentes.

Commençons par la hausse des prix. En termes de yuan, le prix d'entrée pour K2.6 est de 6,5 yuans par million de jetons (défaut de cache), contre 4 yuans pour K2.5. Le prix de sortie est passé de 21 yuans à 27 yuans. Le prix avec hit de cache est de 1,1 yuan.

Il s'agit d'une augmentation structurée. Bien que tous les niveaux affichent une hausse, la tranche de hit de cache connaît la plus faible augmentation — de 0,7 yuan à 1,1 yuan, soit 0,16 USD / million de tokens en dollars américains.

Ce 0,16 dollar est la clé pour comprendre cette hausse.

Pour les entreprises utilisant le même system prompt à long terme : l'assistant code, le cadre d'orchestration d'agents et le service client intelligent partagent un haut degré de réutilisation des préfixes, avec un taux de命中 du cache atteignant 75 % à 83 %. Moonshot a réservé pour ces clients un prix presque équivalent.

Pour les clients occasionnels dont les prompts varient à chaque fois, cette hausse de prix a entièrement retombé sur eux.

Il s'agit d'une tarification amicale destinée aux entreprises déjà liées à Kimi, et d'une tarification peu amicale destinée aux clients individuels encore en comparaison de prix. Les premiers sont les « clients institutionnels verrouillés » du récit de l'introduction en bourse, les seconds sont les « utilisateurs de la longue traîne » qui n'apparaissent jamais dans les présentations de roadshow. Moonshot comprend parfaitement qui sont ses actifs d'évaluation.

La structure de calcul de l'ère Agent diffère de celle de l'ère conversationnelle. Les modèles conversationnels impliquent des échanges de quelques dizaines de tokens, tandis que les agents consomment des milliers d'appels d'outils et des centaines de milliers de tokens. Dans les cas d'utilisation officiels de K2.6 — déploiement local sur Mac du modèle Qwen3.5 avec plus de 4 000 appels d'outils sur 12 heures, restructuration du moteur d'ordre open source exchange-core en 13 heures avec plus de 1 000 appels d'outils, et encore plus extrême : 5 jours d'exécution autonome pour la surveillance, les alertes et la réponse aux pannes — la consommation de tokens pour chacune de ces tâches est de plusieurs centaines, voire plusieurs milliers de fois supérieure à celle des scénarios conversationnels de l'ère K2.5.

Bien sûr, ce cas d'utilisation est destiné à illustrer les capacités de raisonnement à long terme, mais avec le cluster de 300 agents de K2.6 cette fois-ci, la consommation de tokens sera certainement énorme.

Au prix ancien de 0,60 $, un appel unique à cette tâche d'agent pourrait être déficitaire. À 0,95 $, les coûts d'inférence sont à peine couverts.

Ainsi, la hausse des prix n'est pas une question de confiance, mais une nécessité. Moonshot a levé au total 2,5 milliards de dollars, avec 1,4 milliard de dollars en trésorerie entre les séries C et C+. Toutefois, si la prochaine génération de K3 atteint réellement une échelle de 3 à 4 billions de paramètres, une seule session d'entraînement préliminaire pourrait consommer la moitié de ces fonds.

Sans augmentation des prix, les données de marge brute des derniers trimestres avant la cotation seront médiocres. Le prospectus doit divulguer la marge brute.

La face cachée de la lune

Cela aurait pu être présenté ouvertement — l'ère des agents nécessite un nouveau modèle de tarification. Mais Moonshot ne l'a pas dit. Parce que les utilisateurs finaux viennent juste de quitter l'ère gratuite de K2 Thinking, et leur dire « J'ai augmenté mes prix » n'est pas une bonne histoire produit.

C'est une histoire destinée à un autre public — Kimi dispose déjà d'une clientèle entreprise fidèle qui l'utilise même si c'est plus cher. (Par exemple, moi-même)

Le deuxième point est la comparaison de référence. Les références choisies officiellement par K2.6 sont GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro. Ce sont tous trois les précédents modèles phares.

La même semaine, Anthropic a lancé Claude Mythos, et Opus 4.7 vient tout juste de sortir — les deux sont une génération au-dessus d'Opus 4.6. K2.6 ne leur fait pas concurrence.

C'est en réalité un choix délibéré. Par rapport à Mythos, K2.6 se situe dans la catégorie des « poursuivants » ; par rapport à Opus 4.6, K2.6 se place dans le « premier échelon ». Une évaluation de 18 milliards de dollars nécessite ce dernier.

Kimi n'avait pas l'habitude de faire cela auparavant. Lors de la sortie de K2 Thinking, l'équipe officielle a publié directement tous les résultats des benchmarks, avec des performances bonnes et mauvaises, afin que les développeurs puissent en juger eux-mêmes. C'est la manière dont fonctionne la communauté technique — la communauté comprend vos forces et vos faiblesses, et est prête à accepter un modèle présentant des lacunes évidentes mais une trajectoire claire.

Non, le PPT de roadshow. Le PPT de roadshow doit contenir une conclusion compréhensible en 30 secondes par un gestionnaire de fonds : « Équivalent ou supérieur aux meilleurs modèles propriétaires internationaux ». Cette phrase est extraite du blog officiel de K2.6.

Le troisième point concerne le double système de cluster d'agents et d'open source. La version K2.6 a introduit une fonctionnalité appelée Claw Groups — un écosystème hétérogène d'agents où des agents sur différents appareils, avec différents modèles et différentes chaînes d'outils, fonctionnent ensemble dans un espace de collaboration, avec K2.6 agissant comme orchestrateur. 300 agents enfants en parallèle, 4 000 étapes de coordination, 5 jours d'exécution autonome.

Ces chiffres sont destinés aux clients professionnels, pas aux développeurs. Pour un développeur, « 300 agents en parallèle » n’a pas de sens pratique — il n’exécutera jamais 300 agents sur un projet local. Cette configuration n’est pertinente que pour un type de client : les grandes entreprises qui doivent automatiser l’ensemble de leurs processus à l’aide d’une matrice d’agents.

The story is about Salesforce, not HuggingFace.

En même temps, K2.6 est entièrement open source. Yang Zhilin a déclaré lors du forum de Zhongguancun le 26 mars que l'open source serait une victoire absolue.

Open source + enterprise-grade agent cluster, this is the middle ground between DeepSeek and Anthropic, with both modes equally represented. It sounds like a good story. But claiming both sides means proving yourself on both fronts.

Les marchés financiers ne se soucient pas de savoir si ces questions ont des réponses. Ils exigent simplement que chaque ligne ait une histoire.

Augmentation des prix, benchmarking, cluster d’agents — ces trois éléments, pris ensemble, partagent un point commun inhabituel : aucun n’est destiné à la communauté technique.

Le raisonnement sous-jacent de Kimi dans le passé était le suivant : si les développeurs aiment mon produit, les clients entreprises finiront par me suivre, et le marché financier le fera encore plus tard. Cette stratégie porte un nom : la sincérité technologique.

K2.6 Ne plus attendre. La hausse des prix est une déclaration directe du pouvoir de fixation des prix côté B, le positionnement anticipé par rapport à GPT-5.4 est une prise de position sur la valorisation, et les clusters d'agents et les Claw Groups sont des démonstrateurs pour les services aux entreprises.

Chaque point correspond à une question du PPT de présentation : Quelle est votre capacité de monétisation ? Où vous situez-vous par rapport à vos concurrents ? Quel est votre avantage concurrentiel B2B ?

Passer de la version Preview à la GA en seulement 8 jours suit la même logique. Les versions précédentes de la série K2 ont toutes traversé une période de prévisualisation de 2 à 3 mois, permettant à la communauté de tester, de fournir des retours et d’itérer suffisamment. K2.6 ne s’est pas accordé cet espace. Ce n’est pas que la technologie ait évolué plus rapidement, c’est que la fenêtre de temps ne nous attend pas.

IPO au second semestre 2026 ; selon le processus de la Bourse de Hong Kong, il faut prévoir 4 à 6 mois pour déposer le dossier, répondre aux questions, passer l'audition, effectuer la tournée de présentation, fixer le prix et respecter la période de calme. Lancer la tournée de présentation en septembre signifie que le produit doit être prêt en avril.

Pas de GA en avril, il n'y aura plus de fenêtre après cela.

K3 est vraiment la clôture finale

Mais K2.6 n'est pas non plus la meilleure carte que la face cachée de la lune peut présenter.

Un commentaire très mesuré figure dans le blog officiel : K2.6 est « la piste de roulement pour K3 ».

Codage sur 12 heures, cluster de 300 agents, compresseur de contexte — ce ne sont pas les formes finales de la série K2, mais des infrastructures de niveau d'exécution que de plus grands modèles de base peuvent supporter. Moonshot ne dépensera pas d'efforts pour faire fonctionner tout cela à moins d'être certaine qu'un modèle plus grand va consommer ces capacités.

Reddit avait précédemment diffusé des informations concernant K3, avec un objectif de taille de paramètres de 3 à 4 billions. Comparé à la taille des billions de la série K2, il s'agit d'un saut fondamental.

Si K3 peut lancer pendant la fenêtre de présentation — ce sera la vraie réponse. Le runway préparé par K2.6, K3 décolle.

La question est de savoir s’il est possible de rattraper le retard. Combien de temps faut-il pour entraîner un modèle de 3 à 4 billions de paramètres ? GPT-5 et Claude Opus 4.6 ont tous deux un cycle de pré-entraînement d’environ 6 à 9 mois, auxquels s’ajoutent quelques mois supplémentaires pour le post-entraînement et l’évaluation de la sécurité. La puissance de calcul actuelle de Moonshot — compte tenu de son partenariat avec Alibaba Cloud et de ses réserves de trésorerie actuelles — peut-elle réduire ce cycle à 5 à 6 mois ?

This bet was placed on K2.6.

Huit jours de prévisualisation jusqu'à la GA, le cluster d'agents passé de 100 à 300 en une seule opération, l'exécution à long terme augmentée de quelques centaines d'étapes à 4000 étapes — chaque action réduit le temps et crée de l'espace pour les possibilités de K3.

Si K3 peut être publié avant août et septembre — ce sera le clou de la tournée de présentation.

Si vous ratez le coche — K3 devient un modèle « à publier après le lancement », et K2.6 doit assumer seul toute la narration de valorisation.

La face cachée de la lune parie sur sa capacité à y parvenir.

Qu'est-ce qui ancre une évaluation de 18 milliards de dollars ?

Retour à l'évaluation.

Il y a trois mois, la valorisation de Moonshot était de 4,3 milliards de dollars, il y a deux mois de 5,5 milliards de dollars, et aujourd'hui de 18 milliards de dollars.

Ce n’est pas que Moonshot ait quadruplé sa valeur au cours des trois derniers mois. C’est après le déploiement de Zhipu et de MiniMax que la valeur a augmenté de quatre fois, soulevant ainsi le plafond de tout le secteur. La capitalisation boursière de Zhipu s’élève à 305 milliards de dollars de Hong Kong, celle de MiniMax à 309,2 milliards de dollars de Hong Kong — les deux dépassent le pic historique de SenseTime.

La logique de la capitalisation boursière de ces deux entreprises n'est pas « ce que la technologie de la prochaine génération peut accomplir », mais « dans le marché des actions de Hong Kong, à quel point les actifs liés à l'IA peuvent-ils être valorisés ? »

La valorisation de 18 milliards de dollars de Moonshot est ancrée sur le même fait. Il ne s'agit plus de prouver qu'elle est la meilleure entreprise chinoise d'IA, mais qu'elle est une entreprise chinoise d'IA qui peut être évaluée.

K2.6 Toutes les actions — hausse des prix, benchmark, cluster d'agents, open source en deux voies — répondent à cette proposition.

Mais il y a une chose que K2.6 n'a pas encore démontrée : les utilisateurs finaux de Kimi sont-ils prêts à payer pour la version augmentée de K2.6 ? Les abonnés payants vont-ils migrer vers DeepSeek ou MiniMax ? Parmi les clients entreprises, combien utilisent réellement Claw Groups, et combien n'ont signé qu'un POC ?

Ces chiffres sont ceux que les investisseurs poseront certainement lors de la présentation. K2.6 ne peut pour l'instant que présenter le produit. Sa capacité à devenir des chiffres dépend des trois prochains mois.

Lors de leur introduction en bourse, ZhiPu a soumis un prospectus montrant encore des pertes, tout comme MiniMax. Les investisseurs ont accepté cette histoire parce que, à l'époque, le grand récit des « actifs chinois d'IA » venait tout juste de s'ouvrir. Moonshot est arrivé six mois plus tard. Pour le même problème, ZhiPu et MiniMax peuvent dire : « Nous validons », tandis que Moonshot doit dire : « Nous monétisons. »

Cette pression repose entièrement sur les trois mois entre K2,6 et K3.

Donc, revenons à la question initiale : K2.6 est-il le dernier roadshow avant le lancement de MoonDark ?

Non.

Si K3 rattrape la fenêtre de roadshow, alors K3 est véritablement la clôture. K2.6 n’est que la piste préparée pour lui. Si K3 ne rattrape pas la fenêtre de roadshow, K2.6 devra porter seul toute la narration de la cotation. Ce sera alors la première présentation que Yang ZhiLin sera forcé de lancer plus tôt que prévu.

Aucun de ces résultats n'était ce que Yang ZhiLin voulait il y a quatre mois.

Mais tout ce qui s'est produit au cours de ces quatre mois — le lancement de Zhipu MiniMax, la hausse du plafond d'évaluation, la réduction de la fenêtre opportune — a obligé une personne qui n'aime pas la précipitation à se hâter.

K3 a été lancé en deuxième position.