La stratégie de 10 billions de dollars de DeepSeek : Open Source et écosystème d'hardware IA

La stratégie ambitieuse de 10 billions de USD de DeepSeek

Auteur original : @bookwormengr

Peggy, BlockBeats

Note de la rédaction : Au cours de la dernière année, les discussions autour de DeepSeek se sont principalement concentrées sur les performances du modèle, sa stratégie open source et la guerre des prix. Mais ne comprendre DeepSeek que par le prisme de « vendre ou non un abonnement », « posséder ou non la multimodalité », « pouvoir ou non agir comme agent de codage », c’est sous-estimer ce qu’il cherche véritablement à transformer.

Cet article propose un jugement plus radical : l'objectif de DeepSeek n'est peut-être pas de générer des revenus à court terme via la couche application, mais de redéfinir la structure des coûts de l'entraînement et de l'inférence de l'IA grâce à une série d'innovations architecturales fondamentales, favorisant indirectement la naissance d'un nouvel écosystème matériel. De MoE et MLA à DSA, CSA, mHC et Engram, puis Dual Path et TileLang, la stratégie technologique de DeepSeek tourne toujours autour d'une question centrale : comment faire fonctionner des modèles plus puissants avec moins de puissance de calcul haut de gamme, alors que les HBM, les processus avancés, le conditionnement et l'écosystème CUDA sont limités.

Ce qui mérite le plus d’attention dans cet article, ce n’est pas « si DeepSeek peut générer des centaines de millions de dollars grâce à son API ou à des abonnements », mais plutôt s’il est en train de lier les capacités du modèle, l’architecture mémoire et l’écosystème matériel national. La compression du KV Cache réduit la dépendance à l’égard du HBM, le NAND et les SSD peuvent prendre en charge le cache à long terme, le LPDDR peut être utilisé pour le chargement en flux des poids et le stockage des Engrams, tandis que TileLang cherche à affaiblir le fossé de CUDA. Si ces innovations continuent de se répandre, les bénéficiaires ne seront pas seulement DeepSeek lui-même, mais aussi les secteurs du stockage, des ASIC, des GPU, des puces réseau et toute la chaîne d’infrastructure IA.

Bien sûr, les jugements concernant un écosystème industriel de 10 billions de dollars et une évaluation de 1 billion de dollars restent fortement spéculatifs. Mais ils offrent un chemin essentiel pour comprendre DeepSeek : l'open source ne signifie pas nécessairement renoncer à la commercialisation, et le prix bas ne se limite pas à des subventions sur le marché. Pour DeepSeek, le véritable business pourrait ne pas se situer au niveau des applications, mais dans la possibilité de rendre davantage de matériel utilisable et de permettre une offre d'IA à moindre coût. Autrement dit, ce qu'il vendrait n'est peut-être pas le modèle lui-même, mais la faisabilité de l'infrastructure IA de prochaine génération.

The following is the original text:

CXMT

Have you ever wondered how DeepSeek plans to make money—and possibly make a lot of it?

Il n’a pas lancé de programme d’abonnement compétitif pour la programmation, contrairement à GLM, MoonShot et MiniMax ; il ne dispose pas non plus de modèles multimodaux, audio ou vidéo. Jusqu’à présent, il ne possède même pas son propre harness, c’est-à-dire le cadre d’exécution externe pour l’appel de modèles, l’intégration d’outils et l’exécution de tâches — bien qu’ils aient récemment commencé à recruter des postes associés afin de mettre en place ce système.

En parallèle, DeepSeek semble également fermement engagé dans l'open source, voire prêt à partager publiquement ses « secrets ». N'est-ce pas fou ? Ne s'agit-il pas de brûler de l'argent à vide ? Les investisseurs préparant à lui investir 10 milliards de dollars, sont-ils en train de jeter leur argent aux égouts ?

Je pense personnellement que la réponse est exactement l'inverse.

Ensuite, je vais présenter quelques observations basées sur ce que DeepSeek a déjà accompli jusqu'à présent, et analyser la stratégie qu'il semble suivre. L'objectif de Liang Wenheng, PDG de DeepSeek, dépasse probablement la simple concurrence entre modèles. Il vise peut-être un prix bien plus grand : DeepSeek a l'opportunité d'atteindre une valorisation de 1 000 milliards de dollars tout en favorisant la naissance d'une nouvelle industrie d'une envergure de 10 000 milliards de dollars.

CXMT

TechInAsia rapporte le dernier tour de financement de DeepSeek

Révisiter le « voyage du héros » de DeepSeek

DeepSeek a toujours fait face aux vents contraires. Il n’a pas choisi de publier continuellement des modèles légèrement plus puissants, puis de les commercialiser rapidement sous forme d’applications directement rentables, comme des abonnements de programmation. Le 27 janvier 2025, j’avais publié un tweet largement partagé décrivant ce que je voyais comme le « voyage du héros » de DeepSeek. Aujourd’hui, cette histoire est devenue encore plus intéressante.

Alors que d'autres tentent de construire des modèles denses, DeepSeek a choisi des modèles à mélanges d'experts (Mixture of Experts, MoE), plus difficiles à entraîner.

Ils ont adopté une approche basée sur les principes premiers pour développer le nouvel algorithme GRPO, destiné à remplacer l'algorithme PPO, alors dominant mais plus coûteux à implémenter.

Ils ont découvert que l'apprentissage par renforcement à partir de récompenses vérifiées (Reinforcement Learning from Verified Rewards, RLVR) est la stratégie clé pour améliorer la capacité de raisonnement des modèles.

Ils ont également proposé une stratégie simple de décodage par prédiction multi-token, tout en rendant les signaux d'entraînement plus denses.

Ils ont optimisé la chaîne de traitement « ZERO bubble » pour améliorer l'efficacité d'utilisation des ressources GPU limitées.

Ils ont lancé un équilibreur de charge expert, rendant le déploiement de modèles MoE plus facile pour tous. En particulier, grâce à la stratégie « Wide Expert Parallel », les modèles peuvent être servis avec des batchs plus importants, réduisant considérablement le coût d'inférence.

Ils ont développé des mécanismes tels que MLA, DSA, CSA et HCA pour réduire la nécessité de KV Cache et maintenir aussi proche que possible de la constance les besoins en calcul augmentant avec la longueur du contexte.

Ils ont inventé Engram, échangeant de la mémoire contre une efficacité de calcul.

Ils ont également inventé mHC, permettant une formation stable même lors de l'augmentation de la taille du modèle. Il existe de nombreux autres exemples similaires.

Dans la structure narrative la plus répandue, le « voyage du héros », le héros ne décide jamais au départ où le mènera son voyage. Il apprend au fil du chemin, découvrant progressivement sa véritable mission grandiose et la réalisant malgré d'innombrables obstacles. Il rencontrera de nombreux sceptiques, mais choisira de les ignorer. Il rencontrera aussi de nombreux acteurs malveillants. Il possède des défauts ou des faiblesses évidents, mais finira par les surmonter pour accomplir sa mission. Face à des défis apparemment insurmontables, il trouvera des alliés et apprendra à utiliser sagement des ressources limitées et précieuses. C'est précisément cela qui pousse le public à soutenir le héros. C'est aussi ce qui a fait de DeepSeek un modèle de fidélité, de respect mondial et d'opposition.

Comme je le détaillerai ci-dessous, DeepSeek a déjà parcouru un long chemin sur ce chemin et a progressivement découvert sa destinée ultime : son objectif n'est pas de vendre des abonnements de programmation, mais de promouvoir un écosystème chinois d'IA matérielle d'une valeur de 10 000 milliards de dollars et d'atteindre une évaluation de 1 000 milliards de dollars. En cours de route, elle créera également des opportunités pour de nombreux nouveaux entrants dans l'écosystème matériel occidental.

CXMT

Commencez par quelques calculs intéressants sur le KV Cache

Veuillez consulter ce tweet récent de @SemiAnalysis_ :

CXMT

DeepSeek a déjà résolu ce problème mieux que quiconque !

Commençons par effectuer un peu de calculs intéressants sur le KV Cache. Ne vous inquiétez pas, même si vous n'aimez pas les mathématiques. Nous utiliserons le calculateur KV Cache récemment publié pour voir combien d'économies de KV Cache DeepSeek V4 Pro permet, et le comparer aux derniers modèles GLM et Qwen.

Je calcule ici avec une longueur de contexte de 1 million, en supposant une précision KV de 8 bits et une précision de l'indexeur de 16 bits. Vous pouvez également ouvrir vous-même cette calculatrice : https://kvcache.ai/tools/kv-cache-calculator/

CXMT

Vous pouvez également ouvrir votre calculatrice pour essayer !

Avec une longueur de contexte de 1 million :

·DeepSeek V4 nécessite seulement 5,48 Go de HBM ;

·GLM-5 nécessite 60 Go de HBM ;

·Qwen3-235B-A22B nécessite jusqu'à 89 Go de HBM.

Il faut noter que :

·DeepSeek est un modèle de 1,6 billion de paramètres ;

·GLM-5 compte environ 700 milliards de paramètres et intègre déjà MLA et DSA de DeepSeek, mais n'utilise pas encore le mécanisme d'attention compressé le plus récent ;

·Qwen3-235B-A22B compte environ 235 milliards de paramètres et utilise le mécanisme d'attention GQA.

DeepSeek a apporté des contributions fondamentales pour alléger la pression mémoire. Si ce type d'innovation est largement adopté, il réduira considérablement le coût d'exécution des agents à long cycle et débloquera la prochaine vague de nouveaux scénarios d'utilisation.

CXMT

Comparaison de l'utilisation du cache KV pour 1 million de tokens en contexte et la taille du modèle

La méthodologie derrière la « folie »

La raison pour laquelle le KV Cache peut être si réduit tout en ne sacrifiant pas la qualité du modèle est que DeepSeek peut offrir un cache de longue durée à un prix extrêmement bas — inférieur à 3 % du prix de命中 de Sonnet 4.6 — et DeepSeek peut conserver le cache pendant plusieurs heures.

Pour les tâches à long cycle, un KV Cache plus petit permet de le décharger plus économiquement sur un SSD et de le recharger lorsqu'il est nécessaire, réduisant ainsi la dépendance à l'HBM. Du point de vue de l'industrie chinoise du matériel IA, l'HBM est non seulement difficile à obtenir, mais aussi l'un des types de mémoire les plus complexes à fabriquer.

De plus, DeepSeek a développé une technologie permettant de charger plus rapidement le KV Cache à partir du SSD, comme décrit dans son article Dual Path.

CXMT

DeepSeek V4 compresse le KV Cache dans une mesure très importante, à tel point que cette étape pourrait même ne plus être nécessaire.

Qui bénéficie le plus directement de la compression du KV Cache ?

Qui fournit en grande quantité des SSD ? N'oubliez pas que YMTC (Yangtze Memory Technologies) est en train de devenir un géant dans le domaine du 3D NAND. Le NAND peut aider DeepSeek à éviter les calculs répétés KV. À son tour, DeepSeek crée un énorme marché pour le NAND et les SSD — ce qui profitera non seulement à Yangtze Memory Technologies, mais aussi à d'autres fabricants concernés.

CXMT

Cependant, il ne s'agit pas seulement de NAND et de SSD.

La mémoire LPDDR présente également un énorme potentiel. Elle peut être utilisée pour stocker les poids du modèle et les transmettre en streaming vers la HBM lorsqu'ils sont nécessaires, soulageant ainsi la pression sur la HBM. L'équipe SGLang a publié un excellent blog décrivant cette approche. Le schéma ci-dessous illustre le fonctionnement de cette solution.

Bien que DeepSeek n’ait pas été spécifiquement conçu pour cette solution, son architecture MoE, son nombre élevé de modèles experts et ses poids en 4 bits facilitent sa mise en œuvre.

CXMT

Ce schéma illustre comment la mémoire peut être utilisée et comment les poids du modèle sont transférés en flux depuis la LPDDR vers la HBM. Il est fortement recommandé de lire le blog de SGLang.

This innovation, when combined with an extremely compact and lossless KV Cache, will significantly reduce the demand for HBM.

Alors, qui en Chine produit des LPDDR ? La réponse est CXMT, c’est-à-dire ChangXin Memory Technologies. Elles sont seulement d’environ une demi-génération en retard en termes de vitesse LPDDR, et d’une génération en retard en densité, ce qui ne représente pas un écart important.

En plus d'une offre suffisante de NAND, l'écosystème chinois de l'IA disposera bientôt d'une offre suffisante de LPDDR. Cela soulagera-t-il la pression sur la puissance de calcul ? La réponse est : oui. Continuez à lire.

CXMT

Une utilisation intelligente de la mémoire peut également alléger la charge sur le GPU / ASIC

Utiliser le NAND pour stocker le KV Cache est facile à comprendre : cela permet de conserver le KV Cache plus longtemps, réduit la pression sur le HBM et évite le recalcul du KV Cache, allégeant ainsi la charge de calcul sur le GPU et l'ASIC.

Alors, LPDDR peut-il également jouer un rôle similaire ? En plus d’être un emplacement de stockage permettant de diffuser les poids vers le HBM « à la demande et en temps réel », peut-il réduire davantage la charge de calcul ?

La réponse est : oui.

LPDDR peut être utilisé pour stocker une grande quantité de contenus appelés Engram. Dans l'article de DeepSeek sur les Engram, ils indiquent que les MoE peuvent étendre la capacité du modèle grâce au calcul conditionnel, mais que le Transformer lui-même manque d'un mécanisme natif de « recherche de connaissances ». Par conséquent, le Transformer est souvent contraint de simuler inefficacement le processus de recherche par le calcul.

Pour résoudre ce problème, DeepSeek a introduit le module Engram. Il modernise l'embedding N-gram classique en le transformant en un mécanisme de recherche O(1) basé sur le hachage, créant ainsi un chemin de sparsification complémentaire qu'ils appellent mémoire conditionnelle.

This approach saves computation but requires memory to hold the embedding table, which itself can be very large.

En substance, il s'agit d'une solution typique « échange mémoire contre calcul ». Mais son insight clé réside dans le fait que, du point de vue du coût de lecture de chaque bit de données, le côté « mémoire » est beaucoup moins coûteux — une recherche LPDDR est bien moins chère qu'une passe avant complète à travers plusieurs couches de Transformer. Ainsi, à grande échelle, cet échange est extrêmement avantageux.

C'est ainsi que DeepSeek sacrifie une partie de la mémoire pour gagner en efficacité de calcul.

CXMT

Les compromis méritent d'être faits

En l'absence d'une densité de transistors sur puce équivalente et d'EUV, les GPU et ASIC chinois sont probablement sur le long terme en retard en termes de FLOPs bruts par rapport aux GPU occidentaux. Ils présentent également un écart significatif en matière de packaging avancé. Ces compromis sont donc très justifiés, surtout compte tenu de la capacité de la Chine à produire en grande quantité des mémoires NAND et LPDDR.

Revoir la stratégie à long terme de DeepSeek

À en juger par ces innovations, l'objectif de DeepSeek ne semble pas d'engranger quelques centaines de millions de dollars de bénéfices à court terme. De nombreuses décisions passées en témoignent : jusqu'à présent, il n'existe toujours pas de modèle multimodal, pas de modèle vocal, et encore moins de modèle vidéo.

Ce à quoi il participe véritablement, c’est un jeu à long terme, exigeant de la patience, pouvant atteindre une échelle de 10 billions de dollars : favoriser la formation d’un écosystème alternatif de matériel IA.

Cela vise non seulement à faire des fabricants chinois de mémoire des acteurs clés sur le marché chinois et mondial du matériel IA, mais aussi à réduire fondamentalement les besoins en ressources, rendant l'entraînement et le service des modèles IA plus rentables. Ainsi, de nombreux fabricants de GPU, d'ASIC et de puces réseau ont l'opportunité de devenir des options viables.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the new generation of hardware manufacturers.

Tous les signes sont déjà apparus. Revenons en détail sur les innovations proposées par DeepSeek jusqu'à présent :

1. Le modèle mixte d'experts (MoE) et MLA introduits dans DeepSeek V2

DeepSeek a introduit MoE et MLA dans V2. MoE réduit la quantité de calcul nécessaire pour former des modèles à haute intelligence d’environ 40 % à 50 % ; MLA réduit le KV Cache de 90 %.

Cela rend le déchargement du cache KV sur le SSD assez efficace.

Ces idées sont apparues pour la première fois dans l'article de DeepSeek publié en mai 2024 sur DeepSeek V2. Par la suite, elles ont également posé les bases de l'entraînement de DeepSeek V3. À l'époque, DeepSeek avait entraîné un système aux performances proches de celles des modèles propriétaires en n'utilisant que 2048 GPU H800 aux performances réduites.

CXMT

2. DSA : introduit dans DeepSeek V3.2 Exp pour réduire la charge de calcul dans les scénarios à long contexte tout en atténuant la pression sur la bande passante HBM.

Le rôle essentiel de DSA est de garantir que la charge de calcul ne augmente pas continuellement avec la longueur du contexte. Consultez le graphique ci-dessous : à mesure que la longueur du contexte augmente, le temps de traitement de DeepSeek-V3.2 reste globalement stable.

CXMT

3. mHC : proposé par DeepSeek dans l'article « mHC: Manifold-Constrained Hyper-Connections » de décembre 2025.

mHC est une innovation de DeepSeek au niveau de l'architecture globale, qui redéfinit la manière dont les informations circulent entre les couches Transformer.

Par le passé, depuis ResNet, les modèles utilisaient généralement des connexions résiduelles standard, soit x + F(x). La méthode de mHC consiste à étendre le flux résiduel en plusieurs canaux d'information parallèles et à permettre au modèle d'effectuer un mélange appris entre ces canaux. L'élément clé réside dans la contrainte de la matrice de mélange en tant que matrice bistochastique, c'est-à-dire en la limitant au polytope de Birkhoff par projection de Sinkhorn-Knopp. Cela garantit mathématiquement que, quel que soit la profondeur du modèle, l'amplitude du signal reste stable.

Cela résout le problème d'instabilité catastrophique rencontré précédemment par les Hyper-Connections non contraintes. Les Hyper-Connections, initialement proposées par ByteDance, voient la amplification du signal exploser jusqu'à 3000 fois à une échelle de 27 milliards de paramètres sans contraintes, entraînant finalement un échec complet de l'entraînement.

Le coût de calcul de mHC est faible : il n'ajoute qu'un surcoût d'environ 6,7 % au temps d'entraînement réel, car il ne modifie pas les FLOPs des couches d'attention ou des couches FFN, mais change uniquement la manière dont les sorties de ces couches sont routées entre les couches.

Mais les gains de performance sont assez nets : avec une taille de 27 milliards de paramètres, mHC améliore ses résultats de 7,2 points sur les tâches d'inférence BIG-Bench Hard, de 3,2 points sur DROP, de 2,8 points sur GSM8K en mathématiques, et de 1,4 points sur MMLU en connaissances générales. Ces améliorations sont obtenues avec la même taille de modèle et un budget de calcul presque identique.

En substance, mHC permet une intelligence par paramètre plus élevée en offrant au réseau une topologie de routage inter-couches plus riche et plus expressive, avec une augmentation quasi nulle des FLOPs supplémentaires.

CXMT

mHC est une architecture complexe, mais elle permet un processus d'entraînement plus stable et une intelligence plus élevée par paramètre.

4. CSA, HSA : DeepSeek a été introduit dans V4 en avril 2026.

L'objectif de la CSA et de la HSA est de réduire encore de 90 % les besoins en KV Cache en compressant les tokens KV, tout en réduisant considérablement les FLOPs requis, afin de soulager à la fois la HBM et les GPU/ASIC.

CXMT

5. Engram : introduit par DeepSeek au premier trimestre 2026, il échange en quelque sorte de la mémoire, à savoir de la mémoire LPDDR, contre une efficacité de calcul.

Comme le montre le tableau détaillé ci-dessous, Engram offre une amélioration significative des performances avec le même budget de paramètres total.

CXMT

6. Engram : introduit par DeepSeek au premier trimestre 2026, il échange en quelque sorte de la mémoire, à savoir de la mémoire LPDDR, contre une efficacité de calcul.

Comme le montre le tableau détaillé ci-dessous, Engram offre une amélioration significative des performances avec le même budget de paramètres total.

CXMT

C'est une recommandation que DeepSeek a partagée avec les fabricants de matériel dans son article V4. Je suis certain qu'ils ont fourni encore plus de retours lors d'échanges en personne.

7. L'investissement dans TileLang pointe également dans la même direction : DeepSeek ne cherche pas seulement à résoudre ses propres goulets d'étranglement en puissance de calcul, mais à faire émerger un écosystème matériel chinois capable de rivaliser avec les écosystèmes occidentaux.

Avec TileLang, les développeurs peuvent écrire un kernel une seule fois, c’est-à-dire le code de base utilisé pour les calculs, puis le faire fonctionner avec succès sur plusieurs plateformes matérielles, à condition que ces plateformes disposent déjà d’un backend TileLang correspondant.

Je prévois que d'autres laboratoires chinois d'IA rejoindront progressivement. Cela aidera les fabricants chinois de matériel à répondre de manière indirecte à ce qu'on appelle le « fossé CUDA ». En même temps, cela libérera davantage le potentiel des matériels occidentaux, comme AMD.

Il convient de noter que de nombreuses plateformes chinoises de matériel IA offrent déjà une compatibilité CUDA ou une couche de traduction CUDA. Par exemple, Moore Threads, Musen, Biren et TianShu ZhiXin sont des fabricants de puces chinois qui réalisent une haute compatibilité CUDA via des couches de traduction. Par conséquent, théoriquement, elles n'ont pas nécessairement besoin de TileLang.

CXMT

Apprentissage par renforcement à grande échelle et RSI

À mesure que DeepSeek accède à davantage de sources de puissance de calcul, c’est-à-dire à une plus grande variété de matériel disponible, tout en voyant sa propre demande en ressources de calcul diminuer, il peut entreprendre des projets d’entraînement plus ambitieux, en particulier l’entraînement par renforcement.

L'apprentissage par renforcement nécessite de générer de nombreuses trajectoires, soit des milliers de billions de tokens. Ce processus devient rapidement extrêmement coûteux. En outre, pour former un modèle avec une longueur de contexte d'un million, il faut générer des trajectoires de la même longueur. Seule une formation sur de telles trajectoires extrêmement longues permet de prendre en charge véritablement les tâches à long terme.

En outre, avec l'augmentation des options matérielles, DeepSeek pourra accéder à davantage de ressources matérielles, ce qui stimulera la recherche automatisée, également appelée RSI. La RSI désigne la capacité de l'IA à concevoir et à exécuter ses propres expériences. Cette approche implique un grand nombre d'essais et d'erreurs, ce qui fait rapidement augmenter les coûts. Toutefois, la RSI est essentielle pour explorer l'espace complet des conceptions de modèles. Avant d'atteindre l'AGI, puis ultérieurement l'ASI, DeepSeek doit posséder la capacité de RSI.

Ce que DeepSeek fait aujourd'hui, l'ensemble de l'industrie suivra demain

Les innovations de DeepSeek dans les domaines des modèles mixtes d'experts, MLA, DSA, etc., ont été progressivement adoptées par d'autres laboratoires d'IA à la fois mondiaux et en Chine.

Par exemple, ZAI, le développeur de la série de modèles GLM, utilise MLA et DSA. Kimi, également connu sous le nom de Moonshot, adopte également MLA et n'hésite pas à déclarer que son architecture est basée sur l'architecture DeepSeek. À l'inverse, DeepSeek utilise également l'optimiseur Muon, qui a été initialement adopté par Kimi (Moonshot) dans le cadre de formations à grande échelle.

Il faut noter que :

MoE a été initialement proposé par Google en 2017, avec Noam Shazeer comme auteur clé. La contribution de DeepSeek réside dans l'application à grande échelle de MoE et dans l'invention de ses propres techniques associées.

Muon, soit l'optimiseur MomentUm Orthogonalized by Newton-Schulz, a été proposé à la fin de l'année 2024 par le chercheur en apprentissage automatique Keller Jordan. L'équipe Kimi (Moonshot) est la première à l'avoir utilisée pour un entraînement à grande échelle.

Et le problème de faire des profits ?

Nous pouvons examiner l'exemple intéressant d'OpenAI.

OpenAI a obtenu des warrants/options pour acheter des actions d'AMD et de Cerebras à un prix réduit, ces droits étant liés à des jalons de consommation de puissance de calcul. Pour AMD et Cerebras, il s'agit d'un accord très avantageux, car une fois qu'OpenAI s'engage à utiliser leur matériel, la probabilité de leur succès à long terme augmente considérablement.

AMD a publié le passage suivant :

Dans le cadre de l'accord, afin de mieux aligner les intérêts stratégiques des deux parties, AMD a délivré à OpenAI des warrants lui permettant d'acheter jusqu'à 160 millions d'actions ordinaires d'AMD, qui s'acquerront progressivement selon la réalisation de jalons spécifiques. Le premier lot sera acquis à l'achèvement du déploiement initial de 1 gigawatt, et les lots suivants s'acquerront progressivement à mesure que les achats augmenteront jusqu'à 6 gigawatts. Les conditions d'acquisition sont également liées à la réalisation par AMD d'objectifs de prix d'action spécifiques, ainsi qu'à la réalisation par OpenAI des jalons techniques et commerciaux nécessaires au déploiement à grande échelle d'AMD.

CXMT

Je prévois que DeepSeek conclura également des accords similaires avec de nombreux fournisseurs chinois de mémoire, ASIC, CPU et pile technologique réseau, et collaborera étroitement avec eux pour permettre à leurs piles matérielles de gérer des charges de travail IA de pointe.

Étant donné que la capitalisation boursière totale des actions IA, y compris celles des alliés occidentaux et d'Asie de l'Est, dépasse déjà 10 billions de dollars, cette approche « d'obtenir des retours sur investissement par la coopération » permettra à DeepSeek d'aider la Chine à construire une industrie tout aussi massive et d'y obtenir sa part, réalisant ainsi une évaluation de 1 billion de dollars.

Cela permettra non seulement à DeepSeek de gagner bien plus d'argent que grâce aux abonnements aux applications traditionnelles, mais aussi de réaliser son objectif de « rendre l'IGA accessible à tous ». Liang Wenheng est un fervent admirateur de Jim Simons et un acteur financier suffisamment intelligent pour ne pas manquer ce point.

Si tu regardes en arrière tout ce que DeepSeek a accompli jusqu'à présent, cette seule explication est la plus plausible.

CXMT

Ce sont les actions clés en IA. Les hyperscalers, c’est-à-dire les grands fournisseurs de cloud, ainsi que de nombreuses autres entreprises connexes, ne sont pas encore incluses sur le graphique.

Lien original