La stratégie de DeepSeek : construire un écosystème d'infrastructures IA de 10 billions de dollars

La stratégie ambitieuse de 10 billions de USD de DeepSeek

Auteur original : @bookwormengr

Peggy, BlockBeats

Note de la rédaction : Au cours de la dernière année, les discussions autour de DeepSeek se sont principalement concentrées sur les performances du modèle, sa stratégie open source et la guerre des prix. Mais ne comprendre DeepSeek que par le prisme de « vendre ou non un abonnement », « possède-t-il la multimodalité » ou « peut-il agir comme agent de codage », c’est sous-estimer ce qu’il cherche véritablement à transformer.

Cet article propose un jugement plus radical : l'objectif de DeepSeek n'est pas nécessairement de générer des revenus à court terme via la couche application, mais plutôt de redéfinir la structure des coûts de l'entraînement et de l'inférence de l'IA grâce à une série d'innovations architecturales fondamentales, favorisant indirectement la naissance d'un nouvel écosystème matériel. De MoE et MLA à DSA, CSA, mHC et Engram, puis Dual Path et TileLang, la stratégie technologique de DeepSeek tourne toujours autour d'une question centrale : comment faire fonctionner des modèles plus puissants avec moins de puissance de calcul haut de gamme, alors que les HBM, les procédés avancés, le packaging et l'écosystème CUDA sont limités.

Ce qui mérite le plus d’attention dans cet article, ce n’est pas « si DeepSeek peut générer des centaines de millions de dollars grâce à son API ou à ses abonnements », mais plutôt si elle est en train de lier les capacités du modèle, l’architecture mémoire et l’écosystème de matériel national. La compression du KV Cache réduit la dépendance vis-à-vis du HBM, le NAND et les SSD peuvent prendre en charge le cache à long terme, le LPDDR peut être utilisé pour le chargement en flux des poids et le stockage des Engrams, tandis que TileLang cherche à affaiblir le fossé de CUDA. Si ces innovations se propagent continuellement, les bénéficiaires ne seront pas seulement DeepSeek elle-même, mais aussi les secteurs du stockage, des ASIC, des GPU, des puces réseau et toute la chaîne d’infrastructure IA.

Bien sûr, les jugements concernant un écosystème industriel de 10 billions de dollars et une évaluation de 1 billion de dollars restent fortement spéculatifs. Mais ils offrent un chemin essentiel pour comprendre DeepSeek : l'open source ne signifie pas nécessairement renoncer à la monétisation, et le prix bas ne se limite pas à des subventions sur le marché. Pour DeepSeek, le véritable commerce pourrait ne pas se situer au niveau des applications, mais dans la possibilité de rendre plus de matériel utilisable et de permettre une offre d'IA à moindre coût. Autrement dit, ce qu'il vendrait n'est peut-être pas le modèle lui-même, mais la faisabilité des infrastructures AI de la prochaine génération.

The following is the original text:

Have you ever wondered how DeepSeek plans to make money—and possibly make a lot of it?

Il n’a pas lancé de programme d’abonnement compétitif pour la programmation, comme GLM, MoonShot et MiniMax ; il ne dispose pas non plus de modèles multimodaux, audio ou vidéo. Jusqu’à présent, il n’a même pas encore son propre harness, c’est-à-dire le cadre d’exécution externe pour l’appel de modèles, l’intégration d’outils et l’exécution de tâches — bien qu’ils aient récemment commencé à recruter des postes concernés afin de mettre en place ce système.

En parallèle, DeepSeek semble également fermement engagé dans l'open source, voire prêt à partager publiquement ses « secrets ». N'est-ce pas fou ? Ne s'agit-il pas de brûler de l'argent à vide ? Les investisseurs préparant à lui investir 10 milliards de dollars, sont-ils en train de jeter leur argent aux égouts ?

Je pense personnellement que la réponse est exactement l'inverse.

Ensuite, je vais présenter quelques observations basées sur ce que DeepSeek a accompli jusqu'à présent, et analyser la stratégie qu'il semble suivre. L'objectif de Liang Wenheng, PDG de DeepSeek, dépasse probablement la simple concurrence entre modèles. Il vise peut-être un prix bien plus grand : DeepSeek a l'opportunité d'atteindre une valorisation de 1 000 milliards de dollars tout en favorisant la naissance d'une nouvelle industrie d'une envergure de 10 000 milliards de dollars.

TechInAsia rapporte le dernier tour de financement de DeepSeek

Révisiter le « voyage du héros » de DeepSeek

DeepSeek a toujours fait face aux vents contraires. Au lieu de publier constamment des modèles légèrement plus puissants et de les transformer rapidement en applications directement rentables, comme des abonnements de programmation, il a choisi une autre voie. Le 27 janvier 2025, j'avais publié un tweet très partagé décrivant ce que je voyais comme le « voyage du héros » de DeepSeek. Aujourd'hui, cette histoire est encore plus intéressante.

Alors que d'autres tentent de construire des modèles denses, DeepSeek a choisi des modèles à mélanges d'experts (Mixture of Experts, MoE), plus difficiles à entraîner.

Ils ont utilisé une approche basée sur les principes premiers pour développer le nouvel algorithme GRPO, destiné à remplacer l'algorithme PPO, alors dominant mais plus coûteux à implémenter.

Ils ont découvert que l'apprentissage par renforcement à partir de récompenses vérifiées (Reinforcement Learning from Verified Rewards, RLVR) est la stratégie clé pour améliorer la capacité de raisonnement des modèles.

Ils ont également proposé une stratégie simple de décodage par prédiction multi-token, tout en rendant les signaux d'entraînement plus denses.

Ils ont perfectionné la chaîne de production « ZERO bubble » pour améliorer l'efficacité d'utilisation des ressources GPU limitées.

Ils ont lancé un équilibreur de charge expert, rendant le déploiement de modèles MoE plus facile pour tous. En particulier, grâce à la stratégie « Wide Expert Parallel », les modèles peuvent être servis avec des batchs plus volumineux, réduisant considérablement le coût d'inférence.

Ils ont développé des mécanismes tels que MLA, DSA, CSA et HCA pour réduire la nécessité de KV Cache et maintenir aussi proche que possible de la constance les besoins en calcul augmentant avec la longueur du contexte.

Ils ont inventé Engram, échangeant de la mémoire contre une efficacité de calcul.

Ils ont également inventé mHC, permettant une formation stable même lors de l'augmentation de la taille du modèle. Il existe de nombreux autres exemples similaires.

Dans la structure narrative la plus répandue, le « voyage du héros », le héros ne décide jamais au départ où le mènera son parcours. Il apprend au fil du chemin, découvrant progressivement sa véritable mission grandiose et la réalisant malgré d'innombrables obstacles. Il rencontre de nombreux sceptiques, mais choisit de les ignorer. Il rencontre aussi de nombreux acteurs malveillants. Il possède des défauts ou des faiblesses évidents, mais finit par les surmonter pour accomplir sa mission. Il fait face à des défis apparemment insurmontables, trouve des alliés, et apprend à utiliser sagement des ressources limitées et précieuses. C'est précisément cela qui pousse le public à soutenir le héros. C'est aussi ce qui a fait de DeepSeek un sujet d'adhésion, de respect mondial et d'opposition.

Comme je le détaillerai ci-dessous, DeepSeek a déjà parcouru un long chemin sur ce chemin et a progressivement découvert sa destinée ultime : son objectif n'est pas de vendre des abonnements de programmation, mais de promouvoir un écosystème chinois d'IA matérielle d'une valeur de 10 000 milliards de dollars et d'atteindre une valorisation de 1 000 milliards de dollars. En cours de route, elle créera également des opportunités pour de nombreux nouveaux entrants dans l'écosystème matériel occidental.

Commencez par quelques calculs intéressants sur le KV Cache

Veuillez consulter ce tweet récent de @SemiAnalysis_ :

DeepSeek a déjà résolu ce problème mieux que quiconque !

Commençons par effectuer un peu de calculs intéressants sur le KV Cache. Ne vous inquiétez pas, même si vous n'aimez pas les mathématiques. Nous utiliserons le calculateur KV Cache récemment publié pour voir combien d'économies de KV Cache DeepSeek V4 Pro permet, et le comparer aux derniers modèles GLM et Qwen.

Je calcule ici avec une longueur de contexte de 1 million, en supposant une précision KV de 8 bits et une précision de l'indexeur de 16 bits. Vous pouvez également ouvrir vous-même cette calculatrice : https://kvcache.ai/tools/kv-cache-calculator/

Vous pouvez également ouvrir votre calculatrice pour essayer !

Avec une longueur de contexte de 1 million :

·DeepSeek V4 nécessite seulement 5,48 Go de HBM ;

·GLM-5 nécessite 60 Go de HBM ;

·Qwen3-235B-A22B nécessite jusqu'à 89 Go de HBM.

Il convient de noter que :

·DeepSeek est un modèle de 1,6 billion de paramètres ;

·GLM-5 compte environ 700 milliards de paramètres et intègre déjà MLA et DSA de DeepSeek, mais n'utilise pas encore le mécanisme d'attention compressé le plus récent ;

·Qwen3-235B-A22B compte environ 235 milliards de paramètres et utilise le mécanisme d'attention GQA.

DeepSeek a apporté des contributions fondamentales pour soulager la pression mémoire. Si ce type d'innovation est largement adopté, il réduira considérablement le coût d'exécution des agents à long cycle et débloquera la prochaine vague de nouveaux scénarios d'utilisation.

Comparaison de l'utilisation du KV Cache pour 1 million de tokens en contexte et la taille du modèle

La méthodologie derrière la « folie »

La raison pour laquelle la taille du KV Cache peut être aussi réduite sans compromettre la qualité du modèle est que DeepSeek peut offrir un cache de longue durée à un prix extrêmement bas — inférieur à 3 % du prix de命中 du cache de Sonnet 4.6 — et DeepSeek peut conserver le cache pendant plusieurs heures.

Pour les tâches à long cycle, un KV Cache plus petit permet de le décharger plus économiquement sur un SSD et de le recharger lorsque nécessaire, réduisant ainsi la dépendance à l’HBM. Du point de vue de l’industrie chinoise du matériel IA, l’HBM est non seulement en forte demande, mais aussi l’un des types de mémoire les plus difficiles à produire.

De plus, DeepSeek a développé une technologie permettant de charger plus rapidement le KV Cache à partir du SSD, comme décrit dans son article Dual Path.

DeepSeek V4 compresse considérablement le KV Cache, au point que cette étape pourrait même ne plus être nécessaire.

Qui bénéficie le plus directement de la compression du KV Cache ?

Qui fournit en grande quantité des SSD ? N'oubliez pas que YMTC (Yangtze Memory Technologies) est en train de devenir un géant dans le domaine du 3D NAND. Le NAND peut aider DeepSeek à éviter les calculs répétés KV. À son tour, DeepSeek crée un énorme marché pour le NAND et les SSD — ce qui profitera non seulement à Yangtze Memory Technologies, mais aussi à d'autres fabricants concernés.

Cependant, il ne s'agit pas seulement de NAND et de SSD.

La mémoire LPDDR présente également un énorme potentiel. Elle peut être utilisée pour stocker les poids du modèle et les transmettre en streaming vers la HBM lorsqu'ils sont nécessaires, réduisant ainsi la pression sur la HBM. L'équipe SGLang a publié un excellent blog décrivant cette approche. Le schéma ci-dessous illustre le fonctionnement de cette solution.

Bien que DeepSeek n’ait pas été spécifiquement conçu pour cette solution, son architecture MoE, son nombre élevé de modèles experts et ses poids en 4 bits facilitent sa mise en œuvre.

Ce schéma illustre comment la mémoire peut être utilisée et comment les poids du modèle sont transmis en flux depuis la LPDDR vers la HBM. Il est fortement recommandé de lire le blog de SGLang.

This innovation, when combined with an extremely compact and lossless KV Cache, will significantly reduce the demand for HBM.

Alors, qui en Chine produit des LPDDR ? La réponse est CXMT, c'est-à-dire ChangXin Memory Technologies. Elles sont seulement d'environ une demi-génération en retard en termes de vitesse LPDDR, et d'une génération en retard en densité, ce qui ne représente pas un écart important.

En plus d'une offre suffisante de NAND, l'écosystème chinois de l'IA disposera bientôt d'une offre suffisante de LPDDR. Cela soulagera-t-il la pression sur la puissance de calcul ? La réponse est : oui. Continuez à lire.

Une utilisation intelligente de la mémoire peut également alléger la charge sur le GPU / ASIC

Utiliser le NAND pour stocker le KV Cache est facile à comprendre : cela permet de conserver le KV Cache plus longtemps, réduit la pression sur le HBM et évite le recalcul du KV Cache, allégeant ainsi la charge de calcul sur les GPU et les ASIC.

Alors, LPDDR peut-il également jouer un rôle similaire ? En plus d’être un emplacement de stockage permettant de streamer les poids vers le HBM « à la demande », peut-il réduire davantage la charge de calcul ?

La réponse est : oui.

LPDDR peut être utilisé pour stocker une grande quantité de contenus appelés Engram. Dans l'article de DeepSeek sur les Engram, ils indiquent que les MoE peuvent étendre la capacité du modèle grâce au calcul conditionnel, mais que le Transformer lui-même manque d'un mécanisme natif de « recherche de connaissances ». Par conséquent, le Transformer doit souvent simuler inefficacement le processus de recherche par le calcul.

Pour résoudre ce problème, DeepSeek a introduit le module Engram. Il modernise l'embedding N-gram classique en le transformant en un mécanisme de recherche O(1) basé sur le hachage, créant ainsi une voie de sparsification complémentaire qu'ils appellent mémoire conditionnelle.

This approach saves computation but requires memory to hold the embedding table, which itself can be very large.

En substance, il s'agit d'une solution typique « échange mémoire contre calcul ». Mais son insight clé réside dans le fait que, du point de vue du coût de lecture de chaque bit de données, le côté « mémoire » est beaucoup moins coûteux — une recherche LPDDR est bien moins chère qu'une passe avant complète à travers plusieurs couches de Transformer. Ainsi, à grande échelle, cet échange est extrêmement avantageux.

C'est ainsi que DeepSeek sacrifie une partie de la mémoire pour gagner en efficacité de calcul.

Les compromis à faire

En l'absence d'une densité de transistors sur puce équivalente et d'EUV, les GPU et ASIC chinois sont probablement susceptibles de rester en retard sur les GPU occidentaux en termes de FLOPs bruts. Ils présentent également un écart significatif en matière de conditionnement avancé. Par conséquent, ce compromis est très justifié, surtout compte tenu de la capacité de la Chine à produire en grande quantité des mémoires NAND et LPDDR.

Revoir la stratégie à long terme de DeepSeek

À en juger par ces innovations, l'objectif de DeepSeek ne semble pas d'engranger quelques centaines de millions de dollars de bénéfices à court terme. De nombreuses décisions passées en témoignent : jusqu'à présent, aucune fonctionnalité multimodale, aucun modèle vocal, et encore moins de modèle vidéo.

Ce à quoi il participe véritablement, c’est un jeu à long terme, exigeant de la patience, pouvant atteindre une échelle de 10 billions de dollars : favoriser la formation d’un écosystème alternatif de matériel IA.

Cela vise non seulement à faire des fabricants chinois de mémoire des acteurs clés sur le marché chinois et mondial du matériel IA, mais aussi à réduire fondamentalement les besoins en ressources, rendant l'entraînement et le service des modèles IA plus rentables. Ainsi, de nombreux fabricants de GPU, d'ASIC et de puces réseau ont l'opportunité de devenir des options viables.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the next generation of hardware manufacturers.

Tous les signes sont déjà apparus. Revenons en détail sur les innovations proposées par DeepSeek jusqu’à présent :

1. Le modèle mixte d'experts (MoE) et MLA introduits dans DeepSeek V2

DeepSeek a introduit MoE et MLA dans V2. MoE réduit la quantité de calcul nécessaire pour former des modèles à haute intelligence d'environ 40 % à 50 % ; MLA réduit le KV Cache de 90 %.

Cela rend le déchargement du cache KV vers un SSD assez efficace.

Ces idées sont apparues pour la première fois dans l'article de DeepSeek publié en mai 2024 sur DeepSeek V2. Par la suite, elles ont également posé les bases de l'entraînement de DeepSeek V3. À l'époque, DeepSeek avait entraîné un système aux performances proches de celles des modèles propriétaires en n'utilisant que 2048 GPU H800 aux performances réduites.

2. DSA : introduit dans DeepSeek V3.2 Exp pour réduire la charge de calcul dans les scénarios à long contexte tout en atténuant la pression sur la bande passante HBM.

Le rôle essentiel de DSA est de garantir que la charge de calcul ne cesse pas d'augmenter avec la longueur du contexte. Consultez le graphique ci-dessous : à mesure que la longueur du contexte augmente, le temps de traitement de DeepSeek-V3.2 reste globalement stable.

3. mHC : proposé par DeepSeek dans l'article « mHC: Manifold-Constrained Hyper-Connections » en décembre 2025.

mHC est une innovation de DeepSeek au niveau de l'architecture globale, qui redéfinit la manière dont les informations circulent entre les couches Transformer.

Par le passé, depuis ResNet, les modèles utilisaient généralement des connexions résiduelles standard, soit x + F(x). La méthode de mHC consiste à étendre le flux résiduel en plusieurs canaux d'information parallèles et à permettre au modèle d'effectuer un mélange appris entre ces canaux. L'élément clé réside dans le fait qu'elle contraint la matrice de mélange à être une matrice bistochastique, en la limitant au polyèdre de Birkhoff par projection de Sinkhorn-Knopp. Cela garantit mathématiquement que, quelle que soit la profondeur du modèle, l'amplitude du signal reste stable.

Cela résout le problème d'instabilité catastrophique rencontré par les Hyper-Connections non contraintes. Les Hyper-Connections, initialement proposées par ByteDance, voient la amplification du signal augmenter jusqu'à 3000 fois à une échelle de 27 milliards de paramètres sans contraintes, entraînant finalement un échec complet de l'entraînement.

Le coût de calcul de mHC est faible : il n'ajoute qu'un surcoût d'environ 6,7 % au temps d'entraînement réel, car il ne modifie pas les FLOPs des couches d'attention ou des couches FFN, mais change uniquement la manière dont les sorties de ces couches sont routées entre les couches.

Mais les gains de performance sont tout à fait significatifs : avec une taille de 27 milliards de paramètres, mHC améliore ses résultats de 7,2 points sur les tâches d'inférence BIG-Bench Hard, de 3,2 points sur DROP, de 2,8 points sur GSM8K pour les tâches mathématiques, et de 1,4 points sur MMLU pour les tâches de connaissances générales. Ces améliorations ont été obtenues avec la même taille de modèle et un budget de calcul presque identique.

En substance, mHC permet une intelligence par paramètre plus élevée en offrant au réseau une topologie de routage inter-couches plus riche et plus expressive, avec une augmentation quasi nulle des FLOPs supplémentaires.

mHC est une architecture complexe, mais elle permet un processus d'entraînement plus stable et une intelligence plus élevée par paramètre.

4, CSA, HSA : DeepSeek a été introduit dans V4 en avril 2026.

L'objectif de la CSA et de la HSA est de réduire encore de 90 % les besoins en KV Cache en compressant les jetons KV, tout en réduisant considérablement les FLOPs requis, afin de soulager à la fois la HBM et les GPU / ASIC.

5. Engram : introduit par DeepSeek au premier trimestre 2026, il échange en quelque sorte de la mémoire, à savoir de la mémoire LPDDR, contre une efficacité de calcul.

Comme le montre le tableau détaillé ci-dessous, Engram offre une amélioration significative des performances avec le même budget de paramètres total.

6. Engram : introduit par DeepSeek au premier trimestre 2026, il échange en quelque sorte de la mémoire, à savoir de la mémoire LPDDR, contre une efficacité de calcul.

Comme le montre le tableau détaillé ci-dessous, Engram offre une amélioration significative des performances avec le même budget de paramètres total.

C'est une recommandation que DeepSeek a partagée avec les fabricants de matériel dans son article V4. Je suis certain qu'ils ont fourni encore plus de retours lors d'échanges en personne.

7. L'investissement dans TileLang pointe également dans la même direction : DeepSeek ne cherche pas seulement à résoudre ses propres goulots d'étranglement en matière de puissance de calcul, mais à faire émerger un écosystème matériel chinois capable de rivaliser avec les écosystèmes occidentaux.

Avec TileLang, les développeurs peuvent écrire une seule fois le kernel, c’est-à-dire le code de base utilisé pour les calculs, puis le faire fonctionner avec succès sur plusieurs plateformes matérielles, à condition que ces plateformes disposent déjà d’un backend TileLang correspondant.

Je prévois que d'autres laboratoires chinois d'IA rejoindront progressivement. Cela aidera les fabricants chinois de matériel à répondre de manière indirecte à ce qu'on appelle le « fossé CUDA ». En même temps, cela libérera davantage le potentiel des matériels occidentaux, comme AMD.

Il convient de noter que de nombreuses plateformes chinoises de matériel IA offrent déjà une compatibilité CUDA ou une couche de traduction CUDA. Par exemple, Moore Threads, Moxi, Birun et TianShu Zhixin sont des fabricants de puces chinois qui réalisent une haute compatibilité CUDA via des couches de traduction. Par conséquent, théoriquement, elles n'ont pas nécessairement besoin de TileLang.

Apprentissage par renforcement à grande échelle et RSI

À mesure que DeepSeek accède à davantage de sources de puissance de calcul, c’est-à-dire qu’il dispose de plus d’options matérielles, tout en voyant sa propre demande en ressources de calcul diminuer, il peut entreprendre des projets d’entraînement plus ambitieux, en particulier l’entraînement par renforcement.

L'apprentissage par renforcement nécessite la génération d'un grand nombre de trajectoires, soit des milliers de billions de tokens. Ce processus devient très rapidement extrêmement coûteux. De plus, pour former un modèle avec une longueur de contexte d'un million, il faut générer des trajectoires de la même longueur. Seule une formation sur de telles trajectoires extrêmement longues permet de prendre en charge véritablement les tâches à long terme.

En outre, avec l'augmentation des options matérielles, DeepSeek pourra accéder à davantage de ressources matérielles, ce qui stimulera la recherche automatisée, également appelée RSI. La RSI désigne la capacité de l'IA à concevoir et à exécuter ses propres expériences. Cette approche implique un grand nombre d'essais et d'erreurs, et les coûts augmentent rapidement. Toutefois, la RSI est essentielle pour explorer l'espace complet des conceptions de modèles. Avant d'atteindre l'AGI, puis ultérieurement l'ASI, DeepSeek doit posséder la capacité de RSI.

Ce que DeepSeek fait aujourd'hui, l'ensemble de l'industrie suivra demain

Les innovations de DeepSeek autour des modèles mixtes d'experts, MLA, DSA, etc., ont été progressivement adoptées par d'autres laboratoires d'IA en Chine et dans le monde.

Par exemple, ZAI, le développeur de la série de modèles GLM, utilise MLA et DSA. Kimi, également connu sous le nom de Moonshot, adopte également MLA et n'hésite pas à déclarer que son architecture est basée sur l'architecture DeepSeek. À l'inverse, DeepSeek utilise également l'optimiseur Muon, qui a été initialement adopté par Kimi (Moonshot) dans le cadre de formations à grande échelle.

Il faut noter que :

MoE a été initialement proposé par Google en 2017, avec Noam Shazeer comme auteur clé. La contribution de DeepSeek réside dans l'application à grande échelle de MoE et dans l'invention de ses propres techniques associées.

Muon, soit l'optimiseur MomentUm Orthogonalized by Newton-Schulz, a été proposé à la fin de l'année 2024 par le chercheur en apprentissage automatique Keller Jordan. L'équipe Kimi (Moonshot) est la première à l'avoir utilisée pour un entraînement à grande échelle.

Que faire du problème de gain ?

Nous pouvons examiner l'exemple intéressant d'OpenAI.

OpenAI a obtenu des warrants/options pour acheter des actions d'AMD et de Cerebras à un prix réduit, ces droits étant liés à des jalons de consommation de puissance de calcul. Pour AMD et Cerebras, il s'agit d'un accord très avantageux, car une fois qu'OpenAI s'engage à utiliser leur matériel, la probabilité de leur succès à long terme augmente considérablement.

AMD a publié le passage suivant :

Dans le cadre de l'accord, afin de mieux aligner les intérêts stratégiques des deux parties, AMD a délivré à OpenAI des warrants lui permettant d'acheter jusqu'à 160 millions d'actions ordinaires d'AMD, qui s'acquerront progressivement selon l'atteinte de jalons spécifiques. Le premier lot sera acquis à la fin du déploiement initial de 1 gigawatt, et les lots suivants s'acquerront progressivement à mesure que les achats augmenteront jusqu'à 6 gigawatts. L'acquisition est également conditionnée à l'atteinte par AMD d'objectifs de prix d'action spécifiques, ainsi qu'à la réalisation par OpenAI des jalons techniques et commerciaux nécessaires au déploiement à grande échelle d'AMD.

Je prévois que DeepSeek conclura également des accords similaires avec de nombreux fournisseurs chinois de mémoire, ASIC, CPU et pile technologique réseau, et collaborera étroitement avec eux pour permettre à leurs piles matérielles de gérer des charges de travail IA de pointe.

Étant donné que la capitalisation boursière totale des actions AI, y compris celles des alliés occidentaux et d'Asie de l'Est, dépasse déjà 10 billions de dollars, cette approche « d'obtenir des retours sur investissement par la coopération » permettra à DeepSeek d'aider la Chine à construire une industrie tout aussi massive et d'y obtenir sa part, réalisant ainsi une évaluation de 1 trillion de dollars.

Cela permettra non seulement à DeepSeek de gagner bien plus d'argent que grâce aux abonnements aux applications traditionnelles, mais aussi de réaliser son objectif de « rendre l'AGI accessible à tous ». Liang Wenhong est un fervent admirateur de Jim Simons et un acteur financier suffisamment intelligent pour ne pas manquer ce point.

Si tu regardes en arrière tout ce que DeepSeek a accompli jusqu'à présent, seule cette explication a du sens.

Ce sont les actions clés en IA. Les hyperscalers, c'est-à-dire les grands fournisseurs de cloud, ainsi que de nombreuses autres entreprises connexes, ne sont pas encore incluses dans le graphique.

Lien original