DeepSeek a formé son modèle V3 pour environ 5,58 millions de dollars. À titre de comparaison, ses concurrents américains dépensent régulièrement des dizaines à des centaines de millions sur des modèles de pointe.
En mai 2026, DeepSeek a réduit de manière permanente les prix de son modèle V4-Pro de 75 %. Les coûts d'entrée mis en cache sont tombés jusqu'à 0,025 RMB par million de jetons.
DeepSeek n’est pas seul dans cette course au plus bas. L’entreprise chinoise 01.ai offrirait selon les rapports une inférence à environ 14 cents par million de jetons, positionnant les prix des API chinois comme les plus bas au monde.
Les modèles d'IA chinois sur OpenRouter ont connu une croissance de 5 fois leur volume, portée presque entièrement par leurs avantages coûts par rapport aux alternatives américaines.
Comment ils le font
Des développeurs chinois ont conçu des architectures MoE clairsemées réduisant l'activation des paramètres de 671 milliards à seulement 37 milliards. Cela se traduit par une réduction des coûts de calcul de 90 à 97 % au niveau de l'inférence.
Au-delà de l'architecture, les équipes chinoises ont adopté des méthodes d'entraînement à précision réduite comme FP8, qui diminue les exigences computationnelles de chaque calcul individuel.
Le modèle de raisonnement R1 de DeepSeek a été formé pour seulement 294 000 $, en utilisant 512 puces H800 pendant 80 heures.
Né de la restriction
Depuis 2023, les contrôles à l'exportation américains ont restreint l'accès des entreprises chinoises aux matérielles Nvidia de haute gamme. Le H100 et ses successeurs sont effectivement interdits. Les développeurs chinois ont travaillé avec le H800, une puce dégradée conçue pour se conformer aux règles d'exportation.
Les principaux acteurs chinois couvrant cette frontière d'efficacité incluent Qwen d'Alibaba, Kimi de Moonshot AI, GLM de Zhipu AI, Doubao de ByteDance, ainsi que DeepSeek.
Ce que cela signifie pour les investisseurs
Si des performances d'IA de pointe sont accessibles à des coûts d'entraînement inférieurs à 6 millions de dollars plutôt qu'à plus de 100 millions de dollars, le fossé économique lié aux dépenses de capital entourant les leaders américains de l'IA commence à sembler plus étroit.
Pour l'écosystème crypto et Web3, une inférence moins chère réduit directement le coût d'exécution des applications décentralisées alimentées par l'IA, des réseaux d'oracles et des outils d'analyse sur chaîne.
Les réductions de 97 % de la puissance de calcul que les développeurs chinois réalisent grâce aux architectures MoE clairsemées ne sont pas seulement des jalons techniques. Ce sont des signaux de prix, et les marchés finissent toujours par suivre les signaux de prix.
