DeepSeek V4 démontre des performances stables sur les puces IA nationales

Article | World Model Factory

DeepSeek V4, une autre fois qui a bouleversé toute la Chine.

Taille du modèle, longueur du contexte, scores de référence… ces indicateurs techniques ont été comparés à maintes reprises dans divers rapports.

Mais si l'on se contente des données superficielles, on manque le cœur stratégique de cette publication.

Au cours des trois dernières années, les grands modèles chinois ont toujours été coincés dans une réalité gênante : l'entraînement dépend de NVIDIA, l'inférence dépend de NVIDIA, et les puces nationales ne sont qu'une option de secours.

Dès que NVIDIA arrête les livraisons, tout le cycle des modèles en Chine sera en état d'angoisse.

Mais aujourd'hui, DeepSeek V4 a prouvé sa puissance :

Un modèle de grande taille avancé avec des billions de paramètres peut également fonctionner de manière stable et efficace sur des infrastructures de calcul nationales.

The significance of this matter goes beyond the model's technical indicators themselves.

La percée de la localisation

Pour vraiment comprendre la difficulté de cette adaptation nationale, il faut d'abord comprendre l'empire des puces d'NVIDIA.

NVIDIA possède bien plus qu'une simple puce : c'est un écosystème complet et fortement intégré :

Sur le plan matériel, il existe une famille de puces GPU, accompagnée d'un réseau haut débit inter-puces réalisé par NVLink et NVSwitch ;

Sur le logiciel, CUDA est le système d'exploitation AI soigneusement développé par NVIDIA au cours des dernières décennies.

C'est comme une usine hautement optimisée, où chaque niveau, des opérateurs de base (unités de calcul du modèle) jusqu'au calcul parallèle, à la gestion de la mémoire et à la communication distribuée, est spécifiquement conçu pour les GPU NVIDIA.

Autrement dit, NVIDIA ne vend pas seulement des moteurs, elle a également réparé les routes, les stations-service, les ateliers de réparation et le système de navigation.

Presque tous les grands modèles mondiaux ont émergé dans cet écosystème.

Passer à la puissance de calcul nationale présente une tout autre situation.

Architectures matérielles différentes, méthodes d'interconnexion différentes, maturité des piles logicielles différentes, écosystème d'outils encore en cours de rattrapage rapide.

DeepSeek souhaite s'adapter aux puces nationales, ce qui ne se limite pas à simplement changer de moteur, mais consiste à faire passer une voiture de course en pleine vitesse sur l'autoroute vers un sentier de montagne encore en construction.

Un léger erreur peut provoquer des secousses, une perte de puissance, voire l'incapacité totale du véhicule à avancer.

Cette fois-ci, DeepSeek V4 n’a pas choisi de continuer à optimiser uniquement sur la chaîne CUDA, mais a commencé à s’adapter simultanément aux piles logicielles de la puissance de calcul nationale.

D'après les informations publiques, V4 a réalisé une avancée sur la base de puces d'inférence nationales, avec une adaptation approfondie au processeur Huawei Ascend 950, et fonctionne de manière stable sur les puces Cambricon le jour même de la publication du modèle, réalisant véritablement une adaptation Day 0.

Cela signifie que les modèles de pointe commencent à devenir viables sur les systèmes de puces nationales.

Comment DeepSeek V4 y parvient-il ?

Étape une, qui se produit au niveau de l'architecture du modèle.

V4 n'a pas choisi de faire supporter aux puces nationales un contexte de 1M, mais a d'abord rendu le modèle lui-même plus économe.

La conception la plus cruciale dans le rapport technique officiel est le mécanisme d'attention hybride CSA + HCA, ainsi que l'optimisation des longs contextes comme la compression du KV Cache.

En bref, l'inférence traditionnelle à long contexte consiste à faire en sorte que le modèle, à chaque réponse, ouvre et consulte toute une bibliothèque, ce qui épuise rapidement la mémoire vidéo, la bande passante et la puissance de calcul.

La méthode V4 consiste à réindexer, compresser et filtrer les documents de la bibliothèque, en ne transmettant que les informations les plus cruciales à la chaîne de calcul.

Ainsi, le contexte de 1M ne repose plus entièrement sur la puissance matérielle brute, mais réduit d'abord la charge de calcul et la mémoire vidéo grâce à des algorithmes.

This is crucial for domestic chips.

Si le modèle reste fortement dépendant de la bande passante de la mémoire vidéo et des bibliothèques CUDA matures, même si les puces nationales peuvent les exécuter, il sera difficile de les faire fonctionner de manière économique et stable.

V4 réduit d'abord la charge d'inférence, ce qui revient essentiellement à alléger la pression sur les capacités de calcul nationales.

Deuxième étape, qui se produit au niveau de l'architecture MoE et de la couche de paramètres d'activation.

Bien que V4-Pro ait un total de 1,6 billion de paramètres, il n'active que environ 49 milliards de paramètres à chaque inférence ; V4-Flash, avec un total de 284 milliards de paramètres, n'active que environ 13 milliards de paramètres à chaque inférence.

Cela signifie qu'il ne récupère pas tous les paramètres à chaque appel pour les calculer, mais qu'il fonctionne comme une grande équipe d'experts, où seuls les experts concernés sont appelés en cas de besoin.

Cela est tout aussi important pour les puces nationales.

Cela réduit la charge de calcul supportée à chaque inférence et permet aux scénarios à long contexte et aux agents d'être plus facilement pris en charge par les cartes d'inférence.

Troisième étape : adaptation au niveau des opérateurs et des noyaux.

Le point fort de l'écosystème CUDA est que de nombreux calculs de base ont été affinés par NVIDIA, permettant d'appeler directement de nombreuses opérations de calcul haute performance.

L'importance de V4 réside dans le fait qu'elle extrait certaines calculs clés du black box NVIDIA pour les transformer en chemins de calcul personnalisés, plus transférables et adaptables.

En termes simples, V4 consiste à démonter les composants les plus cruciaux du moteur, permettant à des fabricants comme Huawei Ascend et Cambricon de le réajuster selon leur propre architecture de puce.

Étape quatre : le cadre d'inférence et la couche service.

Si l'adaptation des puces nationales se limite à « faire fonctionner des démos », son impact industriel est limité. Ce qui mérite vraiment attention, c'est sa capacité à intégrer un système de services appelables et facturables.

Selon les tests internes, sur le Ascend 950PR, la vitesse d'inférence V4 a considérablement augmenté par rapport aux versions précédentes, avec une réduction significative de la consommation d'énergie. La performance par carte atteint plus de deux fois celle de la NVIDIA H20 dédiée dans des scénarios de précision réduite spécifiques.

DeepSeek a indiqué que, actuellement, V4-Pro est limité par la puissance de calcul haut de gamme, ce qui restreint le débit du service ; il est attendu qu'après la mise sur le marché en gros des super-nœuds Ascend 950 au second semestre, les prix baissent fortement.

Cela indique que, avec la production en série de matériel national tel que Ascend, le débit et le rapport qualité-prix de V4 seront encore optimisés.

Cependant, il est à noter que V4 n'a pas entièrement remplacé les GPU et CUDA de NVIDIA. L'entraînement des modèles peut encore dépendre de NVIDIA, mais l'inférence peut progressivement être nationalisée.

C'est en réalité un chemin commercial très réaliste.

L'entraînement est un investissement progressif : une fois entraîné, une fois ajusté, une fois itéré. L'inférence représente un coût continu, avec des millions ou des milliards d'appels quotidiens d'utilisateurs, chaque appel nécessitant de la puissance de calcul.

La principale dépense des entreprises de modèles tendra à se déplacer de plus en plus vers l'inférence à long terme. Celui qui pourra répondre aux besoins d'inférence de manière plus économique et plus stable obtiendra un avantage réel dans les applications industrielles.

DeepSeek V4 a pour la première fois permis à un modèle de pointe chinois de déployer son inférence selon une voie ne reposant pas sur CUDA d'NVIDIA comme hypothèse par défaut.

This step is already substantial enough.

Impact de V4 sur les applications industrielles

Si la compatibilité des puces nationales répond à la question de savoir si elles peuvent fonctionner, alors le prix répond à une autre question plus réelle :

Can businesses afford it?

Le point fort précédent de DeepSeek était précisément sa capacité à réduire considérablement le prix tout en offrant des performances proches des modèles de pointe.

Ainsi en était-il à l'époque V3 et R1, et il en est de même pour V4.

La différence réside dans le fait qu'il ne s'agit plus d'une guerre des prix dans un contexte normal, mais dans une réduction des prix continue dans le cadre d'une fenêtre de contexte de 1M et des capacités d'agent.

Selon le prix officiel de DeepSeek :

V4-Flash : entrée en cache hit à 0,2 €/million de tokens, entrée en cache miss à 1 €/million de tokens, sortie à 2 €/million de tokens ;

Pour V4-Pro, les entrées avec hit de cache coûtent 1 yuan par million de tokens, les entrées sans hit de cache coûtent 12 yuan par million de tokens, et les sorties coûtent 24 yuan par million de tokens.

Mettez-le dans la même catégorie de modèles nationaux pour voir :

Par rapport à Alibaba Qwen3.6-Plus dans la gamme 256K-1M, le prix de sortie de V4-Pro est environ la moitié, et V4-Flash est encore inférieur.

Compared to the Xiaomi MiMo Pro Series in the 256K-1M range, both V4-Flash and V4-Pro are significantly cheaper.

Le contexte de Kimi K2.6 est de 256K ; en comparaison, V4-Pro offre un contexte plus long à un prix inférieur ; V4-Flash réduit directement le coût des appels fréquents à un autre ordre de grandeur.

This has significant implications for enterprise applications.

En raison du contexte de 1M, le modèle peut lire intégralement un dépôt de code, un ensemble de contrats volumineux, un prospectus de plusieurs centaines de pages, des comptes rendus de réunions prolongées, ou l'état historique accumulé lors de l'exécution continue de tâches par un Agent.

Par le passé, de nombreuses entreprises se sont retrouvées bloquées à ce niveau : la capacité du modèle était suffisante, mais le contexte manquait ; le contexte était suffisant, mais le prix était trop élevé ; le prix était acceptable, mais la capacité du modèle n’était pas suffisamment stable.

Par exemple, une entreprise crée un agent d'analyse et de recherche pour permettre au modèle de lire simultanément les rapports annuels, les conférences téléphoniques sur les résultats, les rapports sectoriels, les actualités sur les concurrents et les comptes rendus internes.

Lorsque le contexte est limité à 128 K ou 256 K, le système doit constamment découper, rechercher et résumer, ce qui entraîne une perte d'information lors de multiples compressions.

Un contexte de 1M permet au modèle de conserver plus de matériel original, réduisant les oublis et les ruptures.

Par exemple, l'agent de code.

Il ne s'agit pas d'écrire quelques lignes de code d'un coup, mais de lire le dépôt, de comprendre les dépendances, de modifier les fichiers, d'exécuter les tests et de corriger les erreurs selon les messages d'erreur. Ce processus consomme des tokens de manière répétée.

Si chaque étape est coûteuse, l'agent ne peut effectuer que des démonstrations ; mais si les tokens sont suffisamment bon marché, il pourra entrer dans un processus de recherche et développement réel.

C'est aussi la valeur industrielle de V4.

Il n'est peut-être pas le modèle le plus puissant, mais il pourrait devenir le modèle le plus utilisé par les entreprises.

DeepSeek redonne à l'IA le statut d'outil de productivité déployable à grande échelle dans tous les secteurs, et non plus un jouet exclusif de quelques grandes entreprises.

La véritable valeur de V4

Lorsque le contexte de 1M atteint le terrain industriel à un prix extrêmement bas, la véritable valeur de DeepSeek V4 se révèle.

Tout cela repose sur une base de puissance de calcul nationale encore peu mature.

Face à l'écart systémique de l'écosystème de puces nationales, l'équipe DeepSeek n'a pas choisi d'attendre la maturité de l'écosystème avant de lancer.

Ils ont repoussé à plusieurs reprises la fenêtre de publication, consacrant des mois à des tests approfondis en collaboration avec des partenaires tels que Huawei, une complexité technique bien supérieure à ce que l'on pourrait imaginer.

C'est pourquoi il est particulièrement difficile pour V4 d'atteindre des capacités d'inférence et d'agent proches des meilleurs modèles propriétaires sur les puissances de calcul nationales.

V4 se prouve lui-même : même face à un écart temporaire dans l'écosystème matériel, l'équipe chinoise peut toujours atteindre des performances compétitives grâce à un investissement extrême en ingénierie et à une innovation协同 logicielle-hardware.

Of course, there is still a gap to full maturity.

La maturité de la chaîne d'outils de la plateforme Ascend, la stabilité des clusters à très grande échelle et l'optimisation approfondie pour davantage de scénarios verticaux nécessitent des efforts continus de toutes les parties prenantes de l'industrie.

Mais le succès de V4 a tracé une voie inspirante pour les modèles futurs.

Il a apporté un coup de pouce décisif à l'autonomie et au contrôle de toute la chaîne d'approvisionnement en IA.

Dans un contexte externe rempli d'incertitudes, cette résilience qui permet de dépasser les limites mérite plus de respect que des indicateurs purement techniques.

Ne pas être séduit par la gloire, ne pas être effrayé par la diffamation, suivre la voie avec droiture et s'appliquer à être vertueux.

Ceci provient du texte officiel de DeepSeek, et c'est le meilleur commentaire à ce sujet.