L'inférence IA génère une nouvelle demande en mémoire dans l'industrie des semi-conducteurs

L'arrivée de l'ère de l'inférence par IA réstructure fondamentalement le paysage des besoins dans l'industrie du stockage semi-conducteur. Avec la quantité moyenne de tokens générés par question en augmentation de plus de cinq fois par an, la gestion du cache KV et les besoins en mémoire liés au déploiement d'agents IA constituent le domaine émergent le plus exigeant et le plus porteur du point de vue commercial dans l'infrastructure IA.

Auteur et source : Semiconductor Industry Watch

Lors de la conférence GTC Taipei en juin 2026, Jensen Huang, fondateur et PDG de NVIDIA, a clairement indiqué que le système mémoire de l'IA révolutionnera entièrement les systèmes de stockage et a classé les systèmes mémoire parmi les composants les plus complexes de l'infrastructure de l'IA. Ce jugement pointe directement vers deux moteurs de demande structurelle : la nécessité de décharger les caches KV générés par les charges de travail d'inférence, et l'expansion de la demande en mémoire CPU due à l'émergence des agents d'IA.

L'impact de ces tendances sur la chaîne d'approvisionnement du stockage commence à se faire sentir. NVIDIA a successivement lancé la plateforme logicielle Dynamo et la plateforme de stockage de mémoire contextuelle CMX, tandis que des fabricants majeurs de puces tels qu'Arm, Intel et AMD prévoient de publier intensément en 2026 de nouvelles générations de processeurs destinés à l'IA agentive. L'industrie accélère sa transition vers des architectures orientées faible latence, au détriment des architectures orientées débit.

Extension côté inférence : La croissance exponentielle des tokens redéfinit les exigences matérielles. Les exigences matérielles lors de la phase d'inférence AI diffèrent fondamentalement de celles de la phase d'entraînement.

Selon les données publiques de NVIDIA, depuis le deuxième semestre 2024, le nombre moyen de tokens générés par question a augmenté à un rythme annuel dépassant cinq fois, atteignant actuellement environ 30 000 à 40 000 tokens. Cette tendance indique que l'industrie est entrée dans la phase d'extension du côté de l'inférence « pensée » des « trois lois d'échelle » de NVIDIA (Test-time Scaling).

Selon l'analyse de TrendForce, l'inférence IA impose trois exigences fondamentales en matière de matériel : un taux de requêtes par seconde (QPS) plus élevé, une fenêtre de contexte plus longue, ainsi qu'un plus grand nombre d'étapes d'inférence et de boucles d'agents. Ces trois exigences stimulent, à des niveaux distincts, des changements structurels dans la demande en mémoire, se manifestant notamment au niveau des poids du modèle, du cache KV et de l'IA agent.

Les poids du modèle relèvent d'une allocation mémoire statique, dont l'occupation est directement liée à la taille des paramètres du modèle, selon la formule : taille totale des poids du modèle = nombre de paramètres × nombre d'octets par paramètre. À mesure que la taille du modèle continue d'augmenter, cette occupation statique constitue la base de la demande mémoire du système d'inférence.

KV cache : l'expansion dynamique stimule les technologies de déchargement et un nouveau marché pour les SSD POD. Le KV cache est la source principale de pression mémoire lors de la phase d'inférence.

Le cache KV stocke les vecteurs clé-valeur générés lors de la phase de pré-remplissage de l'inférence afin d'éviter les calculs redondants pendant la phase de décodage, et relève de l'allocation mémoire dynamique. Sa taille totale est déterminée par le nombre de couches, le nombre de têtes KV, la dimension de chaque tête, la longueur de la séquence, la taille du lot et la précision, et augmente de manière non linéaire avec la longueur de la conversation et la taille du lot.

Dans les scénarios d'inférence avec un contexte long et un traitement par lot élevé, lorsque la capacité HBM du GPU est insuffisante, le système est contraint de supprimer le cache KV et de réexécuter le calcul de pré-remplissage, ce qui entraîne une augmentation de la latence et une hausse du coût total de possession (TCO).

Pour résoudre ce goulot d'étranglement, NVIDIA a lancé en mars 2025 le logiciel de déchargement de cache KV, Dynamo, qui déplace les caches KV à faible fréquence d'accès vers des niveaux de stockage plus volumineux et moins coûteux, tels que la mémoire CPU et les SSD, afin de garantir la réutilisabilité des données pendant la phase de décodage.

En complément de Dynamo, NVIDIA lance en janvier 2026 la plateforme de stockage de mémoire contextuelle CMX (CMX Context Memory Storage Platform), gérée par des DPU BlueField-4 et construite sur des baies BlueField-4 STX, avec 64 DPU BlueField-4 par baie pour gérer environ 9 600 To de capacité, ajoutant ainsi une couche de stockage contextuel au niveau du pod, appelée couche G3.5, entre le stockage local SSD (couche G3) et le stockage partagé (couche G4).

Il est à noter que le modèle structurel du DPU BlueField-4 présenté à COMPUTEX 2026 est déjà équipé d'échantillons de SSD PEB210 E1.S et PE9010 M.2 de SK Hynix. Avec la sortie successive de plateformes SSD POD par NVIDIA, Google et d'autres fabricants, la demande sur ce segment de marché devrait continuer d'augmenter.

Agent AI : Le rapport CPU/GPU est réorganisé vers 1:1, ce qui entraîne une expansion de la demande en LPDRAM pour le déploiement à grande échelle des agents AI.

Dans les flux de travail des agents IA, le modèle doit activement exécuter la planification, l'appel d'outils, la prise de décision et les opérations d'agent ; toute l'orchestration, le routage des données et les tâches d'évaluation des sous-agents sont assumées par le CPU. Huang Renxun a souligné que les agents vivent dans un monde à l'échelle de la nanoseconde, où la latence ultra-faible est la première exigence, ce qui augmente considérablement l'importance de l'architecture CPU.

TrendForce prévoit que, à mesure que l'échelle de déploiement des agents IA s'élargit, le rapport de charge de travail entre CPU et GPU évoluera de l'ancien 1:4 ou 1:8 vers environ 1:1, créant ainsi un espace de croissance significatif pour le marché des CPU et stimulant simultanément une croissance structurelle de la demande en mémoire CPU.

NVIDIA lancera en 2026 le Vera CPU, conçu spécifiquement pour les charges de travail d'IA agents. Selon les spécifications originales, Vera prend en charge jusqu'à 1,5 To de mémoire LPDDR5X, soit trois fois plus que la génération précédente du CPU Grace.

Cependant, selon la dernière enquête de TrendForce, NVIDIA a décidé de réduire de moitié la capacité mémoire SOCAMM du prochain module de super-puce Vera Rubin, en raison d'une insuffisance de capacité de production LPDRAM allouée à NVIDIA dans les plans de production initiaux des fournisseurs pour 2027. Ce ajustement ne reflète pas une baisse de la demande globale de mémoire de NVIDIA.

Sur le marché des processeurs plus large, 2026 devient l'année du renouvellement complet des produits orientés vers les agents d'IA. Intel lance le Xeon 6+ (Clearwater Forest), AMD dévoile l'EPYC Venice, Arm présente le CPU Arm AGI, et l'AmpereOne MX d'Ampere devrait entrer en production en série cette année. La formation d'un paysage concurrentiel multipolaire accélérera davantage la libération de la demande en mémoire CPU.

Deux moteurs clés agissent en synergie, offrant une opportunité structurelle à la chaîne industrielle du stockage. Dans l'ensemble, l'inférence IA redéfinit le paysage de la demande en mémoire à travers deux dimensions indépendantes mais complémentaires.

Premièrement, les charges de travail d'inférence entraînent une augmentation rapide de la consommation du cache KV ; la technologie de déchargement du cache KV dirige une grande quantité de données vers la mémoire CPU et les SSD POD. À mesure que les plateformes associées accélèrent leur déploiement, la visibilité de la demande sur ce segment de marché ne cesse d'augmenter.

Deuxièmement, les agents IA poussent le rapport de charge de travail entre le CPU et le GPU à 1:1, créant ainsi un espace de marché incrementiel sans précédent pour le CPU et son LPDRAM associé.

Pour les investisseurs du secteur de la chaîne de stockage, ces tendances signifient que, en dehors des HBM, les SSD d'entreprise, les LPDRAM et les produits de stockage associés aux DPU deviennent de nouveaux axes d'investissement dans les infrastructures AI.