La puce IA à échelle de galette de Cerebras brise le mur de la mémoire à l'ère de l'inférence

En 2026, le développement mondial de l'IA a atteint un tournant marquant : les dépenses en capital pour l'inférence des fournisseurs de cloud à très grande échelle ont dépassé pour la première fois historiquement les dépenses en capital pour l'entraînement. Le point d'ancrage industriel passe de « former de grands modèles » à « utiliser de grands modèles », entraînant une inversion fondamentale de la structure de la demande en puissance de calcul.

Durant l'ère de l'entraînement, le conflit central de la puissance de calcul était « la précision double et l'échelle du cluster » ; tandis qu'avec l'entrée dans l'ère de l'inférence, le conflit central est devenu « la bande passante mémoire et la latence de communication ».

Le goulot d'étranglement de l'inférence des grands modèles n'est plus uniquement le calcul, mais le déplacement des données — les poids du modèle, les valeurs d'activation intermédiaires et le KV Cache nécessitent des interactions fréquentes entre la DRAM externe (comme la HBM) et le GPU. Plus le modèle est grand, plus la consommation d'énergie et la latence liées au déplacement des données augmentent, dépassant finalement largement la consommation d'énergie du calcul lui-même, créant ainsi un mur de mémoire.

Les GPU NVIDIA ont construit une forteresse solide grâce à CUDA et NVLink, mais ne peuvent toujours pas éviter le gaspillage de GPU causé par les goulets d'étranglement de bande passante.

L'entreprise chinoise de grands modèles Zhipu a réalisé une expérience très simple : un cluster d'inférence de 512 GPU, avec des GPU, un modèle et un code inchangés, en remplaçant simplement la limite de bande passante réseau de 200 Go/s par 400 Go/s, le débit d'inférence a augmenté de 10 % et la latence de sortie du premier token a diminué de 19 % — le principe est simple : plus la route est large, plus les véhicules peuvent circuler rapidement.

Cependant, les architectures non GPU, telles que celles de Cerebras, semblent ouvrir une brèche dans le mur de la mémoire.

Puce à l'échelle de la tranche

Comparaison des dimensions du puce Cerebras WSE-3 et du GPU NVIDIA B200

L'essence de Cerebras : une machine de calcul proche de la mémoire basée sur SRAM

Cerebras Systems a été fondée à Silicon Valley par Andrew Feldman et d'autres, avec une équipe fondatrice entièrement issue de SeaMicro, une entreprise de microserveurs à faible consommation énergétique ultérieurement acquise par AMD, puis :

En 2015, l'équipe fondatrice a adopté la stratégie du « calcul au niveau de la puce » ;

En 2016, inscription terminée, levée de fonds de série A, entrée en phase de développement confidentiel ;

En 2019, publication du premier produit, la puce WSE-1 et le système CS-1, basés sur le procédé TSMC 16 nm ;

En 2021, publication du deuxième produit, basé sur le procédé TSMC 7 nm ;

En 2024, lancez le troisième génération de produit (WSE-3 / CS-3), basé sur le procédé 5 nm de TSMC, avec le puce et le système entièrement fabriqués aux États-Unis, constituant un système de puce entièrement américain.

Puce à l'échelle de la tranche

Configuration du système CS-3, comprenant 1 puce WSE-3

La philosophie de l'architecture du Wafer-Scale Engine (WSE) de Cerebras est simple et directe : maximiser l'espace physique pour minimiser extrêmement les retards de transfert de données.

Les puces traditionnelles consistent à découper une wafer en de nombreuses petites puces, comme c'est le cas pour les GPU NVIDIA. Cerebras fait l'inverse : il ne découpe pas, mais transforme presque toute la wafer en une seule puce géante, appelée Wafer-Scale Engine, ou WSE.

Les puces traditionnelles sont fabriquées en découpant une wafer de 300 mm de diamètre en centaines de petites puces ; Cerebras, quant à lui, conserve l’ensemble de la wafer en tant que puce unique. Le dernier WSE-3 compte 4 billions de transistors et 900 000 cœurs AI, chaque cœur étant doté de 48 Ko de SRAM locale, ce qui donne à l’ensemble de la puce 44 Go de SRAM intégrée, offrant une bande passante mémoire intégrée de 21 PB/s et une bande passante réseau de 214 Pb/s — des milliers de fois supérieure à la bande passante HBM traditionnelle.

Puce à l'échelle de la tranche

La bande passante mémoire de Cerebras WSE est 2625 fois supérieure à celle du puce encapsulée NVIDIA B200, brisant ainsi le goulot d'étranglement de la bande passante mémoire dans les scénarios d'inférence de grands modèles.

Dans l'architecture de Cerebras, les poids du modèle ne sont jamais stockés sur la SRAM, mais sur la mémoire externe MemoryX, et transférés couche par couche vers la puce principale. Cela est réalisé en séparant le stockage des poids du modèle neuronal des unités de calcul.

Tous les poids du modèle sont stockés externement dans le module d'extension mémoire MemoryX. Les poids nécessaires au calcul de chaque couche du réseau sont transmis au système CS-3 couche par couche, selon les besoins. Ces poids sont stockés dans la DRAM et la mémoire flash de MEMORY X, et transmis au système CS-3 à la vitesse maximale de la bande passante. Ces poids ne sont jamais stockés dans le système CS-3, pas même dans un cache temporaire ; le système CS-3 effectue les calculs grâce à son mécanisme de flux de données fondamental.

Cerebras, grâce à son architecture de taille wafer, présente un avantage décisif dans l'inférence de LLM limitée par la bande passante mémoire. Lors de la génération token par token, les poids sont transmis en flux depuis la mémoire externe MemoryX vers le CS-3 par couche ; pour différents modèles, le taux de tokens est 1,5 à 5 fois supérieur à celui du B200 de NVIDIA.

Puce à l'échelle de la tranche

Comparaison du taux de tokens pour différents grands modèles entre le GPU NVIDIA DGX B200 et le puce Cerebras CS-3

Son avantage principal réside dans les 44 Go de SRAM intégrée du CS-3, qui offrent une bande passante extrêmement élevée de 21 PB/s (2625 fois celle du B200) et une interconnexion de 214 Pb/s, permettant de libérer le transfert des poids des limitations de l'interface HBM. Il se distingue donc particulièrement en matière de TTFT (Time To First Token, temps écoulé entre l'envoi de la requête et la réception du premier token par le modèle), de contextes longs et de charges de travail d'agents.

Bien que les poids soient externalisés à MemoryX et chargés par couche selon la demande, sans mise en cache sur puce, le CS-3 réalise des opérations entièrement en précision FP16 sans perte dans le SRAM grâce à son mécanisme de flux de données central ; grâce à son extension linéaire des performances, il délivre un débit total impressionnant lors d'inférences concurrentes multi-utilisateurs.

En plus de la bande passante, il y a aussi un avantage en termes de consommation d'énergie. Récemment, Liu Sheng, PDG de InnoLight, a mentionné lors d'une conférence que les clients exigent une consommation de 1 pJ/bit pour les modules optiques, alors que la valeur actuelle est de 10 pJ/bit. Dans les puces Cerebras, la consommation d'énergie des interconnexions n'est que de 0,15 pJ/bit, tandis que celle des GPU actuels est de 10 pJ/bit.

Puce à l'échelle de la tranche

Comparaison de la bande passante et de la consommation d'énergie entre l'interconnexion Cerebras et l'architecture d'interconnexion GPU

Ainsi, si l'architecture de puce de taille wafer de Cerebras devient dominante pour l'inférence AI, voire l'entraînement, elle pourrait entraîner une réduction significative et un changement structurel de la demande de modules optiques traditionnels et de CPO (optique co-packagée). La logique fondamentale est la suivante : la forte demande de modules optiques et de CPO vise à résoudre les goulets d'étranglement de bande passante liés à l'interconnexion entre puces et entre nœuds dans les clusters GPU ; or, l'architecture de Cerebras résout ce problème en éliminant l'interconnexion distribuée.

Contre-intuitif : la faille « vraie/fausse » des puces de grande taille sur puce

Le cœur du puce réside toujours dans le trade-off. Pour atteindre une bande passante extrême sur le SRAM intégré, Cerebras a rencontré certains problèmes.

Faible taux de rendement ?

Au contraire, la taille d’un seul noyau AI a été réduite à 0,05 mm² (1 % de la taille d’un seul noyau de calcul de l’H100), ce qui augmente en conséquence le rendement. Grâce au routage intégré sur puce, les noyaux défectueux peuvent être désactivés et contournés, ce qui améliore la tolérance aux défauts de 100 fois par rapport aux processeurs multicœurs traditionnels. En réalité, le puce contient un million de noyaux AI, mais en tenant compte du rendement, l’entreprise déclare officiellement 900 000 noyaux AI.

Bon en raisonnement, mauvais en entraînement ?

Dans les années suivant la création de Cerebras, l'entraînement était le sujet principal, donc l'entreprise a consacré beaucoup d'efforts à l'entraînement ; cependant, après l'explosion de la demande en inférence, on a réalisé que ses avantages en inférence étaient plus évidents.

En réalité, le calcul distribué simplifié apporte également une série d'avantages, notamment une réduction de la complexité du code et une baisse des coûts de communication.

Former un modèle de 175 milliards de paramètres sur 4 000 GPU nécessite généralement environ 20 000 lignes de code d'entraînement distribué.

Cerebras a réalisé l'équivalent d'un entraînement de 565 lignes de code — le modèle entier peut être installé sur une puce, sans nécessiter la complexité du parallélisme des données.

SRAM scaling is dead, facing physical limits to its core advantages.

Le troisième produit, basé sur le processus 5 nm de TSMC, voit sa capacité SRAM augmenter de seulement 10 % par rapport au deuxième produit basé sur le processus 7 nm de TSMC ; après le 5 nm, la surface de la cellule SRAM ne diminue presque plus avec les progrès technologiques.

Cela signifie que Cerebras ne peut plus augmenter significativement son avantage principal (la capacité SRAM) en améliorant le processus de TSMC, comme passer du 5 nm au 3 nm, comme cela était possible par le passé.

Limité par la taille des wafers, la capacité de dissipation thermique et les coûts de fabrication, les ressources de mémoire telles que le SRAM intégré ne peuvent pas s'étendre linéairement en parallèle avec les cœurs de calcul, ce qui crée une impasse dans le rapport des ressources. Cela bloque presque entièrement son chemin d'évolution.

Puce à l'échelle de la tranche

Spécifications techniques de la troisième génération de Cerebras

Triple enfermement : refroidissement, fabrication et écosystème.

La chaleur est concentrée sur l'ensemble du wafer, avec une densité de flux thermique élevée, nécessitant des centres de données sur mesure et des systèmes de refroidissement liquide dédiés. De plus, la faible universalité de l'écosystème oblige les clients à s'adapter à leur pile logicielle personnalisée, avec une compatibilité faible avec les frameworks de programmation généraux existants tels que CUDA, entraînant des coûts élevés pour la migration et l'adaptation logicielle.

La bande passante externe faible crée des îlots d'extension.

En raison des contraintes de conception physique au niveau de la puce, le nombre de broches I/O pouvant être extraites depuis le bord du WSE est extrêmement limité, ce qui entraîne une bande passante I/O de seulement 150 Go/s. Cela contrasté avec la bande passante bidirectionnelle de 1,8 To/s de NVLink de NVIDIA, c’est comme une limace. Cela signifie que le WSE peine extrêmement à s’étendre à haute vitesse vers l’extérieur. Bien que l’interconnexion SwarmX de Cerebras fonctionne relativement bien pour combiner plusieurs systèmes, face à des modèles ultra-grands nécessitant une interconnexion rapide entre plusieurs puces, cette bande passante externe extrêmement faible devient une contrainte physique structurelle.

Débat sur la voie à suivre : Combien de temps reste-t-il à Cerebras avant que les grands acteurs ne développent leurs propres solutions ?

Les grandes entreprises ne se limitent pas à la voie wafer-scale pour résoudre le problème « nécessité d'une bande passante plus élevée et d'une latence plus faible pour l'inférence » ; elles poursuivent trois voies parallèles pour encercler les avantages technologiques des startups.

① Puce ASIC développée en interne

Les TPU v8 de Google ont été divisés en deux versions : l'une dédiée à l'entraînement et l'autre à l'inférence ; AWS Trainium 4 est en chemin ; Microsoft Maia est déjà utilisé en interne sur Azure, construit sur le procédé 3 nm de TSMC, doté de cœurs tensoriels natifs FP8/FP4, d'un système mémoire repensé et de 216 Go de HBM3e ainsi que de 272 Mo de SRAM intégrée ; même Anthropic commence à évaluer la conception de sa propre puce d'inférence.

La probabilité de ce scénario est extrêmement élevée ; il entraînera directement une réduction de 10 % à 25 % du TAM (total addressable market) pour les achats d'inference tiers d'ici 2028.

Standardisation des procédés pour la ligne d'emballage standard

C'est la plus directe des réductions de dimension pour Cerebras.

Le SoW (System-on-Wafer) de TSMC est déjà largement disponible pour les clients, et l'interposer CoWoS 9.5x sera mis en service en 2027.

Ce que font ces deux produits — assembler plusieurs die au niveau du wafer — consiste essentiellement à généraliser et à démocratiser le procédé physique de Cerebras.

Vera Rubin d'NVIDIA entrera dans cet écosystème au second semestre 2026.

Le cross-reticle stitching développé par Cerebras, bien qu'exclusif, ne bénéficie d'une fenêtre d'exclusivité que de deux à trois ans au maximum ; après 2027-2028, cet avantage technologique sera atténué par les techniques de packaging avancées de TSMC.

③ La percée de l'interconnexion optique et du calcul optique

Les interconnexions des puces électroniques et le mur de la mémoire ont atteint leurs limites ; la haute bande passante, la faible latence et l'absence d'interférences des photons constituent la solution ultime.

La voie optique, représentée par Lumentum, est en pleine ascension. Le principal avantage du wafer-scale est le calcul sur puce, mais les modèles deviendront inévitablement de plus en plus grands, ce qui rend les interconnexions à haute vitesse au-delà du wafer-scale une nécessité absolue.

Avec la maturité du CPO (Co-Packaged Optics) et des interconnexions optiques, il est très probable que, à l'avenir, les I/O optiques soient directement intégrés aux wafers WSE, brisant ainsi les contraintes des interconnexions électriques ; NVIDIA pourrait également acquérir des entreprises comme LPU (par exemple Groq) présentant des avantages architecturaux spécifiques, et combiner ces technologies avec des interconnexions optiques pour développer des systèmes au niveau du wafer compatibles avec le logiciel existant des super-nœuds NV.

Course folle au bord du précipice : l'activité et la livraison de Cerebras

Cerebras fait actuellement face à une course précipitée provoquée par des ordres massifs.

Les transactions avec de grands clients comme OpenAI ont forcé Cerebras à se transformer d'une entreprise de puces en un nouveau fournisseur de services cloud. Il ne s'agit plus seulement de vendre du matériel, mais aussi de sécuriser et de construire à court terme une quantité massive d'infrastructures et d'énergie pour les centres de données.

Conformément au contrat, Cerebras doit livrer une capacité de centre de données de 250 MW chaque année entre 2026 et 2028. Toutefois, les systèmes en échelle de puce imposent des exigences très élevées pour les salles serveurs et ne peuvent pas être intégrés directement dans les IDC refroidis par air traditionnels. Actuellement, Cerebras est clairement en retard sur les échéances contractuelles en matière de préparation de la capacité des centres de données.

Du déploiement de puces à la construction d'usines, en passant par l'approbation énergétique et le déploiement des systèmes de refroidissement, il s'agit d'un marécage à forts investissements et à long cycle.

Épilogue : À gauche ou à droite ?

Revenons à l'énoncé initial : lorsque le point d'inflexion de la puissance de calcul est atteint, le cœur de l'architecture de calcul réside toujours dans le compromis.

Il n'y a pas de bonnes ou mauvaises réponses absolues, seulement des solutions relatives optimales sous la charge la plus critique. La charge est déjà en train de changer.

Cerebras s'est orienté vers l'optimisation physique extrême, échangeant une wafer entière et une quantité massive de SRAM contre une latence extrêmement faible pour une tâche unique, ce qui est invincible dans les scénarios extrêmement sensibles à la latence du premier token.

NVIDIA a choisi de rester universel, en utilisant HBM + NVLink + une débit de cluster massif pour faire face à la diversité des charges, en gardant une approche constante face aux changements.

Les tempêtes se lèvent, l'avenir reste incertain. C'est précisément cette double incertitude technologique et commerciale qui engendre la possibilité de bouleversements. Dans le flot de puissance de calcul vers l'AGI, il est encore trop tôt pour tirer des conclusions — c'est précisément à cause de l'incertitude qu'existent des opportunités.

Cet article provient du compte officiel WeChat « Institut de recherche sur les grains d'ail », auteur :霹雳游侠