Cerebras 的晶圓級 AI 芯片在推理時代突破記憶壁壘

在 2026 年，全球 AI 的發展迎來了一個標誌性的拐點——超大規模雲廠商的推理資本支出，歷史上首次超過訓練資本支出。產業錨點從「煉大模型」向「用大模型」轉移，算力需求的結構發生了根本性翻轉。

在訓練時代，算力的核心矛盾是「雙精度浮點與集群規模」；而步入推理時代，核心矛盾變成了「記憶體頻寬與通信延遲」。

大模型推理的瓶頸不再僅僅是計算，而是數據搬運——模型權重、中間激活值和 KV Cache 需要在片外 DRAM（如 HBM）和 GPU 之間頻繁交互，模型越大，數據搬移的能耗與延遲越高，最終遠超計算本身的能耗，從而形成了內存牆。

NVIDIA 的 GPU 憑藉 CUDA 和 NVLink 建立了堅固的堡壘，但仍無法避免由頻寬瓶頸導致的 GPU 空轉。

中國大型模型公司智譜進行了一個簡單的實驗：一個由512張GPU組成的推理集群，GPU、模型和代碼均保持不變，僅將網絡帶寬上限從200 GB/s 更改為400 GB/s，推理吞吐量直接提升了10%，首個token的輸出延遲降低了19%——道理很簡單，只要把路加寬，車就能跑得更快。

然而，以 Cerebras 為代表的非 GPU 架構，似乎正在記憶體牆上撕開一道口子。

晶圓級晶片

Cerebras WSE-3 芯片與英偉達 B200 GPU 尺寸對比

Cerebras 的本質：一台基於 SRAM 的近存計算機器

Cerebras Systems 由 Andrew Feldman 等人於硅谷創立，早期的創始團隊全數來自一家名為 SeaMicro 的低功耗微伺服器公司，這家公司後來被 AMD 收購，隨後：

2015 年，創始團隊確立「晶圓級計算」路線；

2016 年，完成註冊、A 輪融資，進入隱身研發階段；

2019 年，發布首款產品 WSE-1 芯片和 CS-1 系統，基於台積電 16nm 工藝；

2021 年，發布第二代產品，基於台積電 7nm 工藝；

在2024年，發布第三代產品（WSE-3 / CS-3），基於台積電5nm製程，晶片與系統均在美國完成製造，是地道的純美國製造晶片系統。

晶圓級晶片

CS-3 系統配置，包含 1 顆 WSE-3 芯片

Cerebras 的晶圓級引擎（Wafer-Scale Engine, WSE）架構哲學，簡單粗暴卻直擊痛點：用物理空間的極致放大，換取對資料搬運延遲的極致壓縮。

傳統晶片是將一塊晶圓切割成許多小晶片，例如英偉達的 GPU 就是這種思路。Cerebras 則反其道而行：不切割，直接將幾乎整塊晶圓製成一顆超大晶片，稱為 Wafer-Scale Engine，WSE。

傳統晶片是將一整塊 300mm 直徑的晶圓切割成數百個小晶片而成；而 Cerebras 則選擇保留整片晶圓，直接作為整個晶片。最新的 WSE-3 擁有 4 兆個電晶體、90 萬個 AI 核心，每個核心配備 48KB 本地 SRAM，使整個晶片的片上 SRAM 達到 44GB，提供 21PB/秒的片上記憶體頻寬（on‑chip memory bandwidth）和 214Pb/秒的網路頻寬（fabric bandwidth），這是傳統 HBM 頻寬的數千倍。

晶圓級晶片

Cerebras WSE 的記憶體頻寬是英偉達 B200 封裝晶片的 2625 倍，打破了大模型推理場景下的記憶體頻寬瓶頸。

在 Cerebras 的架構中，模型權重從不會存在於 SRAM 上，而是存儲在片外存儲 MemoryX 上，並逐層轉移至大晶片。實現方式是將神經網絡模型的權重存儲與計算單元分離。

所有模型權重均外置存儲於記憶體擴展模組 MemoryX 中，網路每一層計算所需的權重會按需逐層傳輸至 CS-3 系統。權重存儲於 MEMORY X 的 DRAM 與閃存內，並以滿頻寬速率向 CS-3 系統傳輸。這些權重不會存入 CS-3 系統，連臨時快取也不會留存，CS-3 依靠核心底層的資料流機制完成運算。

Cerebras 憑藉晶圓級架構，在受內存頻寬限制的 LLM 推理中，展現出降維打擊般的壁壘。在逐 Token 生成時，權重以層為單位從片外 MemoryX 流式傳輸至 CS-3，運行不同模型時，Token 速率為英偉達 B200 的 1.5–5 倍。

晶圓級晶片

英偉達 DGX B200 GPU 與 Cerebras CS-3 芯片在不同大模型上的 Token 速率比較

其優勢核心在於：CS-3 的 44 GB 片上 SRAM 提供 21 PB/s（B200 的 2625 倍）超高頻寬與 214 Pb/s 互聯，使權重流傳輸擺脫 HBM 介面限制。因此在 TTFT（Time To First Token，從請求發出到模型返回第一個 token 的時間）、長上下文以及智能體工作負載上，表現尤為突出。

雖然權重外置於 MemoryX 並按需逐層加載，且不於片上快取，CS-3 仍依靠核心資料流機制在 SRAM 中完成全 FP16 精度無損運算；憑藉線性性能擴展，其在多用戶併發推理下亦釋放出驚人的總吞吐量。

除了頻寬之外，還具有功耗優勢。近期，中際旭創董事長劉聖在演講中也提到，客戶對光模組的要求是 1 pJ/bit，而目前為 10 pJ/bit。在 Cerebras 芯片中，互連的功耗僅為 0.15 pJ/bit，而目前 GPU 的互連功耗為 10 pJ/bit。

晶圓級晶片

Cerebras 互聯與 GPU 互聯架構的頻寬與功耗對比

由此可見，如果 Cerebras 的晶圓級大晶片架構成為 AI 推理甚至訓練的主流，或許將對傳統光模組和 CPO（共封裝光學）的出貨量產生顯著的抑制和結構性改變。核心邏輯在於：光模組和 CPO 的高需求，本質上是為了解決 GPU 集群中「晶片間互聯」和「節點間互聯」的頻寬瓶頸；而 Cerebras 的架構恰恰是通過「消除分散式互聯」來解決問題的。

反直覺：晶圓級大晶片的「真假」硬傷

晶片的核心永遠在於 Trade Off（取捨之道）。Cerebras 為了片上 SRAM 的極致頻寬，也帶來了一些問題。

良率低？

恰恰相反，單個 AI 核心尺寸縮小至 0.05 平方毫米（H100 單個運算核心尺寸的 1%），因此良率反而更高。透過晶片上的路由，可關閉並繞過有缺陷的核心，使缺陷容忍度相比傳統多核處理器提升了 100 倍。實際上，整個晶片擁有 100 萬個 AI 核心，但考慮到良率，對外宣稱為 90 萬個 AI 核心。

擅長推理，但不擅長訓練？

在 Cerebras 成立的數年內，訓練是主流課題，因此公司始終圍繞著訓練做了大量工作，只是在推理需求火爆後，大家發現其在推理方面的優勢更明顯。

實際上，簡化的分佈計算也帶來了程式碼複雜度降低、通訊開銷降低等一系列優勢。

在 4000 塊 GPU 上訓練一個 1750 億參數的模型，通常需要大約 2 萬行分散式訓練代碼。

Cerebras 實現了 565 行代碼的等效訓練——整個模型可安裝在晶圓上，且無需處理數據並行複雜性。

SRAM 縮放已死，核心優勢面臨物理天花板。

第三代產品基於台積電5nm，其SRAM容量僅比基於台積電7nm的第二代產品增加了10%，在5nm之後，SRAM單元面積幾乎不再隨製程進步而縮小。

這意味著 Cerebras 無法再像過去那樣，通過升級台積電製程（如從 5nm 走向 3nm）來顯著增加其核心優勢（SRAM 容量）。

受限於晶圓尺寸、散熱能力及製造成本，片上 SRAM 等存儲資源難以與計算核心同步線性擴展，資源配比遭遇瓶頸。這幾乎堵死了其進化之路。

晶圓級晶片

Cerebras 第三代產品技術規格

散熱、工藝與生態的三重煉獄。

整個晶圓集中發熱，熱流密度較高，必須依賴定制機房和專用液冷系統；此外，生態通用性意味著客戶必須適應其定制化的軟件棧，與現有 CUDA 等通用編程框架的兼容性較弱，軟件移植與適配成本高昂。

外部頻寬低，成為擴展的「孤島」。

由於晶圓級物理設計的限制，WSE 邊緣能引出的 I/O 引腳數量極其有限，導致其 I/O 帶寬僅為 150 GB/s。這與英偉達 NVLink 動輒 1.8 TB/s 的雙向帶寬相比，猶如蝸牛。這意味著 WSE 極難向外高速擴展。儘管 Cerebras 的 SwarmX 互聯在多系統組合上做得尚可，但在需要多晶片高速互聯的超大模型面前，極低的片外帶寬成為了結構性的物理枷鎖。

路線之爭：大廠自研，Cerebras 的窗口期還剩多久？

大型企業解決「推理需要更高頻寬＋更低延遲」的方法，不僅僅只有晶圓級這一條路，他們正透過三條並行路徑，對初創公司的技術紅利進行圍剿。

① 自研 ASIC 芯片

Google TPU v8 已分裂為 training-specific 和 inference-specific 兩個版本；AWS Trainium 4 正在路上；Microsoft Maia 已在 Azure 內部使用，基於台積電 3nm 工藝構建，原生 FP8/FP4 張量核心，重新設計的記憶體系統，配備 216GB HBM3e 和 272MB 片上 SRAM；連 Anthropic 都開始評估自研 inference chip。

這條路徑的機率極高，將直接導致2028年第三方inference採購的TAM（總可达市場）上限被壓縮10%至25%。

② 標準包裝路線的工藝通用化

這是對 Cerebras 最直接的降維打擊。

TSMC 的 SoW（System-on-Wafer）已向客戶廣泛開放，CoWoS 9.5x interposer 也將於 2027 年上線。

這兩個產品所做的事——在晶圓層級將多顆 die 拼接——本質上就是將 Cerebras 的物理工藝通用化、平民化。

NVIDIA 的 Vera Rubin 將於 2026 年下半年進入此生態系統。

Cerebras 自行開發的 cross-reticle stitching 雖為獨佔技術，但獨佔窗口期最長僅為 2 至 3 年，到 2027 - 2028 年之後，其工藝壁壘將被台積電的先進封裝稀釋。

③ 光互連／光計算的突破

電子晶片的互連與記憶體牆已達極限，光子的高頻寬、低延遲、零串擾是終極解決方案。

以 Lumentum 為代表的光學路線正在崛起。Wafer-scale 的最大優勢在於片上計算，但模型必然越來越大，wafer scale 以上的高速互聯是刚需。

隨著 CPO（共封裝光學）和 Optical Interconnects 的成熟，未來我們極有可能看到光 I/O 直接引入 WSE 晶圓，打破電互連枷鎖；而英偉達也可能通過收購 LPU（如 Groq）等具備特定架構優勢的公司，結合光互聯，開發兼容現有 NV 超節點軟體的晶圓級系統。

懸崖上的狂奔：Cerebras 的商業與交付

Cerebras 目前正面臨一場由巨額訂單倒逼的懸崖式狂奔。

與 OpenAI 等頭部大客戶的交易，迫使 Cerebras 從一家晶片公司轉型為新型雲服務商。它不再只是銷售硬體，而是需要在短期內鎖定並建設海量的數據中心電力和設施。

根據合約要求，Cerebras 需要在 2026 - 2028 年每年交付 250MW 的數據中心容量。然而，晶圓級系統對機房的要求極高，無法直接安裝進傳統的風冷 IDC。目前，Cerebras 在數據中心容量的籌備上進度已明顯落後於合約要求。

從流片到建廠，從電力審批到冷卻系統部署，這是一個資產密集、週期漫長的泥潭。

尾聲：向左還是向右？

回到最初的命題，當推理算力拐點已至，算力架構的核心永遠在於取捨。

沒有絕對的對錯，只有在最重要負載下的相對最優解。負載其實已經在變。

Cerebras 向左，選擇了極致的物理優化，以整片晶圓和海量 SRAM 換取單任務下的極致低延遲，這在對首 token 延遲極度敏感的場景下是無敵的。

NVIDIA 向右，選擇保持通用性，以 HBM + NVLink + 超大集群吞吐量，應對多變的負載，以不變應萬變。

風起雲湧，前路未卜。正是這種技術與商業的雙重不確定性，才孕育著顛覆的可能。在通往 AGI 的算力洪流中，現在下定論還為時尚早——因為不確定，才有機會。

本文來自微信公眾號「大蒜粒機研所」，作者：霹靂遊俠