在 2026 年,全球 AI 的發展迎來了一個標誌性的拐點——超大規模雲廠商的推理資本支出,歷史上首次超過訓練資本支出。產業錨點從「煉大模型」向「用大模型」轉移,算力需求的結構發生了根本性翻轉。
在訓練時代,算力的核心矛盾是「雙精度浮點與集群規模」;而步入推理時代,核心矛盾變成了「記憶體頻寬與通信延遲」。
大模型推理的瓶頸不再僅僅是計算,而是數據搬運——模型權重、中間激活值和 KV Cache 需要在片外 DRAM(如 HBM)和 GPU 之間頻繁交互,模型越大,數據搬移的能耗與延遲越高,最終遠超計算本身的能耗,從而形成了內存牆。
NVIDIA 的 GPU 憑藉 CUDA 和 NVLink 建立了堅固的堡壘,但仍無法避免由頻寬瓶頸導致的 GPU 空轉。
中國大型模型公司智譜進行了一個簡單的實驗:一個由512張GPU組成的推理集群,GPU、模型和代碼均保持不變,僅將網絡帶寬上限從200 GB/s 更改為400 GB/s,推理吞吐量直接提升了10%,首個token的輸出延遲降低了19%——道理很簡單,只要把路加寬,車就能跑得更快。
然而,以 Cerebras 為代表的非 GPU 架構,似乎正在記憶體牆上撕開一道口子。

Cerebras WSE-3 芯片與英偉達 B200 GPU 尺寸對比
Cerebras 的本質:一台基於 SRAM 的近存計算機器
Cerebras Systems 由 Andrew Feldman 等人於硅谷創立,早期的創始團隊全數來自一家名為 SeaMicro 的低功耗微伺服器公司,這家公司後來被 AMD 收購,隨後:
2015 年,創始團隊確立「晶圓級計算」路線;
2016 年,完成註冊、A 輪融資,進入隱身研發階段;
2019 年,發布首款產品 WSE-1 芯片和 CS-1 系統,基於台積電 16nm 工藝;
2021 年,發布第二代產品,基於台積電 7nm 工藝;
在2024年,發布第三代產品(WSE-3 / CS-3),基於台積電5nm製程,晶片與系統均在美國完成製造,是地道的純美國製造晶片系統。

CS-3 系統配置,包含 1 顆 WSE-3 芯片
Cerebras 的晶圓級引擎(Wafer-Scale Engine, WSE)架構哲學,簡單粗暴卻直擊痛點:用物理空間的極致放大,換取對資料搬運延遲的極致壓縮。
傳統晶片是將一塊晶圓切割成許多小晶片,例如英偉達的 GPU 就是這種思路。Cerebras 則反其道而行:不切割,直接將幾乎整塊晶圓製成一顆超大晶片,稱為 Wafer-Scale Engine,WSE。
傳統晶片是將一整塊 300mm 直徑的晶圓切割成數百個小晶片而成;而 Cerebras 則選擇保留整片晶圓,直接作為整個晶片。最新的 WSE-3 擁有 4 兆個電晶體、90 萬個 AI 核心,每個核心配備 48KB 本地 SRAM,使整個晶片的片上 SRAM 達到 44GB,提供 21PB/秒的片上記憶體頻寬(on‑chip memory bandwidth)和 214Pb/秒的網路頻寬(fabric bandwidth),這是傳統 HBM 頻寬的數千倍。

Cerebras WSE 的記憶體頻寬是英偉達 B200 封裝晶片的 2625 倍,打破了大模型推理場景下的記憶體頻寬瓶頸。
在 Cerebras 的架構中,模型權重從不會存在於 SRAM 上,而是存儲在片外存儲 MemoryX 上,並逐層轉移至大晶片。實現方式是將神經網絡模型的權重存儲與計算單元分離。
所有模型權重均外置存儲於記憶體擴展模組 MemoryX 中,網路每一層計算所需的權重會按需逐層傳輸至 CS-3 系統。權重存儲於 MEMORY X 的 DRAM 與閃存內,並以滿頻寬速率向 CS-3 系統傳輸。這些權重不會存入 CS-3 系統,連臨時快取也不會留存,CS-3 依靠核心底層的資料流機制完成運算。
Cerebras 憑藉晶圓級架構,在受內存頻寬限制的 LLM 推理中,展現出降維打擊般的壁壘。在逐 Token 生成時,權重以層為單位從片外 MemoryX 流式傳輸至 CS-3,運行不同模型時,Token 速率為英偉達 B200 的 1.5–5 倍。

英偉達 DGX B200 GPU 與 Cerebras CS-3 芯片在不同大模型上的 Token 速率比較
其優勢核心在於:CS-3 的 44 GB 片上 SRAM 提供 21 PB/s(B200 的 2625 倍)超高頻寬與 214 Pb/s 互聯,使權重流傳輸擺脫 HBM 介面限制。因此在 TTFT(Time To First Token,從請求發出到模型返回第一個 token 的時間)、長上下文以及智能體工作負載上,表現尤為突出。
雖然權重外置於 MemoryX 並按需逐層加載,且不於片上快取,CS-3 仍依靠核心資料流機制在 SRAM 中完成全 FP16 精度無損運算;憑藉線性性能擴展,其在多用戶併發推理下亦釋放出驚人的總吞吐量。
除了頻寬之外,還具有功耗優勢。近期,中際旭創董事長劉聖在演講中也提到,客戶對光模組的要求是 1 pJ/bit,而目前為 10 pJ/bit。在 Cerebras 芯片中,互連的功耗僅為 0.15 pJ/bit,而目前 GPU 的互連功耗為 10 pJ/bit。

Cerebras 互聯與 GPU 互聯架構的頻寬與功耗對比
由此可見,如果 Cerebras 的晶圓級大晶片架構成為 AI 推理甚至訓練的主流,或許將對傳統光模組和 CPO(共封裝光學)的出貨量產生顯著的抑制和結構性改變。核心邏輯在於:光模組和 CPO 的高需求,本質上是為了解決 GPU 集群中「晶片間互聯」和「節點間互聯」的頻寬瓶頸;而 Cerebras 的架構恰恰是通過「消除分散式互聯」來解決問題的。
反直覺:晶圓級大晶片的「真假」硬傷
晶片的核心永遠在於 Trade Off(取捨之道)。Cerebras 為了片上 SRAM 的極致頻寬,也帶來了一些問題。
良率低?
恰恰相反,單個 AI 核心尺寸縮小至 0.05 平方毫米(H100 單個運算核心尺寸的 1%),因此良率反而更高。透過晶片上的路由,可關閉並繞過有缺陷的核心,使缺陷容忍度相比傳統多核處理器提升了 100 倍。實際上,整個晶片擁有 100 萬個 AI 核心,但考慮到良率,對外宣稱為 90 萬個 AI 核心。
擅長推理,但不擅長訓練?
在 Cerebras 成立的數年內,訓練是主流課題,因此公司始終圍繞著訓練做了大量工作,只是在推理需求火爆後,大家發現其在推理方面的優勢更明顯。
實際上,簡化的分佈計算也帶來了程式碼複雜度降低、通訊開銷降低等一系列優勢。
在 4000 塊 GPU 上訓練一個 1750 億參數的模型,通常需要大約 2 萬行分散式訓練代碼。
Cerebras 實現了 565 行代碼的等效訓練——整個模型可安裝在晶圓上,且無需處理數據並行複雜性。
SRAM 縮放已死,核心優勢面臨物理天花板。
第三代產品基於台積電5nm,其SRAM容量僅比基於台積電7nm的第二代產品增加了10%,在5nm之後,SRAM單元面積幾乎不再隨製程進步而縮小。
這意味著 Cerebras 無法再像過去那樣,通過升級台積電製程(如從 5nm 走向 3nm)來顯著增加其核心優勢(SRAM 容量)。
受限於晶圓尺寸、散熱能力及製造成本,片上 SRAM 等存儲資源難以與計算核心同步線性擴展,資源配比遭遇瓶頸。這幾乎堵死了其進化之路。

Cerebras 第三代產品技術規格
散熱、工藝與生態的三重煉獄。
整個晶圓集中發熱,熱流密度較高,必須依賴定制機房和專用液冷系統;此外,生態通用性意味著客戶必須適應其定制化的軟件棧,與現有 CUDA 等通用編程框架的兼容性較弱,軟件移植與適配成本高昂。
外部頻寬低,成為擴展的「孤島」。
由於晶圓級物理設計的限制,WSE 邊緣能引出的 I/O 引腳數量極其有限,導致其 I/O 帶寬僅為 150 GB/s。這與英偉達 NVLink 動輒 1.8 TB/s 的雙向帶寬相比,猶如蝸牛。這意味著 WSE 極難向外高速擴展。儘管 Cerebras 的 SwarmX 互聯在多系統組合上做得尚可,但在需要多晶片高速互聯的超大模型面前,極低的片外帶寬成為了結構性的物理枷鎖。
路線之爭:大廠自研,Cerebras 的窗口期還剩多久?
大型企業解決「推理需要更高頻寬+更低延遲」的方法,不僅僅只有晶圓級這一條路,他們正透過三條並行路徑,對初創公司的技術紅利進行圍剿。
① 自研 ASIC 芯片
Google TPU v8 已分裂為 training-specific 和 inference-specific 兩個版本;AWS Trainium 4 正在路上;Microsoft Maia 已在 Azure 內部使用,基於台積電 3nm 工藝構建,原生 FP8/FP4 張量核心,重新設計的記憶體系統,配備 216GB HBM3e 和 272MB 片上 SRAM;連 Anthropic 都開始評估自研 inference chip。
這條路徑的機率極高,將直接導致2028年第三方inference採購的TAM(總可达市場)上限被壓縮10%至25%。
② 標準包裝路線的工藝通用化
這是對 Cerebras 最直接的降維打擊。
TSMC 的 SoW(System-on-Wafer)已向客戶廣泛開放,CoWoS 9.5x interposer 也將於 2027 年上線。
這兩個產品所做的事——在晶圓層級將多顆 die 拼接——本質上就是將 Cerebras 的物理工藝通用化、平民化。
NVIDIA 的 Vera Rubin 將於 2026 年下半年進入此生態系統。
Cerebras 自行開發的 cross-reticle stitching 雖為獨佔技術,但獨佔窗口期最長僅為 2 至 3 年,到 2027 - 2028 年之後,其工藝壁壘將被台積電的先進封裝稀釋。
③ 光互連/光計算的突破
電子晶片的互連與記憶體牆已達極限,光子的高頻寬、低延遲、零串擾是終極解決方案。
以 Lumentum 為代表的光學路線正在崛起。Wafer-scale 的最大優勢在於片上計算,但模型必然越來越大,wafer scale 以上的高速互聯是刚需。
隨著 CPO(共封裝光學)和 Optical Interconnects 的成熟,未來我們極有可能看到光 I/O 直接引入 WSE 晶圓,打破電互連枷鎖;而英偉達也可能通過收購 LPU(如 Groq)等具備特定架構優勢的公司,結合光互聯,開發兼容現有 NV 超節點軟體的晶圓級系統。
懸崖上的狂奔:Cerebras 的商業與交付
Cerebras 目前正面臨一場由巨額訂單倒逼的懸崖式狂奔。
與 OpenAI 等頭部大客戶的交易,迫使 Cerebras 從一家晶片公司轉型為新型雲服務商。它不再只是銷售硬體,而是需要在短期內鎖定並建設海量的數據中心電力和設施。
根據合約要求,Cerebras 需要在 2026 - 2028 年每年交付 250MW 的數據中心容量。然而,晶圓級系統對機房的要求極高,無法直接安裝進傳統的風冷 IDC。目前,Cerebras 在數據中心容量的籌備上進度已明顯落後於合約要求。
從流片到建廠,從電力審批到冷卻系統部署,這是一個資產密集、週期漫長的泥潭。
尾聲:向左還是向右?
回到最初的命題,當推理算力拐點已至,算力架構的核心永遠在於取捨。
沒有絕對的對錯,只有在最重要負載下的相對最優解。負載其實已經在變。
Cerebras 向左,選擇了極致的物理優化,以整片晶圓和海量 SRAM 換取單任務下的極致低延遲,這在對首 token 延遲極度敏感的場景下是無敵的。
NVIDIA 向右,選擇保持通用性,以 HBM + NVLink + 超大集群吞吐量,應對多變的負載,以不變應萬變。
風起雲湧,前路未卜。正是這種技術與商業的雙重不確定性,才孕育著顛覆的可能。在通往 AGI 的算力洪流中,現在下定論還為時尚早——因為不確定,才有機會。
本文來自微信公眾號「大蒜粒機研所」,作者:霹靂遊俠
