Chip AI quy mô wafer của Cerebras phá vỡ bức tường bộ nhớ trong thời kỳ suy luận

Năm 2026, sự phát triển của AI toàn cầu đã đạt đến một điểm ngoặt mang tính biểu tượng — chi tiêu vốn cho suy luận của các nhà cung cấp đám mây quy mô lớn lần đầu tiên trong lịch sử vượt quá chi tiêu vốn cho đào tạo. Điểm neo ngành chuyển từ “luyện mô hình lớn” sang “sử dụng mô hình lớn”, cấu trúc nhu cầu tính toán đã đảo ngược căn bản.

Trong thời kỳ huấn luyện, mâu thuẫn cốt lõi của năng lực tính toán là “độ chính xác dấu phẩy động kép và quy mô cụm”; khi bước vào thời kỳ suy luận, mâu thuẫn cốt lõi đã trở thành “băng thông bộ nhớ và độ trễ truyền thông”.

Nút thắt của việc suy luận mô hình lớn không còn chỉ là tính toán, mà là việc di chuyển dữ liệu—các trọng số mô hình, giá trị kích hoạt trung gian và KV Cache cần tương tác thường xuyên giữa DRAM ngoài chip (như HBM) và GPU. Mô hình càng lớn, năng lượng tiêu thụ và độ trễ do di chuyển dữ liệu càng cao, cuối cùng vượt xa năng lượng tiêu thụ của chính phép tính, tạo thành bức tường bộ nhớ.

Các GPU của NVIDIA đã xây dựng một pháo đài vững chắc nhờ CUDA và NVLink, nhưng vẫn không thể tránh khỏi tình trạng GPU ngừng hoạt động do giới hạn băng thông.

Công ty mô hình lớn trong nước Zhipu đã thực hiện một thí nghiệm rất đơn giản: một cụm máy推理 với 512 card GPU, giữ nguyên GPU, mô hình và mã nguồn, chỉ thay đổi giới hạn băng thông mạng từ 200 GB/s lên 400 GB/s, sản lượng推理 tăng trực tiếp 10%, độ trễ đầu tiên để đầu ra token giảm 19%—lý do rất đơn giản: chỉ cần mở rộng con đường, xe sẽ chạy nhanh hơn.

Tuy nhiên, các kiến trúc không phải GPU, đại diện bởi Cerebras, dường như đang tạo ra một khe hở trên bức tường bộ nhớ.

Chip-scale packaging

So sánh kích thước chip Cerebras WSE-3 và GPU NVIDIA B200

Bản chất của Cerebras: một máy tính tính toán gần bộ nhớ dựa trên SRAM

Cerebras Systems được thành lập tại Thung lũng Silicon bởi Andrew Feldman và những người khác, toàn bộ đội ngũ sáng lập ban đầu đều đến từ một công ty tên SeaMicro chuyên về máy chủ vi mô tiết kiệm năng lượng, công ty này sau đó đã được AMD mua lại, sau đó:

Năm 2015, đội ngũ sáng lập xác định con đường “tính toán cấp wafer”;

Năm 2016, hoàn thành đăng ký và vòng gọi vốn A, bước vào giai đoạn nghiên cứu và phát triển ẩn danh;

Năm 2019, ra mắt sản phẩm đầu tiên là chip WSE-1 và hệ thống CS-1, dựa trên quy trình 16nm của TSMC;

Năm 2021, ra mắt sản phẩm thế hệ thứ hai dựa trên quy trình 7nm của TSMC;

Năm 2024, ra mắt sản phẩm thế hệ thứ ba (WSE-3 / CS-3), dựa trên quy trình 5nm của TSMC, chip và hệ thống đều được sản xuất tại Mỹ, là hệ thống chip được sản xuất hoàn toàn tại Mỹ.

Chip-scale packaging

Cấu hình hệ thống CS-3, bao gồm 1 chip WSE-3

Triết lý kiến trúc Wafer-Scale Engine (WSE) của Cerebras, đơn giản nhưng trực diện: dùng sự mở rộng tối đa về không gian vật lý để giảm thiểu tối đa độ trễ khi di chuyển dữ liệu.

Chip thông thường cắt một wafer thành nhiều chip nhỏ, ví dụ như GPU của NVIDIA theo tư tưởng này. Cerebras làm ngược lại: không cắt, mà trực tiếp tạo thành một chip siêu lớn từ gần như toàn bộ wafer, gọi là Wafer-Scale Engine, WSE.

Các chip truyền thống được tạo thành bằng cách cắt một wafer đường kính 300 mm thành hàng trăm chip nhỏ; trong khi Cerebras chọn giữ nguyên toàn bộ wafer và sử dụng nó trực tiếp như một chip duy nhất. WSE-3 mới nhất sở hữu 4 nghìn tỷ transistor và 900.000 lõi AI, mỗi lõi được trang bị 48 KB SRAM cục bộ, giúp tổng dung lượng SRAM trên chip đạt 44 GB, cung cấp băng thông bộ nhớ trên chip 21 PB/giây và băng thông mạng 214 Pb/giây—gấp hàng ngàn lần băng thông HBM truyền thống.

Chip-scale packaging

Băng thông bộ nhớ của Cerebras WSE gấp 2625 lần so với chip đóng gói NVIDIA B200, phá vỡ giới hạn băng thông bộ nhớ trong các kịch bản suy luận mô hình lớn.

Trong kiến trúc của Cerebras, trọng số mô hình không bao giờ tồn tại trên SRAM, mà được lưu trữ trên bộ nhớ ngoài MemoryX và lần lượt chuyển đến chip lớn. Cách thực hiện là tách biệt việc lưu trữ trọng số mô hình thần kinh và đơn vị tính toán.

Tất cả trọng số mô hình đều được lưu trữ ngoài tại module mở rộng bộ nhớ MemoryX; trọng số cần thiết cho từng lớp tính toán của mạng sẽ được truyền dần từng lớp theo yêu cầu đến hệ thống CS-3. Trọng số được lưu trữ trong DRAM và bộ nhớ flash của MEMORY X và được truyền đến hệ thống CS-3 với tốc độ băng thông tối đa. Những trọng số này không được lưu trữ trong hệ thống CS-3, ngay cả bộ nhớ đệm tạm thời cũng không tồn tại; CS-3 thực hiện tính toán dựa trên cơ chế luồng dữ liệu cốt lõi.

Cerebras với kiến trúc quy mô wafer đã tạo ra rào cản vượt trội trong suy luận LLM bị giới hạn bởi băng thông bộ nhớ. Trong quá trình sinh từng token, trọng số được truyền luồng theo từng lớp từ MemoryX ngoài chip đến CS-3, với tốc độ token đạt 1,5 - 5 lần so với NVIDIA B200 khi chạy các mô hình khác nhau.

Chip-scale packaging

So sánh tốc độ token của GPU英伟达DGX B200 và chip Cerebras CS-3 khi chạy các mô hình lớn khác nhau

Ưu thế cốt lõi của nó nằm ở: 44GB SRAM trên chip của CS-3 cung cấp băng thông cực cao 21 PB/s (gấp 2625 lần B200) và liên kết 214 Pb/s, giúp truyền tải trọng số thoát khỏi giới hạn giao diện HBM. Do đó, CS-3 thể hiện ưu việt đặc biệt trong TTFT (Time To First Token – thời gian từ khi gửi yêu cầu đến khi mô hình trả về token đầu tiên), ngữ cảnh dài và các tải trọng tác nhân.

Mặc dù trọng số được lưu ngoài MemoryX và được tải từng lớp theo yêu cầu, không được lưu trong bộ nhớ đệm trên chip, CS-3 vẫn thực hiện các phép toán toàn bộ độ chính xác FP16 không mất mát trong SRAM nhờ cơ chế luồng dữ liệu cốt lõi; nhờ khả năng mở rộng hiệu suất tuyến tính, nó vẫn đạt được tổng thông lượng ấn tượng khi xử lý suy luận đồng thời cho nhiều người dùng.

Ngoài lợi thế về băng thông, còn có lợi thế về công suất tiêu thụ. Gần đây, trong bài phát biểu của ông Lưu Thắng, Chủ tịch Zhongji Xuchuang, ông cũng nhắc đến rằng yêu cầu của khách hàng đối với mô-đun quang là 1 pJ/bit, trong khi hiện tại là 10 pJ/bit. Trong chip Cerebras, công suất tiêu thụ của kết nối chỉ là 0,15 pJ/bit, trong khi công suất tiêu thụ của kết nối trên GPU hiện tại là 10 pJ/bit.

Chip-scale packaging

So sánh băng thông và công suất của kiến trúc kết nối Cerebras và kiến trúc kết nối GPU

Do đó, nếu kiến trúc chip quy mô wafer của Cerebras trở thành tiêu chuẩn phổ biến cho suy luận AI và thậm chí là đào tạo, nó có thể gây tác động đáng kể và thay đổi cấu trúc đến lượng xuất khẩu của các mô-đun quang truyền thống và CPO (quang học đóng gói chung). Lý do cốt lõi là: nhu cầu cao đối với mô-đun quang và CPO về bản chất nhằm giải quyết các điểm nghẽn băng thông trong “kết nối giữa các chip” và “kết nối giữa các nút” trong cụm GPU; trong khi kiến trúc của Cerebras lại giải quyết vấn đề này bằng cách “loại bỏ kết nối phân tán”.

Phi trực quan: Điểm yếu thực sự của chip quy mô wafer

Lõi của con chip luôn nằm ở Trade Off (nghệ thuật cân bằng). Để đạt được băng thông cực đại cho SRAM trên chip, Cerebras cũng phải đối mặt với một số vấn đề.

Tỷ lệ lỗi cao?

Ngược lại, kích thước của từng lõi AI đã được giảm xuống còn 0,05 mm² (1% kích thước của từng lõi tính toán trên H100), do đó tỷ lệ sản phẩm đạt yêu cầu cao hơn. Qua định tuyến trên chip, các lõi bị lỗi có thể được tắt và bỏ qua, giúp khả năng chịu lỗi tăng lên 100 lần so với bộ xử lý đa lõi truyền thống. Thực tế, toàn bộ chip có 1 triệu lõi AI, nhưng do xem xét tỷ lệ sản phẩm đạt yêu cầu, con số được công bố là 900.000 lõi AI.

Chỉ giỏi suy luận, không giỏi huấn luyện?

Trong vài năm kể từ khi Cerebras được thành lập, đào tạo là chủ đề chính, do đó công ty đã tập trung rất nhiều nỗ lực vào đào tạo; chỉ đến khi nhu cầu suy luận bùng nổ, mọi người mới nhận ra lợi thế rõ rệt hơn của nó trong suy luận.

Thực tế, việc đơn giản hóa tính toán phân phối cũng mang lại一系列 lợi ích như giảm độ phức tạp mã nguồn và giảm chi phí truyền thông.

Để huấn luyện một mô hình có 175 tỷ tham số trên 4.000 GPU, thông thường cần khoảng 20.000 dòng mã huấn luyện phân tán.

Cerebras đã đạt được việc huấn luyện tương đương với 565 dòng mã—toàn bộ mô hình có thể được cài đặt trên wafer mà không cần xử lý độ phức tạp của song song hóa dữ liệu.

SRAM scaling đã chết, lợi thế cốt lõi đang gặp phải trần vật lý.

Sản phẩm thế hệ thứ ba được sản xuất trên quy trình 5nm của TSMC, dung lượng SRAM chỉ tăng 10% so với thế hệ thứ hai dựa trên quy trình 7nm của TSMC; sau 5nm, diện tích ô SRAM gần như không còn giảm thêm nhờ tiến bộ công nghệ chế tạo.

Điều này có nghĩa là Cerebras không còn có thể tăng đáng kể lợi thế cốt lõi (dung lượng SRAM) của mình bằng cách nâng cấp quy trình sản xuất của TSMC, chẳng hạn như từ 5nm lên 3nm, như trước đây.

Do giới hạn về kích thước wafer, khả năng tản nhiệt và chi phí sản xuất, các tài nguyên lưu trữ như SRAM trên chip khó có thể mở rộng tuyến tính đồng bộ với các lõi tính toán, dẫn đến nút thắt trong tỷ lệ phân bổ tài nguyên. Điều này gần như chặn đứng con đường tiến hóa của nó.

Chip-scale packaging

Thông số kỹ thuật sản phẩm thế hệ thứ ba của Cerebras

Ba tầng luyện ngục về tản nhiệt, công nghệ và hệ sinh thái.

Toàn bộ wafer tập trung sinh nhiệt, mật độ dòng nhiệt cao, buộc phải sử dụng phòng máy tùy chỉnh và hệ thống làm mát bằng chất lỏng chuyên dụng. Ngoài ra, tính tương thích sinh thái nghĩa là khách hàng phải thích nghi với stack phần mềm tùy chỉnh của nó, khả năng tương thích với các khung lập trình phổ biến hiện có như CUDA yếu, chi phí di chuyển và điều chỉnh phần mềm cao.

Băng thông ngoài chip thấp, trở thành “đảo cách ly” trong việc mở rộng.

Do giới hạn của thiết kế vật lý trên quy mô wafer, số lượng chân I/O có thể dẫn ra từ cạnh WSE cực kỳ hạn chế, khiến băng thông I/O của nó chỉ đạt 150 GB/s. So với băng thông hai chiều lên tới 1,8 TB/s của NVLink từ NVIDIA, điều này giống như tốc độ của ốc sên. Điều này có nghĩa là WSE cực kỳ khó mở rộng ra ngoài với tốc độ cao. Mặc dù liên kết SwarmX của Cerebras hoạt động khá tốt khi kết hợp nhiều hệ thống, nhưng đối với các mô hình siêu lớn đòi hỏi liên kết tốc độ cao giữa nhiều chip, băng thông ngoài chip cực thấp đã trở thành chiếc khóa vật lý mang tính cấu trúc.

Cuộc tranh luận về lộ trình: Các công ty lớn tự phát triển, cửa sổ thời gian của Cerebras còn lại bao lâu?

Các công ty lớn không chỉ dùng một con đường là quy mô wafer để giải quyết vấn đề “suy luận cần băng thông cao hơn và độ trễ thấp hơn”, mà đang tiến hành bao vây lợi thế công nghệ của các công ty khởi nghiệp thông qua ba con đường song song.

① Chip ASIC tự phát triển

Google TPU v8 đã được chia thành hai phiên bản chuyên dụng cho đào tạo và suy luận; AWS Trainium 4 đang trên đường đến; Microsoft Maia đã được sử dụng nội bộ trên Azure, được xây dựng trên quy trình 3nm của TSMC, với lõi tensor FP8/FP4 bản địa, hệ thống bộ nhớ được thiết kế lại, trang bị 216GB HBM3e và 272MB SRAM trên chip; ngay cả Anthropic cũng bắt đầu đánh giá chip suy luận tự phát triển.

Xác suất của con đường này rất cao, và nó sẽ trực tiếp dẫn đến việc mua dịch vụ inference từ bên thứ ba làm giảm 10% đến 25% TAM (thị trường có thể tiếp cận tổng thể) vào năm 2028.

② Chuẩn hóa quy trình cho tuyến đóng gói tiêu chuẩn

Đây là đòn đánh hạ cấp trực tiếp nhất đối với Cerebras.

SoW (System-on-Wafer) của TSMC đã được mở rộng rộng rãi cho khách hàng, và interposer CoWoS 9.5x sẽ ra mắt vào năm 2027.

Việc hai sản phẩm này thực hiện—ghép nhiều die ở cấp độ wafer—cốt lõi là phổ biến hóa và đại chúng hóa quy trình vật lý của Cerebras.

Vera Rubin của NVIDIA sẽ gia nhập hệ sinh thái này vào nửa sau năm 2026.

Cerebras tự phát triển công nghệ cross-reticle stitching dù là độc quyền, nhưng thời gian độc quyền tối đa chỉ kéo dài từ 2 đến 3 năm; sau năm 2027 - 2028, rào cản công nghệ của họ sẽ bị làm mờ bởi các công nghệ đóng gói tiên tiến của TSMC.

③ Sự đột phá của quang kết nối/quang tính toán

Sự kết nối của chip điện tử và bức tường bộ nhớ đã đạt đến giới hạn, quang tử với băng thông cao, độ trễ thấp và không gây nhiễu chéo là giải pháp tối ưu.

Con đường quang học đại diện bởi Lumentum đang nổi lên. Lợi thế lớn nhất của wafer-scale là tính toán trên chip, nhưng mô hình chắc chắn sẽ ngày càng lớn hơn, do đó kết nối tốc độ cao vượt trên wafer-scale là nhu cầu thiết yếu.

Với sự trưởng thành của CPO (Chip-Package Optics) và Optical Interconnects, trong tương lai, chúng ta rất có thể sẽ thấy I/O quang học được tích hợp trực tiếp vào wafer WSE, phá vỡ ràng buộc của kết nối điện; đồng thời, NVIDIA cũng có thể mua lại các công ty có lợi thế kiến trúc đặc biệt như LPU (ví dụ: Groq), kết hợp với kết nối quang học để phát triển hệ thống quy mô wafer tương thích với phần mềm NV siêu nút hiện tại.

Chạy nước rút trên vách đá: Kinh doanh và giao hàng của Cerebras

Cerebras hiện đang đối mặt với một cuộc chạy nước rút đột ngột do các lệnh đặt hàng khổng lồ ép buộc.

Việc giao dịch với các khách hàng lớn như OpenAI đã buộc Cerebras chuyển đổi từ một công ty chip sang một nhà cung cấp dịch vụ đám mây mới. Nó không còn chỉ bán phần cứng, mà còn cần phải khóa và xây dựng lượng lớn cơ sở hạ tầng và điện năng cho trung tâm dữ liệu trong thời gian ngắn.

Theo yêu cầu hợp đồng, Cerebras cần giao 250 MW dung lượng trung tâm dữ liệu mỗi năm trong giai đoạn 2026 - 2028. Tuy nhiên, hệ thống quy mô wafer có yêu cầu rất cao đối với phòng máy, không thể lắp đặt trực tiếp vào các IDC làm mát bằng không khí truyền thống. Hiện tại, tiến độ chuẩn bị dung lượng trung tâm dữ liệu của Cerebras đã rõ ràng chậm hơn so với yêu cầu hợp đồng.

Từ việc sản xuất chip đến xây dựng nhà máy, từ phê duyệt điện năng đến triển khai hệ thống làm mát, đây là một vùng bùn lầy với vốn đầu tư lớn và chu kỳ dài.

Kết thúc: Sang trái hay sang phải?

Trở lại với giả định ban đầu, khi điểm ngoặt của sức mạnh tính toán đã đến, cốt lõi của kiến trúc tính toán luôn nằm ở sự đánh đổi.

Không có đúng sai tuyệt đối, chỉ có giải pháp tối ưu tương đối dưới tải trọng quan trọng nhất. Tải trọng thực sự đã thay đổi.

Cerebras chọn hướng đi sang trái, ưu tiên tối ưu hóa vật lý cực đoan, đánh đổi toàn bộ wafer và lượng SRAM khổng lồ để đạt độ trễ cực thấp trong một tác vụ đơn lẻ, điều này là vô địch trong các tình huống cực kỳ nhạy cảm với độ trễ của token đầu tiên.

NVIDIA chọn hướng đi bên phải, duy trì tính linh hoạt bằng cách sử dụng HBM + NVLink + thông lượng cụm siêu lớn để ứng phó với sự đa dạng của tải công việc, lấy bất biến ứng vạn biến.

Gió nổi mây dâng, tương lai chưa rõ ràng. Chính sự không chắc chắn kép về công nghệ và thương mại này mới tạo ra khả năng cách mạng. Trong dòng chảy năng lực tính toán hướng tới AGI, hiện tại vẫn còn quá sớm để đưa ra kết luận — vì chưa chắc chắn, nên mới có cơ hội.

Bài viết này đến từ tài khoản WeChat “Phòng Nghiên Cứu Tỏi Hạt”, tác giả: Thunderbolt Ranger