Cip AI Skala Wafer Cerebras Menerobos Dinding Memori di Era Inferens

Pada tahun 2026, perkembangan AI global mencapai titik balik bersejarah—perbelanjaan modal untuk inferensi oleh penyedia awan berskala besar melebihi perbelanjaan modal untuk latihan untuk pertama kalinya dalam sejarah. Titik tumpu industri berpindah dari “melatih model besar” ke “menggunakan model besar”, dan struktur permintaan komputasi mengalami pembalikan mendasar.

Pada era latihan, konflik utama dalam kekuatan pengiraan ialah "titik terapung presisi ganda dan skala kluster"; manakala memasuki era inferens, konflik utama berubah menjadi "lebar pita memori dan latensi komunikasi".

Tali penghujahan model besar bukan lagi semata-mata pengiraan, tetapi pemindahan data—geweja model, nilai pengaktifan sederhana, dan KV Cache perlu berinteraksi secara kerap antara DRAM luar pepejal (seperti HBM) dan GPU. Semakin besar model, semakin tinggi tenaga dan latensi yang diperlukan untuk memindahkan data, sehingga akhirnya melebihi tenaga yang diperlukan untuk pengiraan itu sendiri, membentuk dinding memori.

GPU NVIDIA membina benteng yang kukuh dengan CUDA dan NVLink, tetapi masih tidak dapat mengelakkan keadaan GPU menganggur akibat sempadan lebar pita.

Syarikat model besar domestik Zhipu menjalankan satu eksperimen yang sangat mudah: satu kumpulan inferens 512 kad GPU, dengan GPU, model, dan kod yang tidak berubah, hanya menggantikan had lebar pita rangkaian dari 200GB/s kepada 400GB/s, throughput inferens meningkat sebanyak 10%, dan latensi output token pertama berkurang sebanyak 19%—prinsipnya sangat mudah, selagi jalan diperluaskan, kereta boleh bergerak lebih pantas.

Namun, arsitektur bukan-GPU yang diwakili oleh Cerebras kelihatannya sedang menciptakan celah di dinding memori.

Chip pada peringkat wafer

Perbandingan saiz cip Cerebras WSE-3 dengan GPU NVIDIA B200

Hakikat Cerebras: Sebuah mesin pengiraan berdekatan memori berdasarkan SRAM

Cerebras Systems didirikan oleh Andrew Feldman dan lain-lain di Silicon Valley, dengan semua ahli asal daripada sebuah syarikat microserver berkuasa rendah bernama SeaMicro, yang kemudian diambil alih oleh AMD, seterusnya:

Pada tahun 2015, pasukan penubuh menetapkan jalan "komputasi peringkat wafer";

Pada tahun 2016, selesai pendaftaran, pembiayaan Siri A, memasuki peringkat pengembangan rahsia;

Pada tahun 2019, melancarkan produk pertama, cip WSE-1 dan sistem CS-1, berdasarkan proses 16nm TSMC;

Pada tahun 2021, melancarkan produk generasi kedua berdasarkan proses 7nm TSMC;

Pada tahun 2024, melancarkan produk generasi ketiga (WSE-3 / CS-3), berdasarkan proses 5nm TSMC, cip dan sistem semuanya diperbuat di Amerika Syarikat, merupakan sistem cip buatan Amerika sepenuhnya.

Chip pada peringkat wafer

Konfigurasi sistem CS-3, termasuk 1 cip WSE-3

Falsafah arsitektur Wafer-Scale Engine (WSE) Cerebras, sederhana dan kasar tetapi tepat sasaran: memanfaatkan pembesaran ruang fizikal secara ekstrem untuk mengurangkan kelewatan pengangkutan data secara ekstrem.

Cip biasa memotong satu wafer menjadi banyak cip kecil, seperti pendekatan yang digunakan oleh GPU NVIDIA. Cerebras sebaliknya: tidak memotong, tetapi langsung menjadikan hampir keseluruhan wafer sebagai satu cip besar, dipanggil Wafer-Scale Engine, WSE.

Cip tradisional dibentuk dengan memotong wafer berdiameter 300mm menjadi ratusan cip kecil; sebaliknya, Cerebras memilih untuk mengekalkan keseluruhan wafer sebagai satu cip penuh. WSE-3 terkini memiliki 4 trilion transistor dan 900,000 inti AI, dengan setiap inti dilengkapi 48KB SRAM tempatan, menjadikan jumlah SRAM pada cip mencapai 44GB, menyediakan lebar pita memori pada cip sebanyak 21PB/detik dan lebar pita rangkaian sebanyak 214Pb/detik—ribuan kali ganda lebar pita HBM tradisional.

Chip pada peringkat wafer

Kapasiti pita memori Cerebras WSE adalah 2625 kali ganda berbanding cip paket NVIDIA B200, mengatasi longkang pita memori dalam skenario inferens model besar.

Dalam arsitektur Cerebras, timbangan model tidak pernah disimpan di SRAM, tetapi disimpan di memori luar chip MemoryX dan dipindahkan secara bertahap ke cip besar. Ini dicapai dengan memisahkan penyimpanan timbangan model saraf dari unit pengiraan.

Semua bobot model disimpan di luar pada modul ekspansi memori MemoryX, dan bobot yang diperlukan untuk setiap lapisan rangkaian akan dihantar secara bertahap ke sistem CS-3 mengikut keperluan. Bobot disimpan dalam DRAM dan flash MEMORY X, dan dihantar ke sistem CS-3 pada kadar penuh bandwidth. Bobot-bobot ini tidak disimpan dalam sistem CS-3, termasuk juga tidak disimpan sementara dalam cache, dan CS-3 bergantung pada mekanisme aliran data lapisan asas untuk menyelesaikan pengiraan.

Cerebras menunjukkan keunggulan yang luar biasa dalam inferensi LLM yang terbatas pada bandwidth memori, berkat arsitektur wafer-scale. Semasa penghasilan token demi token, berat model dialirkan secara berperingkat dari MemoryX luar cip ke CS-3, dengan kadar token 1.5 hingga 5 kali lebih tinggi berbanding NVIDIA B200 apabila menjalankan model yang berbeza.

Chip pada peringkat wafer

Perbandingan kadar token GPU NVIDIA DGX B200 terhadap cip Cerebras CS-3 apabila menjalankan model besar yang berbeza

Kelebihan utamanya terletak pada SRAM 44GB pada CS-3 yang menyediakan bandwidth ultra-tinggi 21 PB/s (2625 kali ganda B200) dan interkoneksi 214 Pb/s, membebaskan transmisi aliran bobot dari batasan antarmuka HBM. Oleh itu, ia menunjukkan prestasi yang sangat unggul dalam TTFT (Time To First Token, masa dari penghantaran permintaan hingga model mengembalikan token pertama), konteks panjang, dan beban kerja agen.

Walaupun bobot dikeluarkan di luar MemoryX dan dimuat secara peringkat atas permintaan tanpa disimpan dalam cache pada cip, CS-3 bergantung pada mekanisme aliran data utama untuk melaksanakan operasi penuh presisi FP16 tanpa kehilangan data dalam SRAM; dengan ekspansi prestasi linear, ia mampu menghasilkan throughput keseluruhan yang menakjubkan semasa inferens bersamaan pelbagai pengguna.

Selain bandwidth, terdapat kelebihan dalam penggunaan tenaga. Baru-baru ini, Ketua Eksekutif InnoLight, Liu Sheng, juga menyebut bahawa pelanggan memerlukan modul optik pada 1 pJ/bit, manakala nilai semasa ialah 10 pJ/bit. Dalam cip Cerebras, penggunaan tenaga untuk perhubungan hanya 0.15 pJ/bit, manakala penggunaan tenaga perhubungan GPU semasa ialah 10 pJ/bit.

Chip pada peringkat wafer

Perbandingan bandwidth dan penggunaan kuasa antara Cerebras Interconnect dan arsitektur Interconnect GPU

Dengan demikian, jika arsitektur cip skala wafer Cerebras menjadi主流 dalam inferensi AI bahkan pelatihan, ia mungkin akan menghasilkan penekanan dan perubahan struktural yang ketara terhadap penghantaran modul optik tradisional dan CPO (Co-Packaged Optics). Logik utama ialah: permintaan tinggi terhadap modul optik dan CPO pada dasarnya bertujuan untuk menyelesaikan bottleneck bandwidth dalam “interkoneksi antar-chip” dan “interkoneksi antar-node” dalam kluster GPU; manakala arsitektur Cerebras justru menyelesaikan masalah ini dengan “menghilangkan interkoneksi terdistribusi”.

Tidak intuitif: Kelemahan nyata pada cip berskala wafer

Inti utama cip sentiasa terletak pada Trade Off. Cerebras menghadapi beberapa masalah demi bandwidth SRAM di atas cip yang ekstrem.

Kadar keberhasilan rendah?

Sebaliknya, saiz setiap inti AI dikurangkan kepada 0.05 mm² (1% daripada saiz setiap inti pengiraan H100), oleh itu kadar kejayaan sebenarnya lebih tinggi. Melalui penjajaran di atas cip, inti yang rosak boleh dimatikan dan dilewati, menjadikan ketahanan terhadap kecacatan meningkat 100 kali ganda berbanding pemproses multi-inti tradisional. Sebenarnya, cip ini mempunyai 1 juta inti AI, tetapi dengan mengambil kira kadar kejayaan, ia dilaporkan sebagai 900,000 inti AI.

Hanya mahir dalam penalaran, bukan dalam latihan?

Dalam beberapa tahun selepas Cerebras ditubuhkan, latihan adalah topik utama, jadi syarikat terus melakukan banyak kerja sekitar latihan, tetapi selepas permintaan inferens meledak, orang ramai menyedari kelebihannya dalam inferens lebih jelas.

Sebenarnya, pengiraan teragih yang disederhanakan juga membawa serangkaian kelebihan seperti pengurangan kerumitan kod dan pengurangan beban komunikasi.

Mengajar model dengan 175 bilion parameter pada 4,000 GPU biasanya memerlukan kira-kira 20,000 baris kod latihan teragih.

Cerebras mencapai setara latihan 565 baris kod—keseluruhan model boleh dipasang di atas wafer, tanpa perlu mengendalikan kerumitan selari data.

SRAM scaling telah mati, kelebihan utama menghadapi had fizikal.

Produk generasi ketiga berasaskan 5nm TSMC, kapasiti SRAMnya hanya meningkat 10% berbanding produk generasi kedua yang berasaskan 7nm TSMC; selepas 5nm, luas sel SRAM hampir tidak lagi berkurang seiring kemajuan proses.

Ini bermakna Cerebras tidak lagi boleh meningkatkan keunggulan utamanya (kapasiti SRAM) dengan meningkatkan proses TSMC, seperti dari 5nm ke 3nm, seperti yang telah dilakukan sebelum ini.

Disebabkan oleh ukuran wafer, kapasiti pembuangan haba, dan kos pengeluaran, sumber penyimpanan seperti SRAM pada cip sukar untuk berkembang secara linear seiring dengan inti pengiraan, sehingga menghadapi batasan dalam perbandingan sumber. Ini hampir menutup jalan evolusinya.

Chip pada peringkat wafer

Spesifikasi teknikal produk Cerebras generasi ketiga

Tiga ujian: penyejukan, proses, dan ekosistem.

Panas terkumpul di seluruh wafer, dengan kepadatan aliran haba yang tinggi, memerlukan pusat data khusus dan sistem penyejukan cecair khusus. Selain itu, keserasian ekosistem bermaksud pelanggan perlu menyesuaikan diri dengan stak perisian khusus mereka, dengan kompatibiliti yang lemah terhadap kerangka pemrograman am seperti CUDA, menjadikan kos pemindahan dan penyesuaian perisian tinggi.

Pemandangan luar mempunyai bandwidth rendah, menjadi "pulau" pengembangan.

Akibat hadapan reka bentuk fizikal peringkat wafer, jumlah pin I/O yang boleh dikeluarkan dari tepi WSE sangat terhad, menyebabkan lebar pita I/O-nya hanya 150GB/s. Berbanding dengan lebar pita dwi arah NVLink NVIDIA yang sering mencapai 1.8TB/s, ia bagaikan siput. Ini bermakna WSE sukar untuk dikembangkan keluar dengan pantas. Walaupun interkonek SwarmX Cerebras berfungsi dengan baik dalam penggabungan sistem berganda, lebar pita luar cip yang sangat rendah menjadi belenggu fizikal struktural apabila menghadapi model super besar yang memerlukan interkonek cip pantas.

Perjuangan jalan: Berapa lama lagi jendela peluang Cerebras?

Cara besar menyelesaikan "keperluan inferens yang memerlukan bandwidth lebih tinggi dan latensi lebih rendah" bukan hanya melalui satu jalan wafer-scale; mereka sedang mengepung keuntungan teknologi syarikat permulaan melalui tiga lintasan selari.

① Cip ASIC buatan sendiri

Google TPU v8 telah dibahagikan kepada dua versi, khusus latihan dan khusus inferens; AWS Trainium 4 sedang dalam perjalanan; Microsoft Maia sudah digunakan di dalam Azure, dibina berdasarkan proses 3nm TSMC, dengan inti tensor FP8/FP4 asli, sistem memori yang direka semula, dilengkapi 216GB HBM3e dan 272MB SRAM pada cip; bahkan Anthropic pun mulai menilai cip inferens buatan sendiri.

Kemungkinan laluan ini sangat tinggi, dan ia akan secara langsung menyebabkan "pembelian inference pihak ketiga" mengecutkan batas atas TAM (pasar yang boleh dicapai) sebanyak 10% hingga 25% pada tahun 2028.

② Generalisasi proses laluan Packaging Standard

Ini adalah serangan langsung terhadap Cerebras.

SoW (System-on-Wafer) TSMC telah dibuka secara meluas kepada pelanggan, dan interposer CoWoS 9.5x akan dilancarkan pada 2027.

Perkara yang dilakukan oleh dua produk ini—menggabungkan beberapa die pada peringkat wafer—pada dasarnya adalah menggeneralisasi dan memperluas proses fizikal Cerebras.

Vera Rubin daripada NVIDIA akan memasuki ekosistem ini pada separuh kedua tahun 2026.

Cerebras sendiri membuat cross-reticle stitching yang eksklusif, tetapi tempoh eksklusifnya paling lama hanya 2 hingga 3 tahun, dan selepas 2027-2028, rintangan prosesnya akan diencerkan oleh pengepakan canggih TSMC.

③ Terobosan dalam optik interkoneksi/optik komputasi

Interkoneksi cip elektronik dan dinding memori telah mencapai hadnya; bandwidth tinggi, latensi rendah, dan tiada gangguan silang foton adalah penyelesaian akhir.

Jalur optik yang diwakili oleh Lumentum sedang bangkit. Kelebihan utama skala wafer ialah pengiraan di atas cip, tetapi model pasti akan menjadi semakin besar, dan sambungan berkelajuan tinggi di atas skala wafer adalah keperluan mutlak.

Dengan kematangan CPO (Co-Packaged Optics) dan Optical Interconnects, kami sangat mungkin melihat I/O optik diperkenalkan secara langsung ke wafel WSE, memecahkan belenggu interkoneksi elektrik; sementara NVIDIA juga mungkin mengakuisisi perusahaan-perusahaan seperti LPU (contohnya Groq) yang memiliki keunggulan arsitektur tertentu, menggabungkan interkoneksi optik, dan mengembangkan sistem skala wafel yang kompatibel dengan perangkat lunak NV super-node yang ada.

Lari Pantai Tebing: Perniagaan dan Penghantaran Cerebras

Cerebras sedang menghadapi larian terjun bebas yang dipaksa oleh pesanan besar.

Perjanjian dengan pelanggan besar seperti OpenAI memaksa Cerebras berubah dari syarikat cip kepada penyedia perkhidmatan awan baharu. Ia tidak lagi hanya menjual peralatan keras, tetapi perlu mengunci dan membina infrastruktur dan kuasa pusat data dalam jumlah besar dalam tempoh singkat.

Menurut syarat kontrak, Cerebras perlu menghantar kapasiti pusat data 250MW setiap tahun dari 2026 hingga 2028. Namun, sistem berperingkat wafer memerlukan syarat yang sangat tinggi terhadap ruang mesin, dan tidak boleh dimasukkan secara langsung ke dalam IDC berasaskan penyejukan udara. Saat ini, persediaan kapasiti pusat data Cerebras jelas tertinggal daripada syarat kontrak.

Dari pelaksanaan wafer hingga pembinaan kilang, dari pengesahan kuasa hingga pemasangan sistem penyejukan, ini adalah lumpur yang bermodal berat dan berjangka panjang.

Penutup: Ke kiri atau ke kanan?

Kembali kepada pernyataan asal, apabila titik balik kuasa pengiraan telah tiba, inti struktur kuasa pengiraan sentiasa terletak pada pengorbanan.

Tidak ada benar atau salah mutlak, hanya penyelesaian relatif terbaik di bawah beban paling penting. Beban sebenarnya sudah berubah.

Cerebras berpaling ke kiri, memilih pengoptimuman fizikal ekstrem, menukar keseluruhan wafer dan SRAM dalam jumlah besar demi latensi rendah ekstrem dalam tugas tunggal, yang tak terkalahkan dalam skenario yang sangat sensitif terhadap latensi token pertama.

NVIDIA memilih ke kanan, mempertahankan fleksibilitas umum dengan menggunakan HBM + NVLink + throughput kluster besar untuk menghadapi berbagai beban, menyesuaikan diri dengan perubahan.

Angin bertiup, awan bergerak, jalan ke depan masih tidak pasti. Ketidakpastian teknologi dan perniagaan inilah yang menciptakan potensi gangguan. Dalam arus kuasa komputasi menuju AGI, masih terlalu awal untuk membuat kesimpulan—kerana ketidakpastian, terdapat peluang.

Artikel ini berasal daripada akaun WeChat "Bulb Lab", penulis: Thunderbolt Ranger