Chip AI Wafer-Scale Cerebras Membongkar Dinding Memori di Era Inferensi

Pada tahun 2026, perkembangan AI global mencapai titik balik penting—pengeluaran modal untuk inferensi oleh penyedia cloud skala besar secara historis pertama kali melebihi pengeluaran modal untuk pelatihan. Titik tumpu industri berpindah dari "melatih model besar" ke "menggunakan model besar", dan struktur permintaan komputasi mengalami perubahan mendasar.

Pada era pelatihan, kontradiksi utama kekuatan komputasi adalah "floating point presisi ganda dan skala klaster"; sementara memasuki era inferensi, kontradiksi utama berubah menjadi "bandwidth memori dan latensi komunikasi".

Penghambat dalam inferensi model besar bukan lagi hanya komputasi, tetapi pemindahan data—bobot model, nilai aktivasi menengah, dan KV Cache memerlukan interaksi frekuensi tinggi antara DRAM eksternal (seperti HBM) dan GPU. Semakin besar model, semakin tinggi konsumsi energi dan latensi pemindahan data, yang akhirnya jauh melebihi konsumsi energi komputasi itu sendiri, sehingga membentuk dinding memori.

GPU NVIDIA membangun benteng kuat dengan CUDA dan NVLink, tetapi tetap tidak dapat menghindari idle GPU yang disebabkan oleh bottleneck bandwidth.

Perusahaan model besar domestik Zhipu melakukan eksperimen sederhana: sebuah klaster inferensi 512 GPU, dengan GPU, model, dan kode tetap sama, hanya mengganti batas bandwidth jaringan dari 200 GB/s menjadi 400 GB/s, throughput inferensi langsung meningkat 10%, dan latensi output token pertama turun 19%—alasannya sederhana: semakin lebar jalan, semakin cepat mobil bisa melaju.

Namun, arsitektur non-GPU yang diwakili oleh Cerebras tampaknya sedang membuka celah di dinding memori.

Chip level wafer

Perbandingan ukuran chip Cerebras WSE-3 dengan GPU NVIDIA B200

Esensi Cerebras: mesin komputasi dekat-memori berbasis SRAM

Cerebras Systems didirikan oleh Andrew Feldman dan lainnya di Silicon Valley, dengan tim pendiri awal seluruhnya berasal dari perusahaan microserver hemat daya bernama SeaMicro, yang kemudian diakuisisi oleh AMD, lalu:

Pada tahun 2015, tim pendiri menetapkan jalur "komputasi tingkat wafer";

Pada tahun 2016, menyelesaikan pendaftaran dan putaran pendanaan Seri A, memasuki tahap pengembangan rahasia;

Pada tahun 2019, meluncurkan produk pertama, chip WSE-1 dan sistem CS-1, berbasis proses TSMC 16nm;

Pada tahun 2021, meluncurkan produk generasi kedua berbasis proses 7nm TSMC;

Pada tahun 2024, rilis produk generasi ketiga (WSE-3 / CS-3), berbasis proses 5nm TSMC, chip dan sistem seluruhnya diproduksi di Amerika Serikat, merupakan sistem chip buatan murni Amerika.

Chip level wafer

Konfigurasi sistem CS-3, dilengkapi 1 chip WSE-3

Filosofi arsitektur Wafer-Scale Engine (WSE) dari Cerebras, sederhana dan kasar namun tepat sasaran: memanfaatkan penguatan ruang fisik secara ekstrem untuk meminimalkan keterlambatan pemindahan data.

Chip biasa memotong satu wafer menjadi banyak chip kecil, misalnya GPU NVIDIA mengikuti pendekatan ini. Cerebras melakukan sebaliknya: tidak memotong, melainkan langsung membuat hampir seluruh wafer menjadi satu chip besar, disebut Wafer-Scale Engine, WSE.

Chip tradisional dibuat dengan memotong wafer berdiameter 300 mm menjadi ratusan chip kecil; sementara Cerebras memilih untuk mempertahankan seluruh wafer sebagai satu chip utuh. WSE-3 terbaru memiliki 4 triliun transistor dan 900.000 inti AI, dengan setiap inti dilengkapi 48 KB SRAM lokal, sehingga total SRAM on-chip seluruh chip mencapai 44 GB, menyediakan bandwidth memori on-chip sebesar 21 PB/detik dan bandwidth jaringan sebesar 214 Pb/detik—ribuan kali lebih besar daripada bandwidth HBM tradisional.

Chip level wafer

Memori bandwidth Cerebras WSE adalah 2625 kali lebih besar daripada chip paket NVIDIA B200, mengatasi bottleneck bandwidth memori dalam skenario inferensi model besar.

Dalam arsitektur Cerebras, bobot model tidak pernah disimpan di SRAM, tetapi disimpan di memori eksternal MemoryX dan dipindahkan secara bertahap ke chip besar. Ini dicapai dengan memisahkan penyimpanan bobot model jaringan saraf dari unit komputasi.

Semua bobot model disimpan secara eksternal di modul ekspansi memori MemoryX, dan bobot yang diperlukan untuk perhitungan setiap lapisan jaringan ditransmisikan secara bertahap ke sistem CS-3 sesuai kebutuhan. Bobot disimpan di DRAM dan flash MEMORY X, dan ditransmisikan ke sistem CS-3 dengan kecepatan bandwidth penuh. Bobot-bobot ini tidak disimpan di sistem CS-3, bahkan tidak ada cache sementara yang tersisa; CS-3 melakukan perhitungan berdasarkan mekanisme aliran data inti.

Cerebras, dengan arsitektur wafer-scale-nya, menunjukkan hambatan yang sangat unggul dalam inferensi LLM yang dibatasi oleh bandwidth memori. Saat menghasilkan token satu per satu, bobot ditransmisikan secara streaming dari MemoryX eksternal ke CS-3 per lapisan, dan kecepatan token-nya 1,5 hingga 5 kali lebih tinggi dibandingkan NVIDIA B200 saat menjalankan berbagai model.

Chip level wafer

Perbandingan kecepatan token GPU NVIDIA DGX B200 versus chip Cerebras CS-3 saat menjalankan berbagai model besar

Keunggulan utamanya terletak pada: SRAM on-chip 44GB CS-3 menyediakan bandwidth ultra-tinggi 21 PB/s (2625 kali lipat B200) dan interkoneksi 214 Pb/s, sehingga aliran bobot terbebas dari batasan antarmuka HBM. Oleh karena itu, performanya sangat unggul dalam TTFT (Time To First Token, waktu dari permintaan dikirim hingga model mengembalikan token pertama), konteks panjang, dan beban kerja agen.

Meskipun bobot dieksternalisasi dan dimuat secara bertahap sesuai permintaan oleh MemoryX tanpa disimpan di cache on-chip, CS-3 mengandalkan mekanisme aliran data inti untuk melakukan operasi penuh presisi FP16 tanpa kehilangan data di SRAM; berkat ekspansi kinerja linier, ia juga menghasilkan throughput total yang luar biasa saat inferensi paralel multi-pengguna.

Selain bandwidth, ada keunggulan dalam konsumsi daya. Baru-baru ini, dalam pidato ketua Zhongji Xuchuang, Liu Sheng, juga disebutkan bahwa permintaan pelanggan terhadap modul optik adalah 1 pJ/bit, sedangkan saat ini adalah 10 pJ/bit. Pada chip Cerebras, konsumsi daya interkoneksi hanya 0,15 pJ/bit, sedangkan konsumsi daya interkoneksi GPU saat ini adalah 10 pJ/bit.

Chip level wafer

Perbandingan bandwidth dan konsumsi daya antara arsitektur interkoneksi Cerebras dan interkoneksi GPU

Dengan demikian, jika arsitektur chip skala wafer Cerebras menjadi standar utama dalam inferensi AI bahkan pelatihan, hal ini mungkin akan menyebabkan penekanan signifikan dan perubahan struktural terhadap volume pengiriman modul optik tradisional dan CPO (Co-Packaged Optics). Logika intinya adalah: permintaan tinggi terhadap modul optik dan CPO pada dasarnya bertujuan untuk mengatasi bottleneck bandwidth dalam “interkoneksi antar-chip” dan “interkoneksi antar-node” di klaster GPU; sementara arsitektur Cerebras justru menyelesaikan masalah ini dengan “menghilangkan interkoneksi terdistribusi”.

Kontra-intuitif: Kelemahan nyata pada chip skala wafer

Inti dari chip selalu terletak pada Trade Off. Untuk mencapai bandwidth SRAM on-chip yang ekstrem, Cerebras juga menghadapi beberapa masalah.

Yield rendah?

Sebaliknya, ukuran inti AI tunggal dikurangi menjadi 0,05 mm² (1% dari ukuran inti operasi H100), sehingga tingkat hasil justru lebih tinggi. Melalui routing on-chip, inti yang cacat dapat dimatikan dan dilewati, sehingga tingkat toleransi terhadap cacat meningkat 100 kali dibandingkan prosesor multi-inti tradisional. Sebenarnya, seluruh chip memiliki satu juta inti AI, tetapi dengan mempertimbangkan tingkat hasil, dilaporkan secara resmi sebagai 900.000 inti AI.

Hanya ahli dalam penalaran, bukan dalam pelatihan?

Dalam beberapa tahun sejak berdirinya Cerebras, pelatihan menjadi topik utama, sehingga perusahaan selalu fokus pada pelatihan; namun, setelah permintaan inferensi meledak, orang-orang menyadari bahwa keunggulannya dalam inferensi jauh lebih jelas.

Sebenarnya, komputasi distribusi yang disederhanakan juga membawa sejumlah keuntungan, seperti pengurangan kompleksitas kode dan pengurangan overhead komunikasi.

Melatih model dengan 175 miliar parameter di atas 4.000 GPU biasanya memerlukan sekitar 20.000 baris kode pelatihan terdistribusi.

Cerebras mencapai pelatihan setara 565 baris kode—seluruh model dapat diinstal pada wafer, tanpa perlu menangani kompleksitas paralel data.

SRAM scaling is dead, with core advantages facing physical limits.

Produk generasi ketiga didasarkan pada 5nm TSMC, di mana kapasitas SRAMnya hanya meningkat 10% dibandingkan produk generasi kedua yang berbasis 7nm TSMC; setelah 5nm, luas sel SRAM hampir tidak lagi berkurang seiring kemajuan proses.

Ini berarti Cerebras tidak lagi dapat meningkatkan keunggulan intinya (kapasitas SRAM) sebesar dulu dengan meng-upgrade proses TSMC, seperti dari 5nm ke 3nm.

Dibatasi oleh ukuran wafer, kemampuan pembuangan panas, dan biaya produksi, sumber daya penyimpanan seperti SRAM on-chip sulit untuk berkembang secara linier sejalan dengan inti komputasi, sehingga menghadapi hambatan dalam rasio sumber daya. Ini hampir menutup jalan evolusinya.

Chip level wafer

Spesifikasi teknis produk generasi ketiga Cerebras

Tiga neraka: pendinginan, proses, dan ekosistem.

Seluruh wafer menghasilkan panas terkonsentrasi dengan kepadatan aliran panas tinggi, sehingga memerlukan ruang server khusus dan sistem pendingin cair khusus. Selain itu, kurangnya kompatibilitas ekosistem berarti pelanggan harus menyesuaikan diri dengan stack perangkat lunak khususnya, dengan kompatibilitas lemah terhadap kerangka pemrograman umum seperti CUDA, sehingga biaya porting dan penyesuaian perangkat lunak sangat tinggi.

Bandwidth eksternal rendah, menjadi "pulau" ekspansi.

Karena keterbatasan desain fisik wafer, jumlah pin I/O yang dapat diekstraksi dari tepi WSE sangat terbatas, sehingga bandwidth I/O-nya hanya 150 GB/s. Dibandingkan dengan bandwidth dua arah NVLink NVIDIA yang sering mencapai 1,8 TB/s, hal ini seperti siput. Ini berarti WSE sangat sulit untuk diperluas secara cepat ke luar. Meskipun interkoneksi SwarmX dari Cerebras cukup baik dalam menggabungkan beberapa sistem, bandwidth eksternal yang sangat rendah menjadi kunci fisik struktural ketika menghadapi model super besar yang membutuhkan interkoneksi cepat antar chip.

Perdebatan jalur: Berapa lama lagi jendela peluang Cerebras bertahan?

Cara perusahaan besar menyelesaikan masalah "inferensi memerlukan bandwidth lebih tinggi + latensi lebih rendah" tidak hanya melalui satu jalur wafer-scale, mereka sedang mengepung keuntungan teknologi startup melalui tiga jalur paralel.

① Chip ASIC buatan sendiri

Google TPU v8 telah dibagi menjadi dua versi, khusus pelatihan dan khusus inferensi; AWS Trainium 4 sedang dalam perjalanan; Microsoft Maia sudah digunakan di dalam Azure, dibangun dengan proses 3nm dari TSMC, memiliki inti tensor FP8/FP4 asli, sistem memori yang dirancang ulang, dilengkapi 216GB HBM3e dan 272MB SRAM on-chip; bahkan Anthropic pun mulai mengevaluasi chip inferensi buatan sendiri.

Probabilitas jalur ini sangat tinggi, dan akan secara langsung menyebabkan "pembelian inference pihak ketiga" menekan batas atas TAM (total available market) pada tahun 2028 sebesar 10% hingga 25%.

② Generalisasi proses rute Packaging standar

Ini adalah serangan langsung terhadap Cerebras.

SoW (System-on-Wafer) TSMC telah secara luas tersedia bagi pelanggan, dan interposer CoWoS 9.5x akan diluncurkan pada 2027.

Yang dilakukan dua produk ini—menggabungkan beberapa die di tingkat wafer—pada dasarnya adalah menggeneralisasi dan mempopulerkan proses fisik Cerebras.

Vera Rubin dari NVIDIA akan memasuki ekosistem ini pada paruh kedua 2026.

Cerebras melakukan cross-reticle stitching sendiri, meskipun eksklusif, tetapi masa eksklusivitasnya paling lama hanya 2 hingga 3 tahun, setelah 2027-2028, hambatan teknologinya akan diencerkan oleh packaging canggih TSMC.

③ Terobosan dalam optikal interkoneksi/optikal komputasi

Interkoneksi chip elektronik dan dinding memori telah mencapai batasnya; bandwidth tinggi, latensi rendah, dan nol crosstalk foton adalah solusi akhir.

Jalur optik yang diwakili oleh Lumentum sedang bangkit. Keunggulan terbesar dari skala wafer adalah komputasi di atas chip, tetapi model pasti akan semakin besar, sehingga koneksi berkecepatan tinggi di atas skala wafer menjadi kebutuhan mendesak.

Dengan matangnya CPO (Co-Packaged Optics) dan Optical Interconnects, di masa depan kita sangat mungkin melihat I/O optik langsung diintegrasikan ke dalam wafer WSE, melepaskan diri dari belenggu interkoneksi listrik; sementara NVIDIA juga mungkin mengakuisisi perusahaan-perusahaan seperti LPU (misalnya Groq) yang memiliki keunggulan arsitektur khusus, menggabungkan interkoneksi optik, dan mengembangkan sistem berbasis wafer yang kompatibel dengan perangkat lunak NV super-node yang ada.

Lari di Tepi Jurang: Bisnis dan Pengiriman Cerebras

Cerebras saat ini sedang menghadapi lari kencang mendadak yang dipicu oleh pesanan besar.

Transaksi dengan pelanggan besar seperti OpenAI memaksa Cerebras bertransformasi dari perusahaan chip menjadi penyedia layanan cloud baru. Ia tidak lagi hanya menjual perangkat keras, tetapi perlu segera mengamankan dan membangun daya serta fasilitas pusat data dalam jumlah besar.

Berdasarkan persyaratan kontrak, Cerebras harus menyerahkan kapasitas pusat data 250 MW setiap tahun dari 2026 hingga 2028. Namun, sistem berbasis wafer memiliki persyaratan yang sangat tinggi terhadap ruang server dan tidak dapat langsung dipasang di IDC berpendingin udara tradisional. Saat ini, persiapan kapasitas pusat data Cerebras jelas tertinggal dari persyaratan kontrak.

Dari peluncuran chip hingga pendirian pabrik, dari persetujuan listrik hingga penerapan sistem pendingin, ini adalah lubang berat dan berjangka panjang.

Penutup: Kiri atau kanan?

Kembali ke proposisi awal, ketika titik balik kekuatan inferensi telah tiba, inti dari arsitektur kekuatan selalu terletak pada kompromi.

Tidak ada benar atau salah mutlak, hanya solusi relatif terbaik di bawah beban terpenting. Beban sebenarnya sudah berubah.

Cerebras berpindah ke kiri, memilih optimasi fisik ekstrem, menukar seluruh wafer dan SRAM dalam jumlah besar demi latensi ultra-rendah pada tugas tunggal, yang tak terkalahkan dalam skenario yang sangat sensitif terhadap latensi token pertama.

NVIDIA memilih ke kanan, mempertahankan fleksibilitas umum dengan menggunakan HBM + NVLink + throughput klaster besar untuk menghadapi berbagai beban, tetap tenang menghadapi perubahan.

Gelombang berhembus, masa depan masih belum pasti. Ketidakpastian ganda dalam teknologi dan bisnis inilah yang menciptakan potensi gangguan. Dalam arus kekuatan komputasi menuju AGI, masih terlalu dini untuk membuat kesimpulan—karena ketidakpastian, ada peluang.

Artikel ini berasal dari akun WeChat "Bawang Putih Granula Lab", penulis: Thunderbolt Ranger