Ang Wafer-Scale AI Chip ni Cerebras ay Nagbubukas ng Memory Wall sa Panahon ng Inference

Sa taon na 2026, dumating ang isang makabuluhang punto ng pagbabago sa pag-unlad ng AI sa buong mundo—ang paggastong kapital para sa inference ng mga malaking cloud provider ay una pong lumampas sa paggastos para sa pag-train. Ang pangunahing tuldok ng industriya ay naglipat mula sa “pagbuo ng malalaking model” patungo sa “paggamit ng malalaking model,” at nagbago nang root ang istruktura ng pangangailangan sa computing power.

Sa panahon ng pagtatrabaho, ang pangunahing kontradiksiyon ng computing power ay ang “double-precision floating-point at scale ng cluster”; habang sa panahon ng inference, ang pangunahing kontradiksiyon ay naging “memory bandwidth at communication latency”.

Ang bottleneck sa pagpapatakbo ng malalaking modelo ay hindi na lamang ang pagkalkula, kundi ang paghahatid ng data—ang mga timbang ng modelo, mga intermediate activation values, at KV Cache ay nangangailangan ng madalas na interaksyon sa pagitan ng off-chip DRAM (tulad ng HBM) at GPU; mas malaki ang modelo, mas mataas ang enerhiya at latency sa paghahatid ng data, na sa huli ay lalampas sa enerhiya ng pagkalkula mismo, at kaya ay bumubuo ng memory wall.

Ang mga GPU ng NVIDIA ay nagtatayo ng matibay na pader sa pamamagitan ng CUDA at NVLink, ngunit hindi pa rin nakakaiwas sa pagka-empty ng GPU dahil sa bottleneck sa bandwidth.

Ang isang simpleng eksperimento ng Chinese large model company na Zhipu: isang 512-GPU inference cluster, kung saan ang GPU, model, at code ay hindi nagbago, ngunit ang limitasyon sa network bandwidth ay binago mula sa 200GB/s patungo sa 400GB/s—ang inference throughput ay tumataas ng 10%, at ang latency sa unang token ay bumaba ng 19%—maliwanag ang prinsipyo: kung palawakin mo ang daan, mas mabilis makakarating ang mga sasakyan.

Gayunpaman, ang mga arkitekturang hindi GPU, tulad ng Cerebras, ay tila nagpapakita ng isang pagkabukas sa pader ng memorya.

Chip sa antas ng wafer

Pagkukumpara ng laki ng chip na Cerebras WSE-3 at sa GPU na NVIDIA B200

Ang kalikasan ng Cerebras: isang machine na compute sa malapit sa memorya na batay sa SRAM

Itinatag ng Cerebras Systems ni Andrew Feldman at iba pa sa Silicon Valley, at ang unang koponan ng mga tagapagtatag ay lahat mula sa isang kumpanyang naglalabas ng maliit na microserver na may mababang pagkakasunog na tinatawag na SeaMicro, na pagkatapos ay kinuha ng AMD, sumunod:

Noong 2015, itinatag ng founding team ang landas na “wafer-level computing”;

Noong 2016, natapos ang rehistrasyon at ang pagsasagawa ng pondo sa Seri A, at pumasok sa panao na pagpapalawak;

Noong 2019, inilunsad ang unang produkto, ang WSE-1 chip at CS-1 system, batay sa proseso ng TSMC na 16nm;

Noong 2021, ipinakilala ang ikalawang henerasyon ng produkto, batay sa proseso ng 7nm ng TSMC;

Sa 2024, ipinakilala ang ikatlong henerasyon ng produkto (WSE-3 / CS-3), na batay sa proseso ng 5nm ng TSMC, kung saan ang chip at sistema ay gawa sa Estados Unidos, isang tunay na 100% gawa sa Amerika na sistema ng chip.

Chip sa antas ng wafer

CS-3 system configuration, includes 1 WSE-3 chip

Ang pilosopiya ng arkitektura ng Wafer-Scale Engine (WSE) ni Cerebras, simpleng magaspang ngunit direktang tumutugon sa problema: paggamit ng ekstremong pagpapalawak sa pisikal na espasyo upang makamit ang ekstremong pagpapaliit sa latency ng paghahatid ng data.

Ang karaniwang chip ay ginagawa sa pamamagitan ng paghahati ng isang wafer sa maraming maliit na chip, tulad ng ideya ng NVIDIA GPU. Kung gayon, ang Cerebras ay kabaligtaran: hindi ito hinahati, kundi direktang ginagawa ang halos buong wafer bilang isang napakalaking chip, na tinatawag na Wafer-Scale Engine, WSE.

Ang tradisyonal na chip ay nabubuo sa pamamagitan ng pagkakatali ng isang buong wafer na may diametrong 300mm sa mga maliit na chip; ngunit pinili ng Cerebras na panatilihin ang buong wafer bilang isang buong chip. Ang pinakabagong WSE-3 ay may 4 trilyon na transistor at 900,000 AI cores, kada core ay may 48KB na lokal na SRAM, na nagbibigay ng kabuuang 44GB na on-chip SRAM, at nagtataguyod ng 21PB/s na on-chip memory bandwidth at 214Pb/s na fabric bandwidth—mga libo-libong beses ang laki ng tradisyonal na HBM bandwidth.

Chip sa antas ng wafer

Ang memory bandwidth ng Cerebras WSE ay 2,625 beses ang dami ng memory bandwidth ng NVIDIA B200 packaged chip, at naglutas sa bottleneck ng memory bandwidth sa mga senaryo ng big model inference.

Sa arkitektura ng Cerebras, ang mga timbang ng modelo ay hindi kailanman nasa SRAM, kundi nasa panlabas na memorya na MemoryX, at hinahatid layer sa layer patungo sa malaking chip. Ito ay natutupad sa pamamagitan ng paghihiwalay ng pag-iimbak ng mga timbang ng neural network mula sa mga unit ng computation.

Ang lahat ng mga timbang ng modelo ay naka-store sa labas sa MemoryX, ang mga timbang na kailangan ng bawat layer ng network ay ikinakarga nang pagsunod-sunod sa CS-3 system ayon sa pangangailangan. Ang mga timbang ay naka-store sa DRAM at flash ng MEMORY X at ikinakarga sa CS-3 system sa buong bandwidth rate. Hindi ito naka-store sa CS-3 system, kahit sa temporaryong cache, at gumagamit ang CS-3 ng core-level data flow mechanism para sa pag-compute.

Ang Cerebras ay nagpapakita ng isang malaking pagkakaiba sa LLM inference na may limitadong memory bandwidth gamit ang itsura ng wafer-level. Habang ginagawa ang pagbuo ng bawat token, ang weights ay stream mula sa panlabas na MemoryX patungo sa CS-3, at ang token rate nito ay 1.5 hanggang 5 beses na mas mataas kaysa sa NVIDIA B200 sa iba't ibang modelo.

Chip sa antas ng wafer

Pagkukumpara ng Token rate ng英伟达DGX B200 GPU at Cerebras CS-3 chip sa iba't ibang malalaking modelo

Ang kanyang pangunahing kahusayan ay nasa 44GB na on-chip SRAM ng CS-3 na nagbibigay ng sobrang mataas na bandwidth na 21 PB/s (2,625 beses ang B200) at 214 Pb/s na interconnect, na nagpapalaya sa pagpapadala ng weights mula sa mga limitasyon ng HBM interface. Kaya, sa TTFT (Time To First Token, oras mula sa paglalabas ng kahilingan hanggang sa mabigyan ng unang token ng modelo), mahabang konteksto, at mga workload ng agent, ito ay lalong nakikita ang kanyang kalakasan.

Bagaman ang weights ay nasa labas ng MemoryX at load sa bawat layer ayon sa pangangailangan at hindi naka-cache sa chip, ang CS-3 ay gumagamit ng core data flow mechanism upang matapos ang buong FP16 precision na walang pagkawala sa SRAM; dahil sa linear performance scaling, ito ay naglalabas ng nakakagulat na total throughput sa maraming user na parallel inference.

Bukod sa bandwidth, mayroon din itong kahusayan sa pagkonsumo ng enerhiya. Sa isang talakayan ni Liu Sheng, ang CEO ng InfiniBand, binanggit niya na ang hiling ng mga kliyente sa optical modules ay 1 pJ/bit, samantalang ang kasalukuyang halaga ay 10 pJ/bit. Sa mga chip ng Cerebras, ang pagkonsumo ng enerhiya ng interconnect ay lamang 0.15 pJ/bit, habang ang pagkonsumo ng enerhiya ng interconnect ng kasalukuyang GPU ay 10 pJ/bit.

Chip sa antas ng wafer

Paghahambing ng bandwidth at pagkakasunod sa enerhiya ng Cerebras Interconnect at GPU Interconnect Architecture

Kaya, kung ang wafer-scale large chip architecture ng Cerebras ay maging pangunahin sa AI inference at kahit sa training, maaaring magdulot ito ng malaking pagbaba at struktural na pagbabago sa paglabas ng tradisyonal na optical modules at CPO (co-packaged optics). Ang pangunahing lohika ay: ang mataas na pangangailangan sa optical modules at CPO ay nagmumula sa paglutas ng bandwidth bottleneck sa “inter-chip interconnection” at “inter-node interconnection” sa GPU clusters; samantala, ang arkitektura ng Cerebras ay direktang lalampas sa distributed interconnection upang malutas ang problema.

Hindi intuïtibo: Ang "totoo o fake" na kakulangan ng malalaking chip sa antas ng wafer

Ang core ng chip ay laging nasa Trade Off. Para sa ekstrang bandwidth ng on-chip SRAM, dinadala ng Cerebras ang ilang mga problema.

Mababa ang yield?

Kabaligtaran nito, binawasan ang sukat ng isang AI core hanggang 0.05 mm² (1% ng sukat ng isang compute core ng H100), kaya mas mataas ang yield. Sa pamamagitan ng routing sa chip, maaaring i-disable at i-bypass ang mga may defekto, na nagpapataas ng tolerance sa mga defekto ng 100 beses kumpara sa tradisyonal na multi-core processor. Sa katotohanan, mayroon ang buong chip na 1 milyong AI core, ngunit dahil sa yield, inihayag nito ang 900,000 AI core.

Lamang magaling sa pag-iisip, hindi magaling sa pagtuturo?

Sa loob ng ilang taon mula sa pagkakatatag ng Cerebras, ang pagtatrain ay ang pangunahing paksa, kaya ang kompanya ay laging nag-gawa ng maraming trabaho sa pagtatrain; ngunit pagkatapos umabot ng malaking demand sa inference, napagtanto ng mga tao na mas malinaw ang kanilang kahusayan sa inference.

Sa totoo lang, ang pinasimple na distributed computing ay nagdala rin ng isang serye ng mga benepisyo tulad ng pagbaba ng kumplikadong code at pagbaba ng communication overhead.

Ang pag-train ng isang modelo na may 175 bilyong parameter sa 4,000 na GPU ay karaniwang nangangailangan ng halos 20,000 na linya ng code para sa distributed training.

Nakamit ng Cerebras ang katumbas na pagtatrain ng 565 na linya ng code—ang buong modelo ay maaaring i-install sa wafer, nang walang kailangang harapin ang kumplikadong data parallelism.

Nawawalan na ng bisa ang SRAM scaling, at ang pangunahing kahusayan ay nakakatagpo sa pisikal na hangganan.

Ang ikatlong henerasyon ng produkto ay batay sa 5nm ng TSMC, kung saan ang kapasidad ng SRAM ay tumaas lamang ng 10% kumpara sa ikalawang henerasyon na batay sa 7nm ng TSMC; pagkatapos ng 5nm, ang sukat ng SRAM cell ay halos hindi na bumababa kasunod ng pag-unlad ng proseso.

Ibig sabihin nito na hindi na kayang gawin ng Cerebras ang pagpapalaki ng kanyang pangunahing kahusayan (kapasidad ng SRAM) sa pamamagitan ng pag-upgrade sa proseso ng TSMC, tulad ng pagmula sa 5nm papunta sa 3nm, gaya ng dati.

Dahil sa limitasyon sa laki ng wafer, kakayahan sa pagpapalamig, at gastos sa paggawa, ang mga yunit ng pag-iimbak tulad ng on-chip SRAM ay hindi makakasabay sa linyar na paglago ng mga core ng komputasyon, at nakakatagpo ng bottleneck sa pagkakaayos ng mga yunit. Ito ay halos nagpaputol sa kanyang landas ng pag-unlad.

Chip sa antas ng wafer

Mga teknikal na spesipikasyon ng Cerebras Gen 3

Tatlong hirap: pagpapalamig, proseso, at ekosistema.

Ang buong wafer ay nag-iisip ng init sa isang lugar, na may mataas na density ng heat flow, kaya kailangan ng custom na data center at espesyal na liquid cooling system. Bukod dito, ang pagkakasunod-sunod sa ecosystem ay nangangahulugan na ang mga customer ay kailangang mag-adjust sa kanilang custom software stack, at ang kompatibilidad nito sa umiiral na mga pangkalahatang framework tulad ng CUDA ay mababa, na nagdudulot ng mataas na gastos sa pagpapalit at pagpapadapt ng software.

Mababang external bandwidth, naging “island” sa pagpapalawak.

Dahil sa mga limitasyon sa physical design sa antas ng wafer, ang bilang ng I/O pins na maaaring i-extract mula sa edge ng WSE ay napakakaliit, na nagresulta sa I/O bandwidth na lamang ng 150 GB/s. Ito ay katulad ng isang kuwago kumpara sa bidirectional bandwidth ng NVIDIA NVLink na madalas ay 1.8 TB/s. Ibig sabihin, mahirap para sa WSE na mag-expand nang mabilis sa labas. Kahit na ang SwarmX interconnect ng Cerebras ay nakakagawa nang mabuti sa pagkakaisa ng maraming sistema, ang napakaliit na off-chip bandwidth ay naging isang struktural na pisikal na kadena sa harap ng napakalaking modelo na nangangailangan ng mabilis na interconnect sa maraming chip.

Pakikipaglaban sa ruta: Gaano katagal ang panahon ng Cerebras sa pagbuo nito ng sarili?

Hindi lang ang wafer-scale ang solusyon ng mga malalaking kumpanya sa “kailangan ng mas mataas na bandwidth at mas mababang latency sa inference”—nagpapatakbo sila ng tatlong paralel na landas upang mag-encircle ang teknolohikal na benepisyo ng mga startup.

① Self-developed ASIC chip

Ang Google TPU v8 ay nahati na sa dalawang bersyon: training-specific at inference-specific; ang AWS Trainium 4 ay nasa daan; ang Microsoft Maia ay nasa paggamit sa loob ng Azure, gawa sa TSMC 3nm process, may native FP8/FP4 tensor cores, bagong disenyo na memory system, na may 216GB HBM3e at 272MB on-chip SRAM; kahit ang Anthropic ay nagsisimula nang mag-evaluate ng kanilang sariling inference chip.

Ang probabilidad ng path na ito ay sobrang mataas, at ito ay direktang magdudulot ng “third-party inference procurement” sa TAM (total addressable market) noong 2028, na may pagbawas sa upper bound ng 10% hanggang 25%.

② Pagkakaroon ng pangkalahatang proseso para sa standard packaging route

Ito ang pinakadirektang pagbaba ng antas sa Cerebras.

Ang SoW (System-on-Wafer) ng TSMC ay nasa malawakang pag-access sa mga customer, at ang CoWoS 9.5x interposer ay mabubukas na noong 2027.

Ang ginagawa ng dalawang produkto na ito—ang pag-stitching ng maraming die sa antas ng wafer—ay本质上 ay ang pagpapakaraniwan at pagpapalawak ng pisikal na proseso ng Cerebras.

Ang Vera Rubin ni NVIDIA ay papasok sa ekosistema noong ikalawang kalahati ng 2026.

Ang cross-reticle stitching na gawa ng Cerebras ay eksklusibo, ngunit ang eksklusibong panahon ay hindi hihigit sa 2 hanggang 3 taon; pagkatapos ng 2027–2028, ang kanilang teknikal na hadlang ay mababawasan ng advanced packaging ng TSMC.

③ Paglalabas ng optical interconnect/optical computing

Ang pag-uugnay ng mga electronic chip at ang memory wall ay nasa limitasyon na; ang mataas na bandwidth, mababang latency, at walang crosstalk ng photon ay ang huling solusyon.

Ang optical pathway na kinakatawan ni Lumentum ay nagkakaroon ng pag-unlad. Ang pinakamalaking kahusayan ng wafer-scale ay ang on-chip computing, ngunit ang mga modelo ay lalaking lalong malaki, at ang high-speed interconnect sa itaas ng wafer scale ay isang pangangailangan.

Sa pagkakasunod ng CPO (co-packaged optics) at optical interconnects, malamang na makikita natin ang direkta nang pagdudulot ng optical I/O sa WSE wafer, na nagpapalaya sa mga elektrikal na koneksyon; at maaari ring mag-acquire ang NVIDIA ng mga kompanya tulad ng LPU (hal. Groq) na may mga partikular na advantage sa arkitektura, at gamitin ang optical interconnect upang stablishin ang wafer-level system na kompatibleng may kasalukuyang NV super-node software.

Pagsiklab sa Kanyon: Ang Negosyo at Pagpapadala ng Cerebras

Ang Cerebras ay kasalukuyang nasa gitna ng isang cliffside sprint na dulot ng malalaking order.

Ang pagtutok sa mga malalaking kliyente tulad ng OpenAI ay nagpaksil sa Cerebras na maging isang bagong uri ng cloud service provider, hindi na lamang isang kumpanya ng chip. Kailangan na nito na mag-lock at magtatag ng malalaking kapasidad ng kuryente at pasilidad sa data center sa maikling panahon.

Ayon sa kontrata, kailangan ng Cerebras na magbigay ng 250MW na kapasidad ng data center bawat taon mula 2026 hanggang 2028. Gayunpaman, ang mga sistema sa antas ng wafer ay may mataas na mga kahilingan sa kuwarto at hindi maaaring direkting ilagay sa tradisyonal na air-cooled IDC. Kasalukuyan, napalagay na nangunguna ang Cerebras sa paghahanda ng kapasidad ng data center kumpara sa mga pangangailangan ng kontrata.

Mula sa paggawa ng chip hanggang sa pagtatayo ng pabrika, mula sa pagpapahintulot sa enerhiya hanggang sa pag-deploy ng sistema ng pagpapalamig, ito ay isang malalim na kalaliman na may malaking kapital at mahabang panahon.

Wakas: Sa kaliwa o sa kanan?

Bumabalik sa orihinal na pahayag, kapag ang tumbok ng computing power ay nasa dulo na, ang core ng computing architecture ay laging nasa pagpili.

Walang tiyak na tama o mali, lamang ang relatibong pinakamahusay na solusyon sa pinakamahalagang load. Ang load ay nagsisimula nang magbago.

Ang Cerebras ay umiikot sa kaliwa, pinili ang ekstremong physical optimization, nagpalit ng buong wafer at malaking dami ng SRAM para sa ekstremong mababang latency sa isang single task, na nagiging walang katumbas sa mga scenario kung saan ang unang token latency ay sobrang sensitibo.

Ang NVIDIA ay sumasang-ayon sa kanan, pumili na panatiliin ang pagiging generiko gamit ang HBM + NVLink + malaking cluster throughput upang harapin ang iba’t ibang uri ng load, na nagpapakita ng kahusayan sa pagbabago.

Mula sa mga alon at ulap, ang kinabukasan ay hindi pa malinaw. Ito ay sa pamamagitan ng dual na kawalan ng katiyakan sa teknolohiya at negosyo na nabubuo ang posibilidad ng pagbabago. Sa gitna ng malaking daloy ng computing power patungo sa AGI, hindi pa sobra ang pagpapasya ngayon—dahil sa kawalan ng katiyakan, mayroong pagkakataon.

Nakuha mula sa WeChat public account "Garlic Granule Lab", may-akda: Thunderbolt Ranger