Cerebras' Wafer-Scale AI Çipi, çıkarım dönemine geçişte bellek duvarını aşıyor

2026 yılında, küresel Yapay Zeka gelişimi için belirleyici bir dönüm noktası geldi—büyük ölçekli bulut sağlayıcılarının çıkarım sermaye harcamaları, tarihte ilk kez eğitim sermaye harcamalarını aştı. Endüstri odak noktası, “büyük modelleri eğitmek”ten “büyük modelleri kullanmak”a kaydı ve hesaplama talebinin yapısı temel olarak tersine döndü.

Eğitim döneminde hesaplama gücüne ilişkin temel çelişki, "çift hassasiyetli kayan nokta ve küme boyutu" idi; ancak çıkarım dönemine girildiğinde, temel çelişki "bellek bant genişliği ve iletişim gecikmesi" haline geldi.

Büyük modellerin çıkarımındaki engel artık yalnızca hesaplama değil, veri taşıma—model ağırlıkları, ara aktivasyon değerleri ve KV Önbelleği, dış DRAM’da (HBM gibi) ve GPU arasında sık sık etkileşim halindedir; model ne kadar büyükse, veri taşıma enerji tüketimi ve gecikmesi o kadar artar ve nihayetinde hesaplamanın kendisinden çok daha fazla enerji tüketir, bu da bellek duvarını oluşturur.

NVIDIA GPU'lar, CUDA ve NVLink ile sağlam bir kalkan oluşturdu, ancak bant genişliği darboğazlarından kaynaklanan GPU boşta kalması kaçınılmaz.

Çinli büyük dil modeli şirketi Zhipu, çok basit bir deney yaptı: 512 GPU'dan oluşan bir çıkarım kümesinde, GPU, model ve kod değişmeden, ağ bant genişliği sınırı yalnızca 200 GB/s'ten 400 GB/s'e çıkarıldı; çıkarım verimliliği doğrudan %10 arttı, ilk token çıktı gecikmesi %19 azaldı—mantık basit: yolu genişlettiğinizde araçlar daha hızlı gidebilir.

Ancak Cerebras gibi GPU olmayan mimariler, görünüşe göre bellek duvarında bir yarık açıyor.

Wafer-level chip

Cerebras WSE-3 çipi ile NVIDIA B200 GPU boyut karşılaştırması

Cerebras'ın özü: SRAM tabanlı bir yakınsak hesaplama makinesidir

Cerebras Systems, Andrew Feldman ve diğerleri tarafından Silicon Valley'de kuruldu; erken dönem kurucu ekibi, daha sonra AMD tarafından satın alınan düşük güç tüketimli mikro sunucu şirketi SeaMicro'dan geldi; ardından:

2015 yılında kurucu ekip, "wafer-level hesaplama" yolunu belirledi;

2016 yılında kayıt tamamlandı, A serisi finansmanı gerçekleştirildi ve gizli geliştirme aşamasına girildi;

2019 yılında, TSMC 16nm prosesine dayalı ilk ürün olan WSE-1 çipi ve CS-1 sistemi piyasaya sürüldü;

2021 yılında, TSMC'nin 7 nm üretim sürecine dayalı ikinci nesil ürün başlatıldı;

2024 yılında, TSMC'nin 5 nm üretim sürecine dayalı olarak, çip ve sistem tamamen ABD'de üretilen, gerçek anlamda tamamen Amerikan yapımı bir çip sistemi olan üçüncü nesil ürün (WSE-3 / CS-3) yayınlandı.

Wafer-level chip

CS-3 sistemi, 1 adet WSE-3 çipi içerir

Cerebras'ın wafer-scale engine (WSE) mimarisi felsefesi, basit ve kaba olsa da doğrudan soruna odaklanır: veri taşıma gecikmesini aşırı şekilde azaltmak için fiziksel alanı maksimuma çıkarır.

Standart çipler, bir waferi birçok küçük çipe böler; örneğin NVIDIA GPU'ları bu fikre dayanır. Cerebras tam tersine: kesmez, neredeyse tüm waferi tek bir devasa çipe dönüştürür; bu çipe Wafer-Scale Engine (WSE) denir.

Geleneksel çipler, 300 mm çapında bir kristal wafer’i yüzlerce küçük çipe keserek oluşturulur; ancak Cerebras, tüm wafer’i koruyarak doğrudan tek bir çip olarak kullanır. En son WSE-3, 4 trilyon transistör ve 900.000 AI çekirdeğine sahiptir; her çekirdek 48 KB yerel SRAM’e sahiptir ve bu sayede çip üzerindeki toplam SRAM 44 GB’a ulaşır, 21 PB/saniye çip içi bellek bant genişliği (on‑chip memory bandwidth) ve 214 Pb/saniye ağ bant genişliği (fabric bandwidth) sunar; bu, geleneksel HBM bant genişliğinin binlerce katıdır.

Wafer-level chip

Cerebras WSE'nin bellek bant genişliği, NVIDIA B200 paket çipinin 2625 katıdır ve büyük modellerin çıkarım senaryolarında bellek bant genişliği sınırlamasını aşmıştır.

Cerebras mimarisinde, model ağırlıkları hiçbir zaman SRAM üzerinde bulunmaz, aksine dış bellek MemoryX üzerinde saklanır ve katman katman büyük çipe aktarılır. Bu, sinir ağı modelinin ağırlık depolama ve hesaplama birimlerini birbirinden ayırmak suretiyle gerçekleştirilir.

Tüm model ağırlıkları, bellek genişletme modülü MemoryX'te dışsal olarak saklanır ve ağın her katmanı için gerekli ağırlıklar, gerekli olduğunda katman bazında CS-3 sistemine aktarılır. Ağırlıklar, MEMORY X'teki DRAM ve flash bellekte saklanır ve tam bant genişliği hızında CS-3 sistemine aktarılır. Bu ağırlıklar CS-3 sistemine hiç bir şekilde saklanmaz, geçici önbellek bile bırakılmaz; CS-3, temel veri akış mekanizması üzerinden hesaplamaları gerçekleştirir.

Cerebras, çip ölçekli mimarisi sayesinde bellek bant genişliğiyle sınırlı LLM çıkarımında üstünlük sağlıyor. Token başına üretim sırasında ağırlıklar, katman bazlı olarak dışarıdaki MemoryX'ten CS-3'e akışlı olarak aktarılır; farklı modeller çalıştırıldığında, token hızı NVIDIA B200'un 1,5 ila 5 katıdır.

Wafer-level chip

NVIDIA DGX B200 GPU ile Cerebras CS-3 çipinin farklı büyük modellerdeki Token hızı karşılaştırması

Avantajının temelini, CS-3'ün 44 GB üzerindeki SRAM'ı oluşturuyor; bu, 21 PB/s (B200'un 2625 katı) aşırı yüksek bant genişliği ve 214 Pb/s bağlantı sağlayarak ağırlık akışının HBM arayüzü sınırlamalarından kurtulmasını mümkün kılıyor. Bu nedenle TTFT (Time To First Token, istek gönderilmesinden modelin ilk token'i döndürmesine kadar geçen süre), uzun bağlam ve ajan iş yüklerinde özellikle öne çıkıyor.

Ağırlıklar MemoryX dışına yerleştirilmiş ve gerekirse katman bazında yüklenir, çip üzerinde önbellekte tutulmaz; CS-3, SRAM'de tam FP16 doğrulukta kayıpsız işlemler gerçekleştirmek için çekirdek veri akışı mekanizmasına dayanır; doğrusal performans genişlemesi sayesinde çoklu kullanıcı eşzamanlı çıkarım altında şaşırtıcı toplam verimlilik sergiler.

Bant genişliğinin yanı sıra enerji tüketimi avantajı da vardır. Yakın zamanda, Zhongji Xuchuang'un başkanı Liu Sheng, müşterilerin ışık modülü için 1 pJ/bit talep ettiğini, ancak mevcut değerin 10 pJ/bit olduğunu belirtti. Cerebras çipinde, bağlantıların enerji tüketimi yalnızca 0,15 pJ/bit iken, mevcut GPU bağlantılarının enerji tüketimi 10 pJ/bit'tir.

Wafer-level chip

Cerebras bağlantı ile GPU bağlantı mimarisi arasındaki bant genişliği ve güç tüketimi karşılaştırması

Bu nedenle, Cerebras'ın wafer-level büyük çip mimarisi, AI çıkarımı hatta eğitimi için ana akım haline gelirse, geleneksel optik modüllerin ve CPO (ortak paketli optik) satış hacimlerine önemli bir baskı ve yapısal değişiklik yaratabilir. Temel mantık şudur: optik modüllerin ve CPO'nun yüksek talebi, temelde GPU kümelerindeki “çipler arası bağlantı” ve “düğüm arası bağlantı” bant genişliği darboğazlarını çözmek için gereklidir; ancak Cerebras'ın mimarisi, “dağıtılmış bağlantıları ortadan kaldırarak” bu sorunu çözer.

Tersine: Wafer seviyesinde büyük çiplerin "gerçek" ve "sahte" zayıflığı

Çipin çekirdeği her zaman Trade Off (kompromis) üzerinedir. Cerebras, çip üzerindeki SRAM için uç düzey bant genişliği sağlarken bazı sorunlar da ortaya çıkarmıştır.

Düşük verim mi?

Tam tersine, tek bir AI çekirdeğinin boyutu 0,05 mm²'ye düşürüldü (H100'un tek bir işlem çekirdeği boyutunun %1'i), bu da üretkenliği artırdı. Çip üzerindeki yönlendirme sayesinde arızalı çekirdekler kapatılabilir ve atlanabilir; bu da geleneksel çok çekirdekli işlemcilerle karşılaştırıldığında kusur toleransını 100 kat artırır. Aslında çip üzerinde 1 milyon AI çekirdeği bulunsa da, üretkenlik göz önünde bulundurularak 900 bin AI çekirdeği olarak duyurulmuştur.

Yalnızca çıkarım yapmada yetenekli, eğitimde değil mi?

Cerebras'ın kurulmasından birkaç yıl içinde eğitim ana konu olduğundan, şirket her zaman eğitim üzerine yoğunlaşmıştı; ancak çıkarım talebinin patlamasıyla, çıkarım yönündeki üstünlükleri daha belirgin hale geldi.

Gerçekten basitleştirilmiş dağıtım hesaplaması, kod karmaşıklığının ve iletişim maliyetinin azalması gibi bir dizi avantaj sağlar.

175 milyar parametreli bir modeli 4.000 GPU ile eğitmek genellikle yaklaşık 20.000 satır dağıtık eğitim kodu gerektirir.

Cerebras, 565 satır kodun eşdeğer eğitimini gerçekleştirdi—tüm model, veri paralelliği karmaşıklığına gerek kalmadan bir çip üzerine kurulabilir.

SRAM ölçeklendirme ölü, temel avantaj fiziksel bir tavanla karşılaştı.

Üçüncü nesil ürün, TSMC'nin 5 nm teknolojisine dayanmaktadır ve SRAM kapasitesi, TSMC'nin 7 nm teknolojisine dayalı ikinci nesil ürüne göre sadece %10 artmıştır. 5 nm'den sonra, SRAM hücresi alanı üretim sürecinin ilerlemesiyle neredeyse küçülmemektedir.

Bu, Cerebras'ın önceki gibi TSMC'nin 5 nm'den 3 nm'ye geçiş gibi üretim süreçlerini yükselterek temel avantajını (SRAM kapasitesi) önemli ölçüde artırmasını engeller.

Wafer boyutu, soğutma kapasitesi ve üretim maliyeti sınırlamaları nedeniyle, chip üzerindeki SRAM gibi depolama kaynakları, hesaplama çekirdekleriyle doğrusal olarak eşzamanlı olarak genişlemekte zorlanmaktadır ve kaynak oranı bir sırada tıkanmıştır. Bu, gelişim yolunu neredeyse tamamen kapatmıştır.

Wafer-level chip

Cerebras Üçüncü Nesil Ürün Teknik Özellikleri

Soğutma, üretim ve ekosistem üçlü cehennemi.

Tüm wafer üzerindeki yoğun ısı üretimi, yüksek ısı akısı yoğunluğuna neden olur ve özel veri merkezleri ile özel sıvı soğutma sistemlerine ihtiyaç duyar. Ayrıca, ekosistem genellikliği, müşterilerin özelleştirilmiş yazılım yığınlarına uyum sağlamasını gerektirir ve mevcut CUDA gibi genel programlama çerçeveleriyle uyumluluğu zayıftır; yazılım taşıma ve uyarlama maliyetleri yüksektir.

Dış bant genişliği düşük olduğu için genişleme "ada" haline gelmiştir.

Wafer-level fiziksel tasarım sınırlamaları nedeniyle, WSE'nin dışa çıkarabileceği I/O pin sayısı son derece sınırlıdır ve bu da I/O bant genişliğini sadece 150 GB/s'ye düşürür. Bu, NVIDIA'nın NVLink'inin sıklıkla 1,8 TB/s'ye ulaşan çift yönlü bant genişliğiyle karşılaştırıldığında bir salyangoz gibi görünür. Bu, WSE'nin dışa yüksek hızda genişletilmesini son derece zorlaştırır. Cerebras'ın SwarmX bağlantısı çoklu sistem birleştirmede iyi bir performans sergilese de, çoklu çip yüksek hızda bağlantı gerektiren devasa modeller karşısında, çok düşük dış bant genişliği yapısal bir fiziksel kilit haline gelir.

Yol çatışması: Büyük şirketlerin kendi geliştirme çalışmaları, Cerebras'ın pencere süresi ne kadar kaldı?

Büyük şirketlerin “tahmin için daha yüksek bant genişliği ve daha düşük gecikme” sorununa çözüm sunma yolları, sadece wafer-scale yoluna değil, aynı zamanda başlangıç şirketlerinin teknoloji avantajını üç paralel yoldan kuşatıyor.

① Kendi geliştirilen ASIC çip

Google TPU v8, eğitim-özel ve çıkarım-özel olmak üzere iki versiyona ayrıldı; AWS Trainium 4 yolda; Microsoft Maia, TSMC'nin 3nm üretim süreciyle oluşturulmuş, yerel FP8/FP4 tensör çekirdekleri, yeniden tasarlanmış bellek sistemi ve 216 GB HBM3e, 272 MB dahili SRAM ile Azure içinde kullanılmaktadır; hatta Anthropic bile kendi çıkarım çipini değerlendirmeye başladı.

Bu yolun olasılığı çok yüksektir ve 2028 yılında TAM (Toplam Erişilebilir Pazar) üzerinde üçüncü taraf inference satın alımını doğrudan etkileyecek, üst sınırı %10 ila %25 arasında sıkıştıracaktır.

② Standart Paketleme rotasının prosedürleri genelleştirilmiştir

Bu, Cerebras'a en doğrudan boyut indirgeme saldırısıdır.

TSMC'nin SoW (System-on-Wafer) çözümü müşterilere geniş çapta sunuldu ve CoWoS 9.5x interposer 2027 yılında piyasaya sürülecek.

Bu iki ürünün yaptığı şey—wafer seviyesinde çok sayıda die’yi birleştirmek—temelde Cerebras’ın fiziksel üretim sürecini genelleştirmek ve halka açık hale getirmektir.

NVIDIA'nın Vera Rubin, 2026'in ikinci yarısında bu ekosisteme girecek.

Cerebras'ın kendi geliştirdiği cross-reticle stitching tekil olsa da, bu tekillik süresi en fazla 2 ila 3 yıl olacak ve 2027-2028 sonrası için üretim engeli TSMC'nin ileri paketleme teknolojisiyle zayıflayacaktır.

③ Işık Bağlantısı / Işık Hesaplama Çıkışı

Elektronik çiplerin bağlantıları ve bellek duvarı sınıra ulaşmıştır; fotonik, yüksek bant genişliği, düşük gecikme ve sıfır araya girmesiyle nihai çözümdür.

Lumentum gibi optik yol, yükselişte. Wafer-scale'in en büyük avantajı çip üzerinde hesaplama olmakla birlikte, modeller mutlaka daha büyük hale gelecek ve wafer-scale'in üzerindeki yüksek hızda bağlantı bir zorunluluk haline gelmiştir.

CPO (Ortak Paketlenmiş Optik) ve Optik Bağlantıların olgunlaşmasıyla, gelecekte ışık I/O'nun doğrudan WSE çipine entegre edilerek elektriksel bağlantıların kısıtlamaları aşılabilir; NVIDIA ayrıca, belirli mimari avantajlara sahip LPU'ları (örneğin Groq) satın alarak, optik bağlantıları birleştirip mevcut NV süper düğüm yazılımlarıyla uyumlu çip düzeyi sistemler geliştirebilir.

Kayalık Üzerinde Koşu: Cerebras'ın Ticareti ve Teslimatı

Cerebras, büyük siparişlerin zorladığı bir uçurum yarışında.

OpenAI gibi öncü müşterilerle yapılan işlemler, Cerebras'ı bir çip şirketi olarak değil, yeni bir bulut hizmet sağlayıcısı olarak dönüşümü zorunlu kıldı. Artık sadece donanım satmıyor, kısa sürede büyük ölçekli veri merkezi elektrik ve altyapılarını garanti altına almak ve inşa etmek zorunda.

Sözleşmeye göre, Cerebras 2026-2028 yılları arasında her yıl 250 MW veri merkezi kapasitesi teslim etmelidir. Ancak, çip ölçekli sistemlerin veri merkezi gereksinimleri çok yüksektir ve geleneksel hava soğutmalı IDC'lere doğrudan yerleştirilemez. Şu anda, Cerebras veri merkezi kapasitesi hazırlıklarında sözleşme gereksinimlerinden açıkça geride kalmıştır.

Dökümden fabrika kuruma, elektrik onayından soğutma sistemi kuruma kadar, bu bir varlık yoğun, uzun dönemli çamur.

Son: Sola mı, sağa mı?

İlk önermeye dönersek, çıkarım gücü dönüm noktası ulaştığında, gücün yapısının özü her zaman tercihlerdedir.

Mutlak doğru veya yanlış yoktur, sadece en kritik yük altında göreli en iyi çözümler vardır. Yük zaten değişmektedir.

Cerebras, sola doğru, tek bir görev altında aşırı düşük gecikme elde etmek için tam bir wafer ve büyük miktarda SRAM kullanarak aşırı fiziksel optimizasyonu tercih etti; bu, ilk token gecikmesine çok duyarlı senaryolarda üstün bir performans sağlar.

NVIDIA, değişen yüklerle başa çıkmak için genel tutarlılığı tercih etti, HBM + NVLink + büyük kümelerin veri throughput'ını kullandı.

Rüzgârlar esiyor, bulutlar toplanıyor, önümüzdeki yol belirsiz. Tam da bu teknolojik ve ticari belirsizlik, devrimci olma olasılığını doğuruyor. AGI yolunda süren hesaplama akışında, şu anda karar vermek henüz erken—belirsizlik olduğu için fırsat var.

Bu yazı WeChat hesabından "Garlic Granule Lab" tarafından yayınlanmıştır, yazar: Thunderbolt Ranger