Вейфер-масштабний AI-чіп Cerebras зламав стіну пам’яті в еру висновків

У 2026 році розвиток штучного інтелекту на глобальному рівні досягнув маркового переломного моменту — витрати на інференс великих хмарних провайдерів вперше в історії перевищили витрати на навчання. Промислова точка опору змістилася з «тренування великих моделей» на «використання великих моделей», і структура попиту на обчислювальні потужності зазнала фундаментальної зміни.

У епоху навчання ключовим протиріччям обчислювальної потужності було «подвійна точність з плаваючою комою та розмір кластера»; а в епоху висновку ключовим протиріччям стало «пропускна здатність пам’яті та комунікаційна затримка».

Обмеженням виведення великих моделей більше не є лише обчислення, а пересування даних — ваги моделі, проміжні активовані значення та KV Cache часто обмінюються між зовнішнім DRAM (наприклад, HBM) і GPU. Чим більша модель, тим вищими є енергоспоживання та затримка при пересуванні даних, що в кінцевому підсумку перевищує енергоспоживання самого обчислення, утворюючи пам’яткову стіну.

GPU від NVIDIA, що ґрунтуються на CUDA та NVLink, створили міцну фортецю, але все ще стикаються з обмеженнями пропускної здатності, що призводить до простою GPU.

Китайська компанія Zhipu, що розробляє великі мовні моделі, провела дуже простий експеримент: кластер для висновку з 512 GPU, де GPU, модель та код залишилися незмінними, а лише верхній ліміт пропускної спроможності мережі було змінено з 200 ГБ/с на 400 ГБ/с — пропускна здатність висновку зросла на 10%, а затримка першого токена зменшилася на 19% — логіка проста: якщо розширити дорогу, автомобілі зможуть їхати швидше.

Однак архітектури, як Cerebras, здається, розривають стіну пам’яті.

Чіпи на рівні відволоки

Порівняння розмірів чіпа Cerebras WSE-3 та GPU NVIDIA B200

Суть Cerebras: комп’ютер на основі SRAM з обчисленнями поблизу пам’яті

Cerebras Systems була заснована в Кремнієвій долині Ендрю Фельдманом та іншими, усі початкові засновники походили з компанії SeaMicro, виробника низькопотужних мікросерверів, яку пізніше було придбано AMD, після чого:

У 2015 році засновники визначили напрямок «обчислення на рівні вугілля»;

У 2016 році завершено реєстрацію та раунд фінансування серії A, почався етап прихованої розробки;

У 2019 році було запущено перший продукт — чіп WSE-1 і систему CS-1, виготовлені за технологією TSMC 16 нм;

У 2021 році було випущено друге покоління продукту на основі технології 7 нм TSMC;

У 2024 році було випущено третє покоління продуктів (WSE-3 / CS-3), виготовлених за технологією TSMC 5 нм, де чіп і система були повністю вироблені в США — це справжня чисто американська чіп-система.

Чіпи на рівні відволоки

Конфігурація системи CS-3 з одним чіпом WSE-3

Філософія архітектури Wafer-Scale Engine (WSE) компанії Cerebras — проста й груба, але прямо в ціль: за рахунок максимального збільшення фізичного простору досягається максимальне зменшення затримок при перенесенні даних.

Звичайні чіпи вирізають з вусів, розрізаючи їх на багато малих чіпів, наприклад, GPU від NVIDIA виготовляють саме таким способом. Cerebras діє навпаки: не розрізає, а зразу виготовляє майже цілий вус як один надвеликий чіп, який називається Wafer-Scale Engine, WSE.

Традиційні чіпи виготовляються шляхом розрізання цілого відлітка діаметром 300 мм на сотні малих чіпів; тоді як Cerebras вирішив зберегти цілий відліток і використовувати його як один цілий чіп. Найновіший WSE-3 містить 4 трильйони транзисторів і 900 000 AI-ядер, кожне з яких має 48 КБ локальної SRAM, що дає загальну кількість SRAM на чіпі 44 ГБ, забезпечуючи пропускну здатність пам’яті на чіпі 21 ПБ/с і пропускну здатність мережі 214 Пб/с — у тисячі разів більше, ніж у традиційної HBM.

Чіпи на рівні відволоки

Пропускна здатність пам’яті Cerebras WSE у 2625 разів перевищує пропускну здатність чіпа у компактному виконанні NVIDIA B200, подолавши обмеження пропускної здатності пам’яті у сценаріях висновку великих моделей.

У архітектурі Cerebras ваги моделі ніколи не зберігаються на SRAM, а зберігаються у зовнішній пам’яті MemoryX і поступово переносяться на великий чіп. Це досягається шляхом розділення зберігання ваг нейронної мережі від обчислювальних блоків.

Всі ваги моделей зберігаються зовні у модулі розширення пам’яті MemoryX; ваги, необхідні для обчислення кожного шару мережі, передаються поступово на кожному шарі до системи CS-3. Ваги зберігаються у DRAM та флеш-пам’яті MEMORY X і передаються до системи CS-3 з максимальною пропускною здатністю. Ці ваги не зберігаються в системі CS-3, навіть тимчасовий кеш не залишається — CS-3 виконує обчислення за допомогою фундаментального механізму потоку даних.

Cerebras завдяки своїй архітектурі на рівні вугілля демонструє неперевершений бар’єр у висновуванні LLM, обмежених пропускною здатністю пам’яті. Під час генерації по токену ваги потоково передаються від зовнішньої пам’яті MemoryX до CS-3 по шарах; при запуску різних моделей швидкість токенів у 1,5–5 разів вища, ніж у NVIDIA B200.

Чіпи на рівні відволоки

Порівняння швидкості токенів для різних великих моделей між GPU NVIDIA DGX B200 та чіпом Cerebras CS-3

Його ключова перевага полягає в тому, що 44 ГБ вбудованого SRAM CS-3 забезпечує надвищу пропускну здатність 21 ПБ/с (у 2625 разів більше, ніж у B200) та зв’язок 214 Пб/с, що дозволяє вивести потік вагів за межі обмежень інтерфейсу HBM. Тому він особливо відзначається в таких сценаріях, як TTFT (Time To First Token — час від надсилання запиту до отримання першого токена моделлю), довгі контексти та робочі навантаження агентів.

Хоча ваги зовнішні і завантажуються пошарово за потребою в MemoryX, а не кешуються на чипі, CS-3 забезпечує повністю втратні операції з точністю FP16 за допомогою механізму потоку даних у SRAM; завдяки лінійному масштабуванню продуктивності він демонструє вражаючу загальну пропускну здатність під час паралельного висновування для кількох користувачів.

Крім пропускної здатності, є перевага щодо споживання енергії. У недавній промові генерального директора InnoLight Liu Sheng зазначалося, що клієнти вимагають від оптичних модулів 1 пДж/біт, тоді як зараз це 10 пДж/біт. У чіпах Cerebras споживання енергії інтерконектів становить лише 0,15 пДж/біт, тоді як у сучасних GPU воно становить 10 пДж/біт.

Чіпи на рівні відволоки

Порівняння пропускної здатності та споживання енергії між архітектурами Cerebras та GPU

З цього випливає, що якщо архітектура кристалів рівня відливу Cerebras стане домінуючою для AI-виведення навіть для навчання, це може значно знизити та структурно змінити обсяги поставок традиційних оптичних модулів та CPO (спільно упакованої оптики). Основна логіка полягає в тому, що високий попит на оптичні модулі та CPO походить з необхідності подолання обмежень пропускної здатності між «взаємозв’язками між чіпами» та «взаємозв’язками між вузлами» у GPU-кластерах; а архітектура Cerebras вирішує цю проблему шляхом «виключення розподілених з’єднань».

Проти інтуїції: «справжній» і «підроблений» дефект великих чіпів на рівні вугілля

Суть чіпа завжди полягає в Trade Off (балансуванні). Cerebras, щоб досягти максимального пропускної здатності SRAM на кристалі, також створив деякі проблеми.

Низький вихід?

Навпаки, розмір окремого AI-ядра зменшено до 0,05 квадратного міліметра (1% від розміру окремого обчислювального ядра H100), тому вихід добрих чипів вищий. За допомогою маршрутизації на кристалі можна вимкнути та обійти дефектні ядра, що збільшує стійкість до дефектів у 100 разів порівняно з традиційними багатоядерними процесорами. Насправді на всьому чипі розміщено 1 мільйон AI-ядер, але з урахуванням виходу добрих чипів оголошується 900 000 AI-ядер.

Лише добре міркуєте, але не вмієте навчати?

За кілька років існування Cerebras навчання було основною темою, тому компанія зосередилася на навчанні, але після вибухового попиту на висновки люди зрозуміли, що її переваги у висновках ще більш виражені.

Насправді спрощене розподілене обчислення також призводить до зниження складності коду та зменшення комунікаційних витрат.

Для навчання моделі з 175 мільярдами параметрів на 4000 GPU зазвичай потрібно близько 20 тисяч рядків коду для розподіленого навчання.

Cerebras досяг еквівалентного навчання 565 рядків коду — вся модель може бути встановлена на виробі, не вимагаючи обробки складності паралелізації даних.

SRAM масштабування мертвий, основні переваги зустріли фізичні межі.

Третє покоління продуктів виготовлене за технологією TSMC 5 нм, а їхній обсяг SRAM збільшився лише на 10% порівняно з другим поколінням, виготовленим за технологією TSMC 7 нм. Після 5 нм площа SRAM-комірки майже не зменшується зі збільшенням технологічного процесу.

Це означає, що Cerebras більше не може так, як раніше, значно збільшити свою ключову перевагу (об’єм SRAM), оновлюючи технологічний процес TSMC (наприклад, переходячи з 5 нм на 3 нм).

Обмеження розміру валика, здатності до відведення тепла та виробничих витрат роблять неможливим синхронне лінійне масштабування ресурсів пам’яті, таких як SRAM на кристалі, порівняно з обчислювальними ядрами, що створює бар’єр для розподілу ресурсів. Це майже повністю перекриває шлях їхнього розвитку.

Чіпи на рівні відволоки

Технічні характеристики третього покоління Cerebras

Трійний пекло: охолодження, виробництво та екосистема.

Цілий відтинок відчуває концентроване виділення тепла з високою щільністю теплового потоку, що вимагає використання спеціалізованих серверних і спеціальних рідинних систем охолодження. Крім того, через низьку сумісність з існуючими універсальними програмними фреймворками, такими як CUDA, клієнти повинні адаптуватися до власного програмного стеку, що призводить до високих витрат на міграцію та адаптацію програмного забезпечення.

Низька зовнішня пропускна здатність перетворюється на «острів» розширення.

Завдяки обмеженням фізичного дизайну на рівні відливів, кількість I/O-пінів, які можна вивести на краю WSE, надзвичайно обмежена, що призводить до I/O пропускної здатності лише 150 ГБ/с. У порівнянні з двонаправленою пропускною здатністю NVLink від NVIDIA, яка становить 1,8 ТБ/с, це ніби равлик. Це означає, що WSE дуже важко масштабувати з високою швидкістю назовні. Хоча інтерконект SwarmX від Cerebras добре справляється з об’єднанням кількох систем, у випадку надвеликих моделей, що вимагають швидкого міжчіпового з’єднання, надзвичайно низька зовнішня пропускна здатність стає структурним фізичним обмеженням.

Боротьба за шлях: Скільки часу залишилося у Cerebras на фоні саморозробки великих компаній?

Великі компанії вирішують проблему «виведення вимагає більшої пропускної здатності та нижчої затримки» не лише шляхом wafer-scale — вони одночасно розробляють три напрямки, щоб обійти технологічну перевагу стартапів.

① Власний ASIC-чіп

Google TPU v8 вже розділено на дві версії: для навчання та для висновку; AWS Trainium 4 на шляху; Microsoft Maia вже використовується всередині Azure, виготовлена за технологією TSMC 3 нм, з нативними тензорними ядрами FP8/FP4, переробленою системою пам’яті та 216 ГБ HBM3e, 272 МБ начіпного SRAM; навіть Anthropic почав оцінювати власний чіп для висновку.

Ймовірність цього сценарію дуже висока, і він призведе до прямого впливу на закупівлю сторонніх inference-рішень у TAM (загальний досяжний ринок) 2028 року, зі стисканням верхньої межі на 10–25%.

② Уніфікація технологій для стандартного маршруту упаковки

Це найпряміший спосіб знизити Cerebras.

SoW (System-on-Wafer) TSMC вже широко доступний для клієнтів, а інтерпозит CoWoS 9.5x буде запущений у 2027 році.

Те, що роблять ці два продукти — з’єднання кількох die на рівні вейфера — суттєво полягає у універсалізації та демократизації фізичного процесу Cerebras.

Vera Rubin від NVIDIA увійде в цю екосистему в другій половині 2026 року.

Хоча Cerebras власна технологія cross-reticle stitching є ексклюзивною, термін ексклюзивності триває не більше 2–3 років, і після 2027–2028 років її технологічний бар’єр буде зменшений завдяки передовим упаковочним рішенням TSMC.

③ Прорив у галузі оптичних з’єднань/оптичних обчислень

Зв’язки між електронними чіпами та пам’яттева стіна досягли межі; висока пропускна здатність, низька затримка та відсутність взаємних перешкод фотонів — це остаточний розв’язок.

Оптичний напрямок, представлений Lumentum, набирає обертів. Найбільша перевага wafer-scale — це обчислення на чипі, але моделі необхідно будуть збільшувати, і швидке з’єднання вище wafer-scale стає необхідністю.

З дозріванням CPO (спільно упакованої оптики) та оптичних інтерфейсів у майбутньому ми, найімовірніше, побачимо, що оптичні I/O будуть безпосередньо інтегровані у вироби WSE, звільняючи їх від обмежень електричних з’єднань; а NVIDIA також може придбати компанії з LPU (наприклад, Groq), які мають певні архітектурні переваги, і поєднати їх з оптичними інтерфейсами для розробки виробів на рівні виробу, сумісних з існуючим ПО NV-супервузлів.

Біг по скелі: бізнес і постачання Cerebras

Cerebras зараз переживає стрімкий падіння, спричинене величезними ордерами.

Співпраця з такими головними клієнтами, як OpenAI, змусила Cerebras перетворитися з компанії з виробництва чіпів у нового типу хмарного провайдера. Їй більше не достатньо просто продавати обладнання — потрібно швидко забезпечити та побудувати величезні об’єми електропостачання та інфраструктури для центрів обробки даних.

Згідно з умовами контракту, Cerebras має щорічно поставляти 250 МВт потужності центру обробки даних у 2026–2028 роках. Однак вимоги до приміщень для систем на рівні вугілля дуже високі, і їх не можна просто встановити в традиційних повітряно охолоджуваних ІДЦ. Наразі Cerebras значно відстає в підготовці потужності центру обробки даних від вимог контракту.

Від виготовлення чіпів до будівництва заводу, від затвердження електропостачання до встановлення систем охолодження — це багатоїмовний, довготривалий болото.

Фінал: Вліво чи вправо?

Повертаючись до початкового тезису, коли точка перелому обчислювальної потужності настала, ядром архітектури обчислювальної потужності завжди є вибір.

Немає абсолютної правди чи помилки, лише відносно оптимальні рішення при найважливішій навантаженні. Навантаження вже змінюється.

Cerebras зробив вибір на користь максимального фізичного оптимізування, пожертвувавши цілою витратною пластиною та величезною кількістю SRAM, щоб досягти мінімальної затримки при виконанні однієї задачі — це неперевершено для сценаріїв, де критично важлива затримка першого токена.

NVIDIA вибрав правильний шлях, зберігаючи універсальність за допомогою HBM + NVLink + надвеликої пропускної здатності кластерів, щоб ефективно справлятися з різноманітними навантаженнями, залишаючись незмінним у змінних умовах.

Вітри бурхливі, майбутнє невідоме. Саме ця подвійна невизначеність — технологічна та бізнесова — створює можливість для революції. У потоці обчислювальних потужностей, що веде до AGI, ще надто рано робити висновки — саме через невизначеність існують можливості.

Цей матеріал зі сторінки WeChat «Інститут дослідження часничних зерен», автор: Пілі Юйся