Вафельный ИИ-чип Cerebras преодолевает «памятную стену» в эпоху вывода

В 2026 году развитие ИИ по всему миру достигло знакового переломного момента — расходы крупнейших облачных провайдеров на инференс впервые в истории превысили расходы на обучение. Отраслевой фокус сместился с «тренировки крупных моделей» на «применение крупных моделей», и структура спроса на вычислительные мощности претерпела фундаментальное изменение.

В эпоху обучения ключевым противоречием вычислительной мощности было «двойная точность с плавающей запятой и масштаб кластера»; а в эпоху вывода ключевым противоречием стало «пропускная способность памяти и задержка связи».

Узким местом вывода больших моделей больше не является только вычисление, а перемещение данных — веса модели, промежуточные активации и KV Cache должны часто взаимодействовать между внешней DRAM (например, HBM) и GPU. Чем больше модель, тем выше энергопотребление и задержка при перемещении данных, что в конечном итоге значительно превышает энергопотребление самих вычислений, создавая памятную стену.

GPU NVIDIA, построенные на CUDA и NVLink, образуют прочную защиту, но все еще не могут избежать простоя GPU, вызванного узким местом пропускной способности.

Китайская компания Zhipu, специализирующаяся на крупных языковых моделях, провела простой эксперимент: в инфраструктуре для вывода на 512 GPU, при неизменных GPU, модели и коде, только увеличив верхний предел сетевой пропускной способности с 200 ГБ/с до 400 ГБ/с, пропускная способность вывода выросла на 10%, а задержка первого токена снизилась на 19% — логика проста: чем шире дорога, тем быстрее могут ехать машины.

Однако архитектуры, не основанные на GPU, такие как Cerebras, похоже, прорывают барьер памяти.

Вафельный чип

Сравнение размеров чипа Cerebras WSE-3 и GPU NVIDIA B200

Суть Cerebras: машина для вычислений рядом с памятью на основе SRAM

Cerebras Systems была основана в Кремниевой долине Эндрю Фельдманом и другими, все первоначальные члены команды ранее работали в компании SeaMicro, производившей низкопотребляющие микросерверы, которую позже приобрела AMD, после чего:

В 2015 году основательская команда выбрала направление «вычисления на уровне волокна»;

В 2016 году завершена регистрация, раунд финансирования серии A, переход на этап скрытой разработки;

В 2019 году был выпущен первый продукт — чип WSE-1 и система CS-1, изготовленные по технологии TSMC 16 нм;

В 2021 году был выпущен второй продукт на основе 7-нм технологии TSMC;

В 2024 году был выпущен третий продукт (WSE-3 / CS-3), изготовленный по технологии 5 нм TSMC, при этом чип и система полностью произведены в США — это настоящая полностью американская чип-система.

Вафельный чип

Конфигурация системы CS-3, включающая 1 чип WSE-3

Философия архитектуры кристалла-масштабного двигателя (Wafer-Scale Engine, WSE) от Cerebras — проста и груба, но точно попадает в суть: за счет максимального увеличения физического пространства достигается максимальное сокращение задержек при перемещении данных.

Обычные чипы производятся путем разрезания кристалла на множество маленьких чипов, например, такие подходы используются для GPU от NVIDIA. Cerebras поступает наоборот: не разрезает, а изготавливает один огромный чип из почти всего кристалла — он называется Wafer-Scale Engine, WSE.

Традиционные чипы изготавливаются путем разрезания целой волны диаметром 300 мм на сотни маленьких чипов; однако Cerebras выбрало сохранить всю волну целиком, используя ее в качестве одного чипа. Последняя версия WSE-3 содержит 4 триллиона транзисторов и 900 000 AI-ядер, каждое из которых оснащено 48 КБ локальной SRAM, что в совокупности обеспечивает 44 ГБ SRAM на чипе, пропускную способность внутренней памяти 21 ПБ/с и пропускную способность сети 214 Пб/с — в тысячи раз превышающую пропускную способность традиционной HBM.

Вафельный чип

Полоса пропускания памяти Cerebras WSE в 2625 раз превышает полосу пропускания памяти чипа NVIDIA B200 в упаковке, преодолевая узкое место в памяти при инференсе крупных моделей.

В архитектуре Cerebras веса модели никогда не хранятся на SRAM, а размещаются во внешней памяти MemoryX и постепенно передаются на большой чип. Это достигается за счет разделения хранения весов нейронной сети и вычислительных блоков.

Все веса моделей хранятся внешним образом в модуле расширения памяти MemoryX; веса, необходимые для вычислений на каждом слое сети, передаются по мере необходимости слой за слоем в систему CS-3. Веса хранятся в DRAM и флеш-памяти MEMORY X и передаются в систему CS-3 со скоростью полной пропускной способности. Эти веса не сохраняются в системе CS-3, даже временные кэши не остаются — система CS-3 выполняет вычисления за счет базовой механизмы потока данных.

Cerebras благодаря архитектуре на уровне вайфера демонстрирует беспрецедентное преимущество в LLM-выводе, ограниченном пропускной способностью памяти. При генерации по токену веса потоково передаются из внешней памяти MemoryX на CS-3 по слоям; при запуске различных моделей скорость токенов в 1,5–5 раз выше, чем у NVIDIA B200.

Вафельный чип

Сравнение скорости токенов для различных крупных моделей между GPU NVIDIA DGX B200 и чипом Cerebras CS-3

Его ключевое преимущество заключается в том, что 44 ГБ встроенного SRAM CS-3 обеспечивает чрезвычайно высокую пропускную способность 21 ПБ/с (в 2625 раз выше, чем у B200) и соединение 214 Пб/с, что позволяет избавиться от ограничений интерфейса HBM при передаче весов. Поэтому CS-3 особенно выделяется в таких задачах, как TTFT (Time To First Token — время от отправки запроса до возврата первой токеном модели), длинные контексты и рабочие нагрузки агентов.

Хотя веса внешние и загружаются по требованию слой за слоем в MemoryX и не кэшируются на чипе, CS-3 обеспечивает полную операцию с точностью FP16 без потерь в SRAM за счет механизма потока данных; благодаря линейному масштабированию производительности он демонстрирует впечатляющую общую пропускную способность при одновременном выполнении вывода несколькими пользователями.

Помимо пропускной способности, есть преимущество в энергопотреблении. Недавно в своей речи председатель Zhongji Xuchuang Лю Шэн отметил, что клиенты требуют от оптических модулей 1 пДж/бит, тогда как текущий показатель составляет 10 пДж/бит. В чипах Cerebras энергопотребление интерконнектов составляет всего 0,15 пДж/бит, тогда как у текущих GPU оно составляет 10 пДж/бит.

Вафельный чип

Сравнение пропускной способности и энергопотребления архитектур Cerebras и GPU

Таким образом, если архитектура кристаллов уровня вайфера Cerebras станет доминирующей для AI-вывода и даже обучения, это может значительно снизить и структурно изменить объемы поставок традиционных оптических модулей и CPO (совместно упакованной оптики). Основная логика заключается в том, что высокий спрос на оптические модули и CPO обусловлен необходимостью преодоления узких мест пропускной способности в «взаимосвязях между чипами» и «взаимосвязях между узлами» в GPU-кластерах; а архитектура Cerebras решает эту проблему за счет «устранения распределенных соединений».

Противоречиво: «подлинность» и «подделка» крупных чипов на уровне вайфера

Суть чипа всегда заключается в Trade Off (балансе компромиссов). Cerebras ради максимальной пропускной способности SRAM на чипе столкнулся с некоторыми проблемами.

Низкий процент годных изделий?

Наоборот, размер отдельного AI-ядра сокращен до 0,05 квадратных миллиметров (1% от размера одного вычислительного ядра H100), поэтому выход годных изделий выше. Благодаря маршрутизации на чипе можно отключать и обходить дефектные ядра, что повышает устойчивость к дефектам в 100 раз по сравнению с традиционными многоядерными процессорами. На самом деле на чипе находится 1 миллион AI-ядер, но с учетом выхода годных изделий заявлено 900 тысяч AI-ядер.

Хорошо рассуждаете, но плохо обучаетесь?

В течение нескольких лет после основания Cerebras обучение было основной темой, поэтому компания постоянно сосредотачивалась на обучении; однако после взрыва спроса на выводы стало очевидно, что её преимущества в выводах ещё более выражены.

На самом деле упрощённое распределённое вычисление также предоставляет ряд преимуществ, таких как снижение сложности кода и уменьшение коммуникационных затрат.

Обучение модели с 175 миллиардами параметров на 4000 GPU обычно требует примерно 20 000 строк кода распределенного обучения.

Cerebras достиг эквивалентной тренировки за 565 строк кода — вся модель может быть размещена на вайфере без необходимости обработки сложностей параллелизации данных.

SRAM масштабирование мертво, основные преимущества сталкиваются с физическими пределами.

Третье поколение продукции основано на 5 нм TSMC, при этом емкость SRAM увеличилась всего на 10% по сравнению со вторым поколением на 7 нм TSMC; после 5 нм площадь ячейки SRAM практически перестала уменьшаться с улучшением технологического процесса.

Это означает, что Cerebras больше не может, как раньше, значительно увеличивать свое ключевое преимущество (емкость SRAM) за счет обновления технологического процесса TSMC (например, перехода с 5 нм на 3 нм).

Ограниченные размерами вайфера, теплопроводностью и стоимостью производства, ресурсы памяти, такие как SRAM на чипе, не могут масштабироваться линейно вместе с вычислительными ядрами, что создает узкое место в соотношении ресурсов. Это практически перекрывает путь его эволюции.

Вафельный чип

Технические характеристики третьего поколения Cerebras

Тройная ада охлаждения, технологии и экосистемы.

Целая ватная пластина выделяет тепло концентрированно, плотность теплового потока высока, что требует использования специализированных серверных помещений и систем жидкостного охлаждения. Кроме того, из-за низкой совместимости с существующими универсальными программными фреймворками, такими как CUDA, клиенты должны адаптироваться к настраиваемому программному стеку, что приводит к высоким затратам на миграцию и адаптацию программного обеспечения.

Низкая внешняя пропускная способность превращает его в «остров» расширения.

Из-за ограничений физического дизайна на уровне вайфера, количество I/O-выводов, которые можно вывести на краю WSE, крайне ограничено, в результате чего пропускная способность I/O составляет всего 150 ГБ/с. Это сравнимо с улиткой по сравнению с двусторонней пропускной способностью NVLink от NVIDIA, которая достигает 1,8 ТБ/с. Это означает, что WSE чрезвычайно трудно масштабировать наружу с высокой скоростью. Несмотря на то, что интерконнект SwarmX от Cerebras достаточно хорошо справляется с объединением нескольких систем, чрезвычайно низкая внешняя пропускная способность становится структурным физическим ограничением для сверхмасштабных моделей, требующих высокоскоростного межчипового взаимодействия.

Спор о маршруте: сколько времени осталось у Cerebras до закрытия окна возможностей?

Крупные компании решают проблему «для вывода требуется более высокая пропускная способность и более низкая задержка» не только путем использования wafer-scale; они одновременно преследуют три параллельных направления, чтобы обойти технологические преимущества стартапов.

① Саморазработанный ASIC-чип

Google TPU v8 уже разделен на две версии: специально для обучения и специально для вывода; AWS Trainium 4 уже в пути; Microsoft Maia уже используется внутри Azure, построенная на технологическом узле TSMC 3 нм, с нативными тензорными ядрами FP8/FP4, переработанной системой памяти и 216 ГБ HBM3e, 272 МБ встроенного SRAM; даже Anthropic начал оценивать собственные чипы для вывода.

Вероятность этого сценария крайне высока, и он приведет к сжатию верхней границы TAM (общего доступного рынка) на 10–25% в 2028 году из-за закупок сторонних inference-решений.

② Универсализация технологии стандартного маршрута упаковки

Это прямое снижение уровня для Cerebras.

SoW (System-on-Wafer) TSMC уже широко доступен для клиентов, а интерпозитор CoWoS 9.5x будет запущен в 2027 году.

Действия этих двух продуктов — объединение нескольких die на уровне вайфера — по сути представляют собой унификацию и демократизацию физического процесса Cerebras.

Vera Rubin от NVIDIA войдет в эту экосистему во второй половине 2026 года.

Хотя собственная технология cross-reticle stitching от Cerebras является эксклюзивной, период эксклюзивности составляет максимум 2–3 года, после 2027–2028 годов её технологические барьеры будут размыты передовыми упаковочными технологиями TSMC.

③ Прорыв в области оптических соединений / оптических вычислений

Связи электронных чипов и памятная стена достигли предела; фотонные высокая пропускная способность, низкая задержка и отсутствие межканальных помех — это окончательное решение.

Оптический путь, представленный Lumentum, активно развивается. Главное преимущество wafer-scale — вычисления на чипе, но модели неизбежно будут становиться все больше, и высокоскоростная интерконнекция сверх wafer-scale становится необходимостью.

По мере зрелости CPO (совместно упакованной оптики) и оптических интерконнектов в будущем мы с большой вероятностью увидим, что оптические I/O будут напрямую интегрированы в вайферы WSE, освобождая их от ограничений электрических соединений; NVIDIA также может приобрести компании с уникальными архитектурными преимуществами, такие как LPU (например, Groq), и, объединив оптические интерконнекты, разработать систему на уровне вайфера, совместимую с существующим программным обеспечением NV суперузлов.

Бег по краю пропасти: бизнес и поставки Cerebras

Cerebras в настоящее время сталкивается с резким скачком, вызванным огромными ордерами.

Сделки с ведущими клиентами, такими как OpenAI, вынудили Cerebras перейти от компании, производящей чипы, к новому типу облачного провайдера. Ей больше не достаточно просто продавать оборудование — ей нужно в кратчайшие сроки закрепить и построить огромные мощности и инфраструктуру для центров обработки данных.

Согласно договору, Cerebras должна ежегодно поставлять 250 МВт мощности центра обработки данных в период с 2026 по 2028 год. Однако система на уровне вайфера предъявляет чрезвычайно высокие требования к серверным помещениям и не может быть напрямую размещена в традиционных воздушно-охлаждаемых ИДЦ. В настоящее время Cerebras значительно отстает от графика, установленного договором, в подготовке мощности центра обработки данных.

От запуска производства до строительства завода, от получения разрешения на электроэнергию до развертывания системы охлаждения — это болото с высокими капитальными затратами и длительным циклом.

Эпилог: влево или вправо?

Вернувшись к исходному тезису, когда точка перелома вычислительной мощности наступила, основа архитектуры вычислительной мощности всегда заключается в компромиссе.

Нет абсолютного права или неправа, есть только относительное оптимальное решение при максимальной нагрузке. Нагрузка уже меняется.

Cerebras выбрал путь крайней физической оптимизации, пожертвовав целой вайфелой и огромным объемом SRAM ради экстремально низкой задержки при выполнении одной задачи — это непревзойденно для сценариев, где критически важна задержка первого токена.

NVIDIA выбрала направление вправо, сохранив универсальность, используя HBM + NVLink + огромную пропускную способность кластера, чтобы справляться с разнообразием нагрузок, оставаясь неизменной.

Бурные изменения, неизвестное будущее. Именно эта двойная неопределенность — технологическая и коммерческая — создает потенциал для революции. В потоке вычислительных мощностей, ведущем к AGI, еще слишком рано делать выводы — именно из-за неопределенности и появляются возможности.

Эта статья взята из официального аккаунта WeChat «Исследовательская лаборатория чесночных зерен», автор: Пи Ли Юй Ся