O chip AI em escala de wafer da Cerebras quebra a parede de memória na era de inferência

Em 2026, o desenvolvimento da IA global alcançou um ponto de virada marcante — os gastos de capital em inferência das grandes fornecedoras de nuvem superaram, pela primeira vez na história, os gastos de capital em treinamento. O ponto de ancoragem da indústria mudou de “treinar grandes modelos” para “usar grandes modelos”, resultando em uma inversão fundamental na estrutura da demanda por capacidade de processamento.

Na era de treinamento, a contradição central da capacidade de processamento era "precisão dupla em ponto flutuante e escala de cluster"; ao entrar na era de inferência, a contradição central tornou-se "largura de banda de memória e latência de comunicação".

O gargalo na inferência de grandes modelos já não é mais apenas o cálculo, mas sim a transferência de dados — os pesos do modelo, os valores de ativação intermediários e o KV Cache precisam interagir frequentemente entre o DRAM externo (como HBM) e a GPU. Quanto maior o modelo, maior o consumo de energia e a latência da transferência de dados, que acabam superando significativamente o consumo de energia do próprio cálculo, formando assim a parede de memória.

As GPUs da NVIDIA construíram um forte fortalecimento com CUDA e NVLink, mas ainda assim não conseguem evitar o desperdício de GPU causado por gargalos de largura de banda.

A empresa chinesa de grandes modelos Zhipu realizou um experimento simples: um cluster de inferência com 512 GPUs, mantendo GPU, modelo e código inalterados, apenas aumentando o limite de largura de banda da rede de 200 GB/s para 400 GB/s — o throughput de inferência aumentou diretamente 10% e a latência de saída do primeiro token diminuiu 19% — o princípio é simples: quanto mais larga a estrada, mais rápido os carros podem correr.

No entanto, arquiteturas não baseadas em GPU, como a Cerebras, parecem estar criando uma brecha na parede de memória.

Chip em escala de wafer

Comparação entre o chip Cerebras WSE-3 e a GPU NVIDIA B200

A essência da Cerebras: uma máquina de computação próxima à memória baseada em SRAM

A Cerebras Systems foi fundada na Silicon Valley por Andrew Feldman e outros, com toda a equipe fundadora original proveniente da SeaMicro, uma empresa de microservidores de baixo consumo, posteriormente adquirida pela AMD; em seguida:

Em 2015, a equipe fundadora estabeleceu a rota de "cálculo em nível de wafer";

Em 2016, concluiu o registro e a rodada de financiamento A, entrando na fase de desenvolvimento oculto;

Em 2019, foi lançado o primeiro produto, o chip WSE-1 e o sistema CS-1, baseado no processo de 16 nm da TSMC;

Em 2021, lançamos o segundo produto, baseado no processo de 7 nm da TSMC;

Em 2024, lançamos o terceiro produto (WSE-3 / CS-3), baseado no processo de 5nm da TSMC, com o chip e o sistema totalmente fabricados nos Estados Unidos, sendo um sistema de chip 100% fabricado nos EUA.

Chip em escala de wafer

Configuração do sistema CS-3, contendo 1 chip WSE-3

A filosofia da arquitetura Wafer-Scale Engine (WSE) da Cerebras é simples e direta, mas atinge o ponto crucial: ampliar ao máximo o espaço físico para comprimir drasticamente a latência de transferência de dados.

Os chips tradicionais cortam uma wafers em muitos pequenos chips, como é o caso da GPU da NVIDIA. A Cerebras faz o oposto: não corta, mas transforma quase toda a wafers em um único chip enorme, chamado Wafer-Scale Engine, WSE.

Os chips tradicionais são fabricados cortando um wafer inteiro de 300 mm de diâmetro em centenas de pequenos chips; já a Cerebras optou por manter o wafer inteiro como um único chip. O mais recente WSE-3 possui 4 trilhões de transistores e 900 mil núcleos de IA, cada um com 48 KB de SRAM local, resultando em 44 GB de SRAM no chip e uma largura de banda de memória no chip de 21 PB/s e uma largura de banda de rede de 214 Pb/s — milhares de vezes maior que a largura de banda HBM tradicional.

Chip em escala de wafer

A largura de banda de memória do Cerebras WSE é 2.625 vezes maior do que a do chip empacotado da NVIDIA B200, superando o gargalo de largura de banda de memória em cenários de inferência de grandes modelos.

Na arquitetura da Cerebras, os pesos do modelo nunca residem no SRAM, mas sim na memória externa MemoryX, sendo transferidos camada por camada para o chip grande. Isso é alcançado separando o armazenamento dos pesos do modelo neural das unidades de cálculo.

Todos os pesos dos modelos são armazenados externamente no módulo de expansão de memória MemoryX. Os pesos necessários para o cálculo de cada camada da rede são transmitidos, conforme necessário, camada por camada, para o sistema CS-3. Os pesos são armazenados no DRAM e no flash do MEMORY X e transmitidos para o sistema CS-3 na taxa de largura de banda máxima. Esses pesos não são armazenados no sistema CS-3, nem mesmo em cache temporário; o CS-3 realiza os cálculos por meio de um mecanismo de fluxo de dados de baixo nível.

A Cerebras, com sua arquitetura em nível de wafer, demonstra uma barreira esmagadora em inferência de LLMs limitados por largura de banda de memória. Durante a geração token por token, os pesos são transmitidos em fluxo da MemoryX externa para o CS-3 por camada; ao executar diferentes modelos, a taxa de tokens é 1,5 a 5 vezes superior à do NVIDIA B200.

Chip em escala de wafer

Comparação da taxa de tokens de diferentes modelos grandes entre a GPU NVIDIA DGX B200 e o chip Cerebras CS-3

Sua vantagem central reside no SRAM de 44 GB no chip do CS-3, que oferece largura de banda ultraalta de 21 PB/s (2.625 vezes a do B200) e interconexão de 214 Pb/s, liberando a transmissão de pesos das limitações da interface HBM. Por isso, destaca-se especialmente em TTFT (Time To First Token, tempo desde o envio da solicitação até o modelo retornar o primeiro token), contextos longos e cargas de trabalho de agentes.

Embora os pesos sejam externos ao MemoryX e carregados camada por camada conforme necessário, sem armazenamento em cache no chip, o CS-3 depende do mecanismo de fluxo de dados central para realizar operações completas com precisão FP16 sem perda na SRAM; graças à expansão linear de desempenho, ele também libera uma taxa de transferência total impressionante sob inferência simultânea de múltiplos usuários.

Além da largura de banda, há vantagens em termos de consumo de energia. Recentemente, o presidente da Zhongji Xuchuang, Liu Sheng, mencionou em sua palestra que os clientes exigem 1 pJ/bit para módulos ópticos, enquanto o valor atual é de 10 pJ/bit. Nos chips Cerebras, o consumo de energia da interconexão é de apenas 0,15 pJ/bit, enquanto o consumo de energia da interconexão das GPUs atuais é de 10 pJ/bit.

Chip em escala de wafer

Comparação de largura de banda e consumo de energia entre a arquitetura de interconexão Cerebras e a arquitetura de interconexão GPU

Assim, se a arquitetura de chip em escala de wafer da Cerebras se tornar dominante para inferência de IA e até mesmo para treinamento, pode causar uma supressão significativa e uma mudança estrutural na quantidade de módulos ópticos e CPO (óptica co-empacotada) enviados. A lógica central é que a alta demanda por módulos ópticos e CPO surge essencialmente para resolver gargalos de largura de banda em “interconexões entre chips” e “interconexões entre nós” em clusters de GPU; já a arquitetura da Cerebras resolve esse problema ao “eliminar as interconexões distribuídas”.

Contraintuitivo: A falha real e falsa dos grandes chips em wafer

O núcleo do chip sempre reside no Trade Off (arte do equilíbrio). Para alcançar a largura de banda extrema da SRAM no chip, a Cerebras também enfrenta alguns problemas.

Baixa taxa de rendimento?

Pelo contrário, o tamanho de cada núcleo de IA foi reduzido para 0,05 mm² (1% do tamanho de um único núcleo de processamento do H100), resultando em uma taxa de rendimento mais alta. Por meio de roteamento integrado no chip, é possível desativar e contornar núcleos defeituosos, aumentando a tolerância a falhas em 100 vezes em comparação com processadores multicore tradicionais. Na verdade, o chip inteiro possui 1 milhão de núcleos de IA, mas, considerando a taxa de rendimento, são divulgados oficialmente 900 mil núcleos de IA.

Só bom em raciocínio, não em treinamento?

Nos anos seguintes à fundação da Cerebras, o treinamento era o tema principal, então a empresa sempre se concentrou fortemente no treinamento; apenas após a explosão da demanda por inferência, as pessoas perceberam que suas vantagens na inferência eram ainda mais evidentes.

Na verdade, o cálculo distribuído simplificado também traz uma série de vantagens, como redução da complexidade do código e redução da sobrecarga de comunicação.

Treinar um modelo de 175 bilhões de parâmetros em 4.000 GPUs geralmente requer cerca de 20.000 linhas de código de treinamento distribuído.

A Cerebras alcançou o treinamento equivalente de 565 linhas de código — todo o modelo pode ser instalado em um wafer, sem a necessidade de lidar com a complexidade do paralelismo de dados.

SRAM scaling is dead, with core advantages facing physical limits.

O terceiro produto é baseado no processo de 5 nm da TSMC, e sua capacidade SRAM aumentou apenas 10% em comparação com o segundo produto, baseado no processo de 7 nm da TSMC; após o 5 nm, a área da célula SRAM quase não diminui mais com os avanços no processo.

Isso significa que a Cerebras não pode mais aumentar significativamente sua vantagem principal (capacidade de SRAM) por meio da atualização do processo da TSMC, como da passagem de 5 nm para 3 nm, como fez no passado.

Limitado pelo tamanho do wafer, capacidade de dissipação de calor e custo de fabricação, recursos de armazenamento como SRAM on-chip dificilmente podem escalar linearmente junto com os núcleos de computação, enfrentando um gargalo na proporção de recursos. Isso quase bloqueia seu caminho de evolução.

Chip em escala de wafer

Especificações técnicas da terceira geração do Cerebras

Três provações: dissipação de calor, fabricação e ecossistema.

O calor é concentrado em toda a wafer, resultando em alta densidade de fluxo térmico, exigindo data centers personalizados e sistemas de refrigeração líquida dedicados. Além disso, a falta de compatibilidade ecológica significa que os clientes precisam adaptar-se a suas pilhas de software personalizadas, apresentando baixa compatibilidade com frameworks de programação gerais existentes, como CUDA, resultando em altos custos de portabilidade e adaptação de software.

Banda externa baixa, tornando-se uma "ilha" de expansão.

Devido às limitações do design físico em escala de wafer, o número de pinos I/O disponíveis na borda do WSE é extremamente limitado, resultando em uma largura de banda I/O de apenas 150 GB/s. Em comparação com a largura de banda bidirecional de 1,8 TB/s do NVLink da NVIDIA, isso é como uma lesma. Isso significa que o WSE tem grande dificuldade em se expandir rapidamente para fora. Embora a interconexão SwarmX da Cerebras funcione razoavelmente bem em combinações de múltiplos sistemas, a largura de banda externa extremamente baixa torna-se uma prisão física estrutural diante de modelos extremamente grandes que exigem interconexões de alta velocidade entre múltiplos chips.

Disputa de rota: Por quanto tempo ainda resta a janela da Cerebras com desenvolvimento próprio das grandes empresas?

As grandes empresas não estão apenas seguindo o caminho do wafer-scale para resolver o problema de “inferência requer maior largura de banda e menor latência”; elas estão atacando a vantagem tecnológica das startups por meio de três caminhos paralelos.

① Chip ASIC desenvolvido internamente

O Google TPU v8 já foi dividido em duas versões: uma específica para treinamento e outra para inferência; o AWS Trainium 4 está a caminho; o Microsoft Maia já está em uso interno no Azure, construído com o processo de 3nm da TSMC, com núcleos de tensor FP8/FP4 nativos, sistema de memória redesenhado e 216 GB de HBM3e, 272 MB de SRAM on-chip; até a Anthropic começou a avaliar um chip de inferência próprio.

A probabilidade desta trajetória é muito alta, e ela levará diretamente a uma compressão de 10% a 25% no TAM (mercado total alcançável) da aquisição de inferência de terceiros em 2028.

② Generalização do processo da rota de embalagem padrão

This is the most direct blow to Cerebras.

O SoW (System-on-Wafer) da TSMC já está amplamente disponível para clientes, e o interposer CoWoS 9.5x será lançado em 2027.

O que esses dois produtos fazem — costurar múltiplos die no nível de wafer — é essencialmente generalizar e democratizar o processo físico da Cerebras.

A Vera Rubin da NVIDIA entrará nesse ecossistema no segundo semestre de 2026.

O cross-reticle stitching desenvolvido pela Cerebras é exclusivo, mas o período de exclusividade é de no máximo 2 a 3 anos; após 2027-2028, sua barreira tecnológica será diluída pelo empacotamento avançado da TSMC.

③ A ruptura da interconexão óptica e do cálculo óptico

A interconexão de chips eletrônicos e a parede de memória atingiram seus limites; a alta largura de banda, baixa latência e zero interferência dos fótons são a solução definitiva.

A rota óptica, representada pela Lumentum, está em ascensão. A principal vantagem do wafer-scale é o cálculo no chip, mas os modelos certamente se tornarão cada vez maiores, tornando a interconexão de alta velocidade acima do wafer-scale uma necessidade essencial.

Com o amadurecimento do CPO (Optical Co-Packaging) e das Interconexões Ópticas, é muito provável que, no futuro, vejammos I/O óptico diretamente integrado aos wafers WSE, quebrando as limitações das interconexões elétricas; e a NVIDIA também pode adquirir empresas como LPU (por exemplo, Groq) com vantagens arquitetônicas específicas, combinando interconexões ópticas para desenvolver sistemas em nível de wafer compatíveis com o software atual dos supernós NV.

Corrida à beira do penhasco: Negócios e entrega da Cerebras

Cerebras está atualmente enfrentando uma corrida em queda livre impulsionada por ordens massivas.

As transações com grandes clientes como a OpenAI forçaram a Cerebras a se transformar de uma empresa de chips em um novo provedor de nuvem. Ela não vende mais apenas hardware, mas precisa garantir e construir, em curto prazo, uma enorme capacidade e infraestrutura elétrica para data centers.

Conforme exigido no contrato, a Cerebras precisa entregar 250 MW de capacidade de data center anualmente entre 2026 e 2028. No entanto, os sistemas em wafer têm requisitos extremamente rigorosos para salas de servidores e não podem ser facilmente instalados em IDCs tradicionais com refrigeração por ar. Atualmente, a Cerebras já está claramente atrasada em relação ao cronograma do contrato no preparo da capacidade de data center.

Da fabricação ao estabelecimento da fábrica, da aprovação de energia à implantação do sistema de refrigeração, trata-se de um empreendimento de alto capital e longo ciclo.

Epílogo: Para a esquerda ou para a direita?

Voltando à proposição original, quando o ponto de inflexão da capacidade de raciocínio foi atingido, o núcleo da arquitetura de capacidade sempre reside na escolha.

Não há certo ou errado absoluto, apenas soluções relativas ótimas sob a carga mais importante. A carga já está mudando.

Cerebras optou pela esquerda, escolhendo uma otimização física extrema, trocando um wafer inteiro e uma quantidade massiva de SRAM por latência extremamente baixa em tarefas únicas, o que é invencível em cenários extremamente sensíveis à latência do primeiro token.

A NVIDIA optou pela direita, mantendo a versatilidade com HBM + NVLink + throughput de cluster massivo para lidar com a diversidade de cargas, respondendo à mudança com constância.

Ventos fortes e nuvens agitadas, o futuro incerto. É exatamente essa dupla incerteza tecnológica e comercial que cria a possibilidade de revolução. No fluxo de poder computacional rumo à AGI, ainda é cedo para tirar conclusões — porque, na incerteza, reside a oportunidade.

Este artigo é do canal oficial do WeChat "Instituto de Pesquisa da Grão de Alho", autor: Thunderbolt Ranger