El chip AI de escala de oblea de Cerebras rompe la pared de memoria en la era de inferencia

En 2026, el desarrollo de la IA a nivel mundial alcanzó un punto de inflexión significativo: por primera vez en la historia, el gasto en capital para inferencia de los grandes proveedores de nube superó al gasto en capital para entrenamiento. El punto de anclaje de la industria se desplazó de “entrenar modelos grandes” a “utilizar modelos grandes”, y la estructura de la demanda de capacidad de cómputo experimentó una inversión fundamental.

En la era de entrenamiento, la contradicción central de la capacidad de cómputo era "precisión doble en punto flotante y escala de clúster"; al entrar en la era de inferencia, la contradicción central se convirtió en "ancho de banda de memoria y latencia de comunicación".

El cuello de botella en la inferencia de modelos grandes ya no es solo el cálculo, sino el movimiento de datos: los pesos del modelo, los valores de activación intermedios y la caché KV requieren interacciones frecuentes entre la DRAM externa (como HBM) y la GPU. Cuanto mayor sea el modelo, mayor será el consumo energético y la latencia asociados con la transferencia de datos, superando finalmente el consumo energético del propio cálculo y creando así un muro de memoria.

Las GPU de NVIDIA han construido un fuerte bastión con CUDA y NVLink, pero aún así no pueden evitar el desperdicio de GPU causado por cuellos de botella de ancho de banda.

La empresa china de modelos grandes Zhipu realizó un experimento muy sencillo: un clúster de inferencia de 512 GPUs, manteniendo constante la GPU, el modelo y el código, solo cambiaron el límite de ancho de banda de red de 200 GB/s a 400 GB/s; el rendimiento de inferencia aumentó directamente un 10% y la latencia de salida del primer token disminuyó un 19%: la razón es muy simple, siempre que se amplíe la carretera, los vehículos pueden moverse más rápido.

Sin embargo, las arquitecturas no GPU, como Cerebras, parecen estar abriendo una grieta en la pared de memoria.

Chip a nivel de oblea

Comparación de tamaño entre el chip Cerebras WSE-3 y la GPU NVIDIA B200

La esencia de Cerebras: una máquina de cómputo cercano a la memoria basada en SRAM

Cerebras Systems fue fundada en Silicon Valley por Andrew Feldman y otros, y el equipo fundador original provenía en su totalidad de una empresa llamada SeaMicro, especializada en microservidores de bajo consumo, que posteriormente fue adquirida por AMD, seguido por:

En 2015, el equipo fundador estableció la ruta de "cálculo a nivel de oblea";

En 2016, se completó el registro y la ronda de financiación A, entrando en la fase de desarrollo en secreto;

En 2019, se lanzó el primer producto, el chip WSE-1 y el sistema CS-1, basados en el proceso de 16 nm de TSMC;

En 2021, se lanzó el segundo producto, basado en el proceso de 7 nm de TSMC;

In 2024, launch the third-generation product (WSE-3 / CS-3), based on TSMC's 5nm process, with both the chip and system manufactured entirely in the United States, making it a genuinely pure American-made chip system.

Chip a nivel de oblea

Configuración del sistema CS-3, que incluye 1 chip WSE-3

La filosofía de la arquitectura Wafer-Scale Engine (WSE) de Cerebras es simple y directa, pero ataca directamente el problema: ampliar al máximo el espacio físico para comprimir al máximo la latencia de transferencia de datos.

Los chips tradicionales consisten en cortar una oblea en muchos pequeños chips, como es el caso de las GPU de NVIDIA. Cerebras hace lo contrario: no corta, sino que convierte casi toda la oblea en un solo chip enorme, llamado Wafer-Scale Engine, WSE.

Los chips tradicionales se fabrican cortando un oblea entera de 300 mm de diámetro en cientos de pequeños chips; sin embargo, Cerebras opta por mantener la oblea completa como un solo chip. El reciente WSE-3 cuenta con 4 billones de transistores y 900.000 núcleos de IA, cada uno equipado con 48 KB de SRAM local, lo que resulta en un total de 44 GB de SRAM en el chip y una ancho de banda de memoria en el chip de 21 PB/s y un ancho de banda de red de 214 Pb/s, miles de veces mayor que el ancho de banda HBM tradicional.

Chip a nivel de oblea

El ancho de banda de memoria de Cerebras WSE es 2625 veces mayor que el del chip empaquetado NVIDIA B200, superando el cuello de botella de ancho de banda de memoria en escenarios de inferencia de modelos grandes.

En la arquitectura de Cerebras, los pesos del modelo nunca se almacenan en la SRAM, sino en la memoria externa MemoryX, y se transfieren capa por capa hacia el chip grande. Esto se logra separando el almacenamiento de los pesos del modelo neuronal de las unidades de cálculo.

Todos los pesos del modelo se almacenan externamente en el módulo de expansión de memoria MemoryX; los pesos necesarios para el cálculo de cada capa de la red se transfieren capa por capa al sistema CS-3 según sea necesario. Los pesos se almacenan en el DRAM y la memoria flash de MEMORY X y se transfieren al sistema CS-3 a velocidad de ancho de banda completo. Estos pesos no se almacenan en el sistema CS-3, ni siquiera en cachés temporales; el sistema CS-3 realiza los cálculos mediante un mecanismo de flujo de datos de bajo nivel.

Cerebras, con su arquitectura de oblea completa, presenta una barrera abrumadora en la inferencia de LLM limitada por el ancho de banda de memoria. Durante la generación por token, los pesos se transmiten en flujo desde la memoria externa MemoryX hacia el CS-3 por capas; al ejecutar diferentes modelos, la tasa de tokens es de 1,5 a 5 veces superior a la del NVIDIA B200.

Chip a nivel de oblea

Comparación de la velocidad de tokens de la GPU NVIDIA DGX B200 frente al chip Cerebras CS-3 al ejecutar diferentes modelos grandes

Su ventaja clave radica en que los 44 GB de SRAM integrados en CS-3 ofrecen un ancho de banda extremadamente alto de 21 PB/s (2625 veces el de B200) y una interconexión de 214 Pb/s, liberando la transmisión de pesos de las limitaciones de la interfaz HBM. Por lo tanto, destaca especialmente en TTFT (Time To First Token, tiempo desde el envío de la solicitud hasta que el modelo devuelve el primer token), contextos largos y cargas de trabajo de agentes.

Aunque los pesos se externalizan y se cargan por capas según sea necesario en MemoryX sin almacenarse en caché en el chip, CS-3 logra operaciones completas sin pérdida de precisión FP16 en SRAM mediante su mecanismo de flujo de datos central; gracias a su escalabilidad lineal de rendimiento, también logra un rendimiento total asombroso bajo inferencia concurrente de múltiples usuarios.

Además del ancho de banda, hay ventajas en el consumo de energía. Recientemente, el presidente de InnoLight, Liu Sheng, mencionó en su discurso que los clientes requieren un consumo de 1 pJ/bit para los módulos ópticos, mientras que actualmente es de 10 pJ/bit. En los chips de Cerebras, el consumo de energía de la interconexión es de solo 0.15 pJ/bit, mientras que el consumo de energía de la interconexión en las GPU actuales es de 10 pJ/bit.

Chip a nivel de oblea

Comparación del ancho de banda y el consumo de energía entre la interconexión Cerebras y la arquitectura de interconexión GPU

Por lo tanto, si la arquitectura de chip a escala de oblea de Cerebras se convierte en la norma para la inferencia de IA e incluso para el entrenamiento, podría generar una significativa supresión y un cambio estructural en el volumen de envíos de módulos ópticos tradicionales y CPO (óptica empaquetada conjuntamente). La lógica central es que la alta demanda de módulos ópticos y CPO surge fundamentalmente para resolver cuellos de botella de ancho de banda en la interconexión entre chips y entre nodos dentro de clústeres de GPU; mientras que la arquitectura de Cerebras resuelve este problema al eliminar la interconexión distribuida.

Contraintuitivo: la debilidad real de los chips de gran tamaño a nivel de oblea

El núcleo del chip siempre radica en el Trade Off (arte del equilibrio). Cerebras, para lograr el ancho de banda extremo de la SRAM en el chip, también genera algunos problemas.

¿Baja tasa de rendimiento?

Por el contrario, el tamaño de cada núcleo de IA se redujo a 0.05 mm² (el 1% del tamaño de un solo núcleo de cálculo del H100), lo que aumenta la tasa de rendimiento. Mediante enrutamiento en el chip, se pueden desactivar y omitir los núcleos defectuosos, lo que mejora la tolerancia a defectos 100 veces en comparación con los procesadores multinúcleo tradicionales. En realidad, el chip completo tiene un millón de núcleos de IA, pero considerando la tasa de rendimiento, se anuncian oficialmente 900,000 núcleos de IA.

Solo bueno razonando, no entrenando?

En los años siguientes a la fundación de Cerebras, el entrenamiento era el tema principal, por lo que la empresa se centró en gran medida en el entrenamiento; sin embargo, tras el auge de la demanda de inferencia, se descubrió que sus ventajas en inferencia eran aún más notables.

De hecho, el cálculo distribuido simplificado también trae una serie de ventajas, como la reducción de la complejidad del código y la disminución del overhead de comunicación.

Entrenar un modelo de 175 mil millones de parámetros en 4.000 GPU requiere típicamente alrededor de 20.000 líneas de código de entrenamiento distribuido.

Cerebras logró la equivalencia de entrenamiento con 565 líneas de código: todo el modelo puede instalarse en un oblea sin necesidad de manejar la complejidad del paralelismo de datos.

SRAM scaling is dead, with core advantages facing physical limits.

El tercer producto se basa en el nodo de 5 nm de TSMC, y su capacidad SRAM solo aumentó un 10 % en comparación con el segundo producto basado en el nodo de 7 nm de TSMC; después del nodo de 5 nm, el área de la celda SRAM casi ya no disminuye con los avances en el proceso.

Esto significa que Cerebras ya no puede aumentar significativamente su ventaja competitiva (capacidad de SRAM) actualizando el proceso de TSMC, como pasar de 5 nm a 3 nm, como lo hacía en el pasado.

Limitado por el tamaño del oblea, la capacidad de disipación de calor y los costos de fabricación, los recursos de memoria como el SRAM en chip no pueden escalar linealmente junto con los núcleos de cálculo, lo que genera un cuello de botella en la proporción de recursos. Esto prácticamente bloquea su camino de evolución.

Chip a nivel de oblea

Especificaciones técnicas de la tercera generación de Cerebras

La triple prueba de disipación de calor, fabricación y ecosistema.

El calentamiento concentrado en toda la oblea genera una alta densidad de flujo de calor, lo que requiere dependencia de salas de servidores personalizadas y sistemas de refrigeración líquida dedicados. Además, la universalidad ecológica implica que los clientes deben adaptarse a su pila de software personalizada, con una compatibilidad débil con marcos de programación generales existentes como CUDA, lo que conlleva altos costos de portabilidad y adaptación del software.

Ancho de banda externo bajo, convirtiéndose en una "isla" de expansión.

Debido a las limitaciones del diseño físico a nivel de oblea, el borde del WSE puede tener un número extremadamente limitado de pines I/O, lo que resulta en un ancho de banda I/O de solo 150 GB/s. En comparación con el ancho de banda bidireccional de NVLink de NVIDIA, que suele alcanzar 1.8 TB/s, es como una babosa. Esto significa que el WSE tiene una dificultad extrema para expandirse rápidamente hacia fuera. Aunque la interconexión SwarmX de Cerebras funciona razonablemente bien en combinaciones de múltiples sistemas, frente a modelos extremadamente grandes que requieren interconexiones de alta velocidad entre múltiples chips, el ancho de banda externo extremadamente bajo se convierte en una restricción física estructural.

Guerra de rutas: ¿Cuánto tiempo le queda a Cerebras con su desarrollo interno?

Las grandes empresas no solo recurren al camino de la escala de oblea para resolver el problema de "la inferencia requiere mayor ancho de banda y menor latencia"; están atacando la ventaja tecnológica de las startups a través de tres vías paralelas.

① Chip ASIC desarrollado internamente

Los TPU v8 de Google ya se han dividido en dos versiones: una específica para entrenamiento y otra para inferencia; AWS Trainium 4 está en camino; Microsoft Maia ya se utiliza internamente en Azure, construido con el proceso de 3 nm de TSMC, con núcleos de tensor nativos FP8/FP4, un sistema de memoria rediseñado y 216 GB de HBM3e, 272 MB de SRAM integrada; incluso Anthropic ha comenzado a evaluar un chip de inferencia propio.

La probabilidad de esta ruta es extremadamente alta, y conducirá directamente a una reducción del 10% al 25% en el límite superior del TAM (mercado total alcanzable) para la adquisición de inference de terceros en 2028.

② Generalización del proceso de la ruta de empaquetado estándar

This is the most direct reduction strike against Cerebras.

El SoW (System-on-Wafer) de TSMC ya está ampliamente disponible para clientes, y el interposer CoWoS 9.5x se lanzará en 2027.

Lo que hacen estos dos productos—unir múltiples die a nivel de oblea—es esencialmente generalizar y democratizar el proceso físico de Cerebras.

Vera Rubin de NVIDIA ingresará a este ecosistema en la segunda mitad de 2026.

Aunque el stitching cross-reticle de Cerebras es exclusivo, el período de exclusividad no supera los 2 a 3 años; después de 2027-2028, su barrera tecnológica será diluida por el paquete avanzado de TSMC.

③ La ruptura de la interconexión óptica y el cómputo óptico

La interconexión de chips electrónicos y el muro de memoria han alcanzado sus límites; la alta ancho de banda, baja latencia y cero interferencia de los fotones son la solución definitiva.

La ruta óptica, representada por Lumentum, está en auge. La principal ventaja del wafer-scale es el cálculo en chip, pero los modelos inevitablemente se volverán más grandes, lo que convierte a la interconexión de alta velocidad por encima del wafer-scale en una necesidad esencial.

Con la maduración de la tecnología CPO (Optics Co-Packaged) y los Interconectores Ópticos, es muy probable que en el futuro veamos I/O óptico integrado directamente en los wafers WSE, rompiendo las limitaciones de las interconexiones eléctricas; NVIDIA también podría adquirir empresas como LPU (por ejemplo, Groq) que poseen ventajas arquitectónicas específicas, combinando interconexiones ópticas para desarrollar sistemas a nivel de wafer compatibles con el software actual de los supernodos NV.

Carrera sobre el acantilado: Negocio y entrega de Cerebras

Cerebras actualmente enfrenta una carrera desenfrenada hacia el borde de un precipicio impulsada por órdenes masivas.

Las transacciones con clientes importantes como OpenAI obligaron a Cerebras a transformarse de una empresa de chips en un nuevo proveedor de servicios en la nube. Ya no solo vende hardware, sino que también necesita asegurar y construir en poco tiempo una gran cantidad de infraestructura y energía para centros de datos.

Según los términos del contrato, Cerebras debe entregar 250 MW de capacidad de centro de datos anualmente entre 2026 y 2028. Sin embargo, los sistemas a nivel de oblea tienen requisitos extremadamente exigentes para las salas de servidores y no pueden instalarse directamente en IDCs tradicionales con refrigeración por aire. Actualmente, Cerebras lleva un retraso significativo en la preparación de la capacidad de centro de datos en comparación con los requisitos contractuales.

Desde la fabricación de chips hasta la construcción de plantas, desde la aprobación de energía hasta la implementación de sistemas de refrigeración, se trata de una trampa de activos pesados y ciclos largos.

Epílogo: ¿Izquierda o derecha?

Volviendo a la proposición original, cuando el punto de inflexión de la capacidad de razonamiento ha llegado, el núcleo de la arquitectura de la capacidad siempre radica en las decisiones de sacrificio.

No hay absolutamente correcto o incorrecto, solo soluciones relativas óptimas bajo la carga más importante. La carga ya está cambiando.

Cerebras se inclina hacia la izquierda, optando por una optimización física extrema, intercambiando un wafel entero y una enorme cantidad de SRAM por una latencia extremadamente baja en tareas individuales, lo que lo hace invencible en escenarios donde la latencia del primer token es crítica.

NVIDIA optó por la derecha, manteniendo la versatilidad con HBM + NVLink + capacidad de transferencia de grandes clústeres para hacer frente a la diversidad de cargas, respondiendo al cambio con constancia.

Los vientos cambian y el futuro es incierto. Es precisamente esta doble incertidumbre tecnológica y comercial la que da lugar a la posibilidad de una revolución. En el flujo de poder de cómputo hacia la AGI, aún es demasiado pronto para sacar conclusiones: precisamente por la incertidumbre, existen oportunidades.

Este artículo proviene del canal oficial de WeChat "Instituto de Investigación de Granos de Ajo", autor: Rayo Guerrero