Nvidia's GB300 NVL72 logra 61,4K agentes de IA por megavatio, 20 veces mejor que el H200

Nvidia acaba de revelar un número que debería hacer que cada operador de centro de datos lo double check. El nuevo sistema GB300 NVL72 de la empresa puede manejar 61,400 agentes de IA simultáneos por megavatio de energía consumida, en comparación con solo 2,600 en la generación anterior H200.

Eso representa una mejora de 20 veces en la densidad de agentes por unidad de energía. En una industria donde los costos de electricidad se están convirtiendo rápidamente en la restricción vinculante para el crecimiento, esto no es solo una exhibición de especificaciones. Es un cambio estructural en la economía de la inferencia.

¿Qué hay dentro del gabinete?

El GB300 NVL72 está construido sobre la arquitectura Blackwell Ultra de Nvidia, integrando 72 GPUs Blackwell Ultra y 36 CPUs Grace en un solo rack con refrigeración líquida. El sistema incorpora aproximadamente 20 a 21 TB de memoria HBM3e y ofrece un ancho de banda NVLink de 130 TB/s, que es la autopista de datos interna que permite que todas esas GPUs se comuniquen entre sí sin cuellos de botella.

Anuncio

Nvidia dice que la plataforma ofrece hasta 50 veces la salida de la fábrica de IA de sus sistemas anteriores de la generación Hopper. También afirma 10 veces más tokens por segundo por usuario y cinco veces más rendimiento por vatio.

El sistema incluye optimizaciones a nivel de software como WideEP/DeepEP y técnicas fusionadas de Mixture of Experts (MoE), diseñadas ambas para extraer más cálculos útiles de cada vatios y cada ciclo de GPU. MoE es un sistema de enrutamiento que solo activa las partes del modelo relevantes para una consulta dada, en lugar de activar cada neurona cada vez.

El rendimiento se validó utilizando un benchmark llamado AgentPerf, desarrollado por Artificial Analysis específicamente para evaluar el rendimiento de IA orientada a agentes. El benchmark ejecutó el modelo DeepSeek V4 Pro, una arquitectura MoE, con objetivos de nivel de servicio establecidos en 20 o 60 tokens por segundo por agente.

¿Quién lo está implementando?

El GB300 NVL72 ya ha atraído compromisos de los proveedores de nube más importantes. Microsoft Azure está implementando el primer clúster a gran escala construido en torno al sistema, con esos racks que se espera que alimenten las cargas de trabajo de OpenAI a partir de finales de 2025 y se extiendan hasta 2026.

CoreWeave ha anunciado las primeras instancias de producción del GB300 NVL72, posicionándose como un pionero en el espacio de la nube GPU. Oracle Cloud Infrastructure también está en la pipeline de despliegue.

Qué significa esto para los inversores

La ganancia de eficiencia de 20x sobre el H200 crea un cálculo directo de ROI para los operadores de centros de datos: el mismo margen de potencia podría teóricamente soportar 20 veces más agentes en el hardware GB300.

Una mejora del 50x en el rendimiento en comparación con las plataformas Hopper, junto con cinco veces más rendimiento por vatios, otorga a Nvidia una narrativa creíble para inversores institucionales conscientes de ESG. A medida que los reguladores y los accionistas examinan cada vez más la huella energética de la infraestructura de IA, los sistemas que ofrecen más inteligencia por kilovatio-hora obtendrán una prima en las decisiones de adquisición.