O GB300 NVL72 da Nvidia alcança 61,4 mil agentes de IA por megawatt, 20 vezes melhor que o H200

A Nvidia acabou de divulgar um número que deveria fazer qualquer operador de data center olhar duas vezes. O novo sistema GB300 NVL72 da empresa pode lidar com 61.400 agentes de IA simultâneos por megawatt de energia consumida, em comparação com apenas 2.600 na geração anterior H200.

Isso representa uma melhoria de 20x na densidade de agentes por unidade de energia. Para uma indústria onde os custos de eletricidade estão se tornando rapidamente a restrição limitante ao crescimento, isso não é apenas uma exibição de especificações. É uma mudança estrutural na economia da inferência.

O que há dentro do rack

O GB300 NVL72 é construído sobre a arquitetura Blackwell Ultra da Nvidia, reunindo 72 GPUs Blackwell Ultra e 36 CPUs Grace em um único rack com refrigeração líquida. O sistema integra aproximadamente 20 a 21 TB de memória HBM3e e oferece 130 TB/s de largura de banda NVLink, que é a autoestrada de dados interna que mantém todas essas GPUs se comunicando entre si sem gargalos.

Anúncio

A Nvidia afirma que a plataforma oferece até 50 vezes a saída da fábrica de IA em comparação com seus sistemas mais antigos da geração Hopper. Ela também afirma 10 vezes mais tokens por segundo por usuário e cinco vezes mais throughput por watt.

O sistema inclui otimizações em nível de software, como WideEP/DeepEP e técnicas de Mixture of Experts (MoE) fundidas, ambas projetadas para extrair mais computação útil de cada watt e cada ciclo de GPU. MoE é um sistema de roteamento que ativa apenas as partes do modelo relevantes para uma determinada consulta, em vez de ativar todos os neurônios a cada vez.

O desempenho foi validado usando um benchmark chamado AgentPerf, desenvolvido pela Artificial Analysis especificamente para avaliar o desempenho de IA orientada a agentes. O benchmark executou o modelo DeepSeek V4 Pro, uma arquitetura MoE, com objetivos de nível de serviço definidos em 20 ou 60 tokens por segundo por agente.

Quem está implantando

O GB300 NVL72 já atraiu compromissos dos provedores de nuvem mais importantes. A Microsoft Azure está implantando o primeiro cluster em grande escala construído em torno do sistema, com esses racks esperados para alimentar cargas de trabalho da OpenAI a partir do final de 2025 e se estendendo até 2026.

A CoreWeave anunciou as primeiras instâncias de produção do GB300 NVL72, posicionando-se como uma das primeiras a entrarem no espaço de nuvem de GPU. A Oracle Cloud Infrastructure também está na fila de implantação.

O que isso significa para os investidores

A ganho de eficiência de 20x em relação ao H200 cria um cálculo direto de ROI para operadores de data centers: o mesmo envelope de energia poderia teoricamente suportar 20 vezes mais agentes no hardware GB300.

Uma melhoria de 50x na saída em comparação com plataformas Hopper, combinada com cinco vezes mais desempenho por watt, oferece à Nvidia uma narrativa crível para investidores institucionais conscientes de ESG. À medida que reguladores e acionistas analisam cada vez mais a pegada energética da infraestrutura de IA, sistemas que entregam mais inteligência por quilowatt-hora terão premium nas decisões de aquisição.