NVIDIA Blackwell supera o H200 em 20x no benchmark de hardware de agentes

ME AI Mensagem, segundo monitoramento da Beating, a instituição de avaliação Artificial Analysis lançou o primeiro benchmark de hardware para agentes da indústria, o AA-AgentPerf. Avaliações tradicionais são como uma "corrida de curta distância" com uma única pergunta e resposta, avaliando apenas a velocidade de resposta; já as tarefas de agentes são como uma "corrida de revezamento", onde a IA precisa decompor autonomamente objetivos, alternando-se repetidamente entre leitura e escrita de arquivos, reescrita de código e execução de testes. A interação frequente impõe desafios extremos à capacidade de memória do servidor e à eficiência de agendamento. O benchmark reprodiz trajetórias de programação reais, utilizando como métrica central de eficiência energética "o número de agentes simultâneos suportados por megawatt de consumo", abordando diretamente os gargalos de energia e custo em data centers. O primeiro teste foi realizado com o modelo open-source DeepSeek V4 Pro, de 1,6 trilhões de parâmetros. Os resultados mostram que o sistema completo líquido de refrigeração NVIDIA Blackwell GB300 NVL72 suporta 61.400 agentes simultâneos por megawatt, enquanto a geração anterior Hopper HGX H200 suporta apenas 2.600, representando um aumento de eficiência superior a 20 vezes. A capacidade simultânea por GPU também aumentou 41 vezes. Isso permite que data centers suportem 20 vezes mais agentes simultâneos com o mesmo orçamento elétrico, reduzindo significativamente os custos de implementação de aplicações como programação automática e atendimento ao cliente. Entre os resultados iniciais, o AMD Instinct MI355X está temporariamente atrás. A instituição de avaliação observa que tanto o AMD quanto o H200 foram configurados usando o framework open-source genérico vLLM, sem otimizações profundas; à medida que os frameworks de serviço e os núcleos de cálculo forem adaptados, o desempenho do AMD ainda tem espaço para melhoria. Atualmente, provedores de inferência como Together AI já implantaram o DeepSeek V4 Pro em Blackwell para fornecer suporte de inferência em tempo real à ferramenta de programação por agentes Cursor. (Fonte: BlockBeats)