NVIDIA Blackwell supera al H200 en 20 veces en el benchmark de hardware para agentes

ME AI Noticia: Según el monitoreo de Beating, la institución de evaluación Artificial Analysis ha lanzado el primer benchmark de hardware para agentes (Agent) del sector, AA-AgentPerf. Las evaluaciones tradicionales son como una «carrera de velocidad» con una sola pregunta y respuesta, midiendo únicamente la velocidad de respuesta; en cambio, las tareas de agentes son como una «carrera de relevos», donde la IA debe descomponer automáticamente un objetivo y circular repetidamente entre leer y escribir archivos, reescribir código y ejecutar pruebas. Estas interacciones frecuentes plantean desafíos extremos para la capacidad de memoria del servidor y la eficiencia de programación. El benchmark reproduce trayectorias de programación reales y utiliza como métrica clave de eficiencia energética «el número de agentes simultáneos soportados por cada megavatio de consumo», abordando directamente las limitaciones de energía y capital en los centros de datos. En la primera ronda de pruebas, se ejecutó el modelo de código abierto DeepSeek V4 Pro con 1.6 billones de parámetros. Los resultados muestran que el sistema completo líquido NVIDIA Blackwell GB300 NVL72 puede soportar 61,400 agentes simultáneos por megavatio, mientras que la generación anterior Hopper HGX H200 solo puede soportar 2,600, lo que representa un aumento de eficiencia de más de 20 veces. La capacidad simultánea por tarjeta gráfica también aumentó 41 veces. Esto permite que los centros de datos soporten 20 veces más agentes simultáneos bajo el mismo presupuesto eléctrico, reduciendo significativamente los costos de implementación de aplicaciones como la programación automática y el servicio al cliente. En los resultados iniciales, AMD Instinct MI355X se encuentra temporalmente rezagada. La institución de evaluación señala que tanto AMD como H200 utilizan el marco abierto y genérico vLLM sin optimizaciones profundas; con el avance en la adaptación de marcos de servicio y kernels internos, el rendimiento de AMD aún tiene margen para mejorar. Actualmente, proveedores de inferencia como Together AI ya han implementado DeepSeek V4 Pro en Blackwell para proporcionar soporte de inferencia en tiempo real a la herramienta de programación por agentes Cursor. (Fuente: BlockBeats)