Nueva evaluación de agentes de IA ALE revela importantes brechas de rendimiento en tareas del mundo real

Una equipo de investigación liderado por la Universidad de California, Berkeley, y compuesto por más de 250 expertos de la industria, ha propuesto el benchmark de evaluación de AI Agents llamado Agents' Last Exam (ALE). Este benchmark incluye 1.490 tareas profesionales reales que cubren sectores como manufactura, derecho, medicina y medios visuales, y se utiliza para medir el desempeño de la IA en flujos de trabajo reales, prolongados y con valor económico. Los resultados del estudio muestran que, aunque los modelos dominantes actuales obtienen puntuaciones altas en benchmarks tradicionales, en el nivel más difícil de ALE la tasa promedio de aprobación completa es solo del 2,6%, y la mejor configuración alcanza apenas el 8,6%. El equipo de investigación señala que el principal cuello de botella en los sistemas actuales radica en el conocimiento del dominio, no en la capacidad de ejecución, y que la elección del modelo tiene aproximadamente tres veces más impacto en los resultados que el marco del agente. Como benchmark en constante actualización, ALE se expandirá en el futuro a nuevos flujos de trabajo e industrias.

Autor y fuente del artículo: 36Kr

Un equipo de investigación liderado por la Universidad de California, Berkeley, y compuesto por más de 250 expertos de la industria, ha propuesto el nuevo benchmark de evaluación de agentes de IA, ALE, para abordar la incapacidad de los benchmarks actuales para medir de forma continua el rendimiento de la IA en trabajos reales, de larga duración y con valor económico.

Enlace al artículo: https://arxiv.org/abs/2606.05405

¿Qué se examina en el último examen?

Agents' Last Exam (ALE) es un benchmark de evaluación de agentes de IA desarrollado por más de 250 expertos de la industria para medir el rendimiento de la IA en flujos de trabajo reales, prolongados y con valor económico.

Para probar si la IA puede realizar tareas reales en una computadora como lo haría una persona, el equipo de investigación recopiló 1.490 tareas que cubren múltiples campos, como manufactura, derecho, medicina y medios visuales. Estas tareas provienen del trabajo diario de profesionales reales: algunas requieren que la IA genere modelos 3D, mientras que otras le piden realizar clave verde y síntesis de video en DaVinci.

Figura | Distribución de 1.490 instancias de tareas bajo el sistema de clasificación ALE

En comparación con las tareas de preguntas y respuestas comunes o benchmarks de flujos cortos, este tipo de tareas exige mayores capacidades al agente. El equipo de investigación denomina a este tipo de agentes como Generalist Computer-Use Agent (GCUA): no solo debe saber operar interfaces, sino también ejecutar comandos en la línea de comandos, manejar archivos, escribir código y llamar herramientas para completar una secuencia completa de procesos.

Figura | Estructura típica del marco GCUA.

Para probar la capacidad real de estos agentes, ALE proporciona un conjunto completo de entornos de tareas ejecutables y calificables. Durante la ejecución, los scripts de tareas se encargan de cargar las tareas, preparar el entorno y realizar la calificación final, mientras que el agente observa el entorno, elige acciones y las ejecuta continuamente según la descripción de la tarea. Al finalizar la tarea, el script verifica directamente los resultados, y el 93,2% de las tareas pueden calificarse automáticamente sin necesidad de evaluación humana.

Figura | Flujo de construcción de tareas.

How did you do on the exam?

El equipo de investigación señaló que, si se considera solo la categoría de tareas más difícil, la configuración con mejor rendimiento actual es Codex + GPT-5.5, cuya tasa de aprobación completa es solo del 8,6%; la tasa promedio de aprobación completa de los sistemas principales proporcionada por el equipo de investigación es del 2,6%.

El equipo de investigación enumeró varios casos de fracaso específicos. En la tarea de transcripción musical, se requería enviar un PDF de la partitura, un archivo MIDI y capturas de pantalla de la interfaz, pero la IA solo exportó el archivo MIDI, obteniendo finalmente 0 puntos. En la tarea de simulación de inyección de plástico, la IA completó la simulación en Moldex3D y exportó los resultados, pero no pudo extraer de manera estable los valores clave, obteniendo finalmente una puntuación de 0.4762. En la tarea de composición con fondo verde, la IA exportó el video, pero el resultado no cumplió con los requisitos de referencia, por lo que también obtuvo 0 puntos.

Figura | Resultados principales de ALE.

Figura | Vista general del análisis experimental.

El equipo de investigación clasificó posteriormente las causas de los fallos. Por ejemplo, con Claude Code + Opus 4.7, el 31% corresponden a problemas de comprensión, el 47% a problemas de método y el 22% a problemas de ejecución; los problemas de comprensión y método suman aproximadamente el 80%. El equipo de investigación concluyó que el cuello de botella principal de los sistemas actuales radica en el conocimiento del dominio, no en la capacidad de ejecución.

El equipo de investigación también comparó el impacto de los modelos y los marcos de agentes. Los resultados mostraron que la variación en los resultados al cambiar el modelo es significativamente mayor que al cambiar el marco del agente. Cuando se mantiene fijo el marco del agente y solo se cambia el modelo, la diferencia entre la tasa de aprobación más alta y la más baja es de 18 puntos porcentuales; cuando se mantiene fijo el modelo y solo se cambia el marco del agente, esta diferencia es de aproximadamente 5 a 6 puntos porcentuales. El rango de impacto de la selección del modelo es aproximadamente tres veces mayor que el del marco del agente.

Deficiencias y direcciones futuras

El equipo de investigación también señaló que ALE utiliza la clasificación profesional SOC 2018 como marco, cubriendo principalmente trabajos profesionales de tipo software y digital. En esta etapa, las tareas también se ejecutan principalmente en máquinas virtuales Linux o Windows.

Además, la cobertura de ALE en diferentes campos no es equilibrada; algunos ámbitos tienen muchos más tasks que otros. Por ejemplo, la energía y la ingeniería nuclear tienen solo 4 instancias de tasks, la planificación urbana y espacial tiene 5, y el campo jurídico tiene 15. El conjunto público actual solo representa una parte del conjunto completo de tasks. El equipo de investigación realizó una evaluación: en Claude Code + Opus 4.7, el coeficiente de correlación entre la tasa de aprobación en el subconjunto público y el conjunto completo de tasks en cada campo fue de solo 0.89.

Sin embargo, el equipo de investigación considera que ALE es un benchmark en constante actualización. En el futuro, el conjunto de tareas se ampliará continuamente con nuevos flujos de trabajo y nuevos sectores, y las tareas actualmente mantenidas en el conjunto privado se rotarán periódicamente hacia el conjunto público.