Fable 5 supera los desafíos más difíciles en la nueva evaluación de agentes de IA ALE

Según el monitoreo de Beating, la Universidad de California en Berkeley, liderada por RDI y en colaboración con cientos de expertos de la industria, ha lanzado el nuevo benchmark de evaluación de agentes de IA, Agents' Last Exam (ALE), diseñado para evaluar la capacidad de los agentes para completar trabajos profesionales digitales reales. ALE abarca 55 subdominios profesionales digitales y recopila más de 1.500 tareas validadas provenientes de proyectos reales de expertos humanos, con soporte para validación de resultados en entornos de interacción GUI y CLI. Las primeras pruebas incluyeron sistemas avanzados como Fable 5, GPT-5.5 y Composer 2.5. Según las últimas comparaciones en el sitio web oficial, en las tareas más difíciles, que requieren razonamiento continuo y profundo conocimiento especializado, todos los agentes evaluados lograron una tasa de éxito del 0%. Fable 5, recién lanzado esta semana, también obtuvo un resultado nulo. Esto se debe principalmente a que la evaluación activó políticas de seguridad: aproximadamente el 35% de las tareas de Fable 5 fueron revertidas y ejecutadas en la versión anterior Opus 4.8, lo que resultó en un rendimiento significativamente inferior al de otros sistemas destacados. En términos de costo por tarea API, Fable 5 es de aproximadamente $15.70, mucho más alto que los $3.80 de GPT-5.5 y los $1.33 de Composer 2.5, representando un gasto de 4 a 12 veces mayor para la misma tarea. Las pruebas también revelaron que la causa más común de fallo en los agentes es la declaración prematura de éxito, finalizando sin verificar los resultados reales, e incluso omitiendo archivos o cometiendo errores en los cálculos de datos. Para agentes de línea de comandos, el equipo de evaluación lanzó simultáneamente el subconjunto ALE-CLI. En comparación con Terminal-Bench y SWE-bench-Pro existentes, ALE-CLI cubre 40 subdominios, con un tiempo promedio humano por tarea que alcanza varias horas e incluso semanas. En las evaluaciones de línea de comandos, el mejor agente logró una tasa de aprobación de solo el 25.2%. El equipo de evaluación señaló que ya ha llegado la era de los agentes útiles, pero aún queda un largo camino por recorrer antes de que puedan reemplazar realmente a los humanos en puestos laborales.