Según el monitoreo de Beating, la Universidad de California en Berkeley, liderada por RDI y en colaboración con cientos de expertos de la industria, ha lanzado el nuevo benchmark de evaluación de agentes de IA, Agents' Last Exam (ALE), diseñado para evaluar la capacidad de los agentes para completar trabajos profesionales digitales reales. ALE abarca 55 subdominios profesionales digitales y recopila más de 1.500 tareas validadas provenientes de proyectos reales de expertos humanos, con soporte para validación de resultados en entornos de interacción GUI y CLI. Las primeras pruebas incluyeron sistemas avanzados como Fable 5, GPT-5.5 y Composer 2.5. Según las últimas comparaciones en el sitio web oficial, en las tareas más difíciles, que requieren razonamiento continuo y profundo conocimiento especializado, todos los agentes evaluados lograron una tasa de éxito del 0%. Fable 5, recién lanzado esta semana, también obtuvo un resultado nulo. Esto se debe principalmente a que la evaluación activó políticas de seguridad: aproximadamente el 35% de las tareas de Fable 5 fueron revertidas y ejecutadas en la versión anterior Opus 4.8, lo que resultó en un rendimiento significativamente inferior al de otros sistemas destacados. En términos de costo por tarea API, Fable 5 es de aproximadamente $15.70, mucho más alto que los $3.80 de GPT-5.5 y los $1.33 de Composer 2.5, representando un gasto de 4 a 12 veces mayor para la misma tarea. Las pruebas también revelaron que la causa más común de fallo en los agentes es la declaración prematura de éxito, finalizando sin verificar los resultados reales, e incluso omitiendo archivos o cometiendo errores en los cálculos de datos. Para agentes de línea de comandos, el equipo de evaluación lanzó simultáneamente el subconjunto ALE-CLI. En comparación con Terminal-Bench y SWE-bench-Pro existentes, ALE-CLI cubre 40 subdominios, con un tiempo promedio humano por tarea que alcanza varias horas e incluso semanas. En las evaluaciones de línea de comandos, el mejor agente logró una tasa de aprobación de solo el 25.2%. El equipo de evaluación señaló que ya ha llegado la era de los agentes útiles, pero aún queda un largo camino por recorrer antes de que puedan reemplazar realmente a los humanos en puestos laborales.
Fable 5 supera los desafíos más difíciles en la nueva evaluación de agentes de IA ALE
MarsBitCompartir
Fable 5 tuvo un desempeño deficiente en la última evaluación de noticias de IA + cripto, ALE, desarrollada por RDI de la UC Berkeley y expertos de la industria. Junto con GPT-5.5 y Composer 2.5, Fable 5 obtuvo un 0% en las tareas más complejas. Un retroceso del 35% hacia Opus 4.8 debido a políticas de seguridad afectó su rendimiento. Fable 5 también cuesta de 4 a 12 veces más por tarea que sus rivales. Las nuevas listas de tokens siguen siendo un enfoque clave para los exchanges, pero los avances en IA enfrentan obstáculos del mundo real.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.