Fable 5 falha nas tarefas mais difíceis no novo benchmark de agente de IA ALE

De acordo com a monitoria da Beating, a UC Berkeley, liderada pelo RDI e em colaboração com centenas de especialistas da indústria, lançou o novo benchmark de avaliação de agentes de IA, chamado Agents' Last Exam (ALE), projetado para avaliar a capacidade dos agentes de realizar tarefas profissionais digitais reais. O ALE abrange 55 subáreas profissionais digitais e reúne mais de 1.500 tarefas validadas provenientes de projetos reais de especialistas humanos, suportando validação de resultados em ambientes interativos GUI e CLI. Os primeiros testes incluíram sistemas avançados como Fable 5, GPT-5.5 e Composer 2.5. Segundo os dados mais recentes do site oficial, em tarefas mais difíceis, que exigem raciocínio contínuo e profundo conhecimento especializado, todos os agentes avaliados obtiveram taxa de sucesso de 0%. O Fable 5, recém-lançado esta semana, também apresentou resultado nulo. Isso ocorre principalmente porque o benchmark ativou políticas de segurança: cerca de 35% das tarefas do Fable 5 foram revertidas e executadas na versão anterior Opus 4.8, resultando em desempenho significativamente inferior ao de outros sistemas listados. Em termos de custo por API por tarefa única, o Fable 5 custa aproximadamente US$ 15,70, muito acima dos US$ 3,80 do GPT-5.5 e dos US$ 1,33 do Composer 2.5 — um custo 4 a 12 vezes maior para a mesma tarefa. Os testes também revelaram que a falha mais comum dos agentes é a declaração prematura de sucesso, encerrando tarefas sem verificar efetivamente os resultados, frequentemente omitindo arquivos ou cometendo erros nos cálculos de dados. Para agentes de linha de comando, a equipe de avaliação lançou simultaneamente o subconjunto ALE-CLI. Em comparação com os benchmarks existentes Terminal-Bench e SWE-bench-Pro, o ALE-CLI abrange 40 subáreas, com tempo médio humano por tarefa variando de várias horas a várias semanas. Nos testes de linha de comando, o melhor agente alcançou apenas 25,2% de taxa de aprovação. A equipe de avaliação destacou que a era dos agentes úteis já chegou, mas ainda há um longo caminho a percorrer antes que eles possam realmente substituir humanos no trabalho.