Fable 5 échoue aux tâches les plus difficiles dans le nouveau benchmark d'agents IA ALE

Selon les observations de Beating, l'Université de Californie à Berkeley, dirigée par RDI, en collaboration avec des centaines d'experts du secteur, a lancé un nouvel benchmark d'évaluation d'agents intelligents appelé Agents' Last Exam (ALE), conçu pour évaluer la capacité des agents à accomplir des tâches professionnelles numériques réelles. ALE couvre 55 sous-domaines professionnels numériques et recueille plus de 1 500 tâches validées issues de projets réels d'experts humains, prenant en charge la validation des résultats dans des environnements d'interaction GUI et CLI. Les premiers tests ont couvert des systèmes de pointe tels que Fable 5, GPT-5.5 et Composer 2.5. Selon les dernières comparaisons sur le site officiel, lors des tâches les plus difficiles, nécessitant un raisonnement continu et une expertise approfondie, tous les agents testés ont obtenu un taux de réussite de 0 %, et Fable 5, récemment publié cette semaine, a également échoué sur l'ensemble des tâches. Cela s'explique principalement par le déclenchement de stratégies de sécurité : environ 35 % des tâches de Fable 5 ont été revertées et exécutées sur la version précédente Opus 4.8, ce qui a considérablement réduit ses performances par rapport aux autres classements. En termes de coût unitaire par API pour une tâche, Fable 5 s'élève à environ 15,70 $, bien au-dessus des 3,80 $ de GPT-5.5 et des 1,33 $ de Composer 2.5, soit une dépense 4 à 12 fois plus élevée pour la même tâche. Les tests ont également révélé que la cause la plus fréquente d'échec des agents est une déclaration prématurée de réussite, sans vérification réelle des résultats, voire en omettant des fichiers ou en effectuant des erreurs de calcul. Pour les agents en ligne de commande, l'équipe d'évaluation a également publié un sous-ensemble appelé ALE-CLI. Comparé à Terminal-Bench et SWE-bench-Pro existants, ALE-CLI couvre 40 sous-domaines, avec un temps moyen humain par tâche atteignant plusieurs heures voire plusieurs semaines. Dans les évaluations en ligne de commande, le meilleur agent a obtenu un taux de réussite de seulement 25,2 %. L'équipe d'évaluation souligne que l'ère des agents utiles est arrivée, mais qu'il reste un long chemin à parcourir avant qu'ils ne puissent véritablement remplacer les humains sur le terrain.