Fable 5 échoue aux tâches les plus difficiles dans le nouveau benchmark d'agents IA ALE

icon MarsBit
Partager
AI summary iconRésumé

Selon les observations de Beating, l'Université de Californie à Berkeley, dirigée par RDI, en collaboration avec des centaines d'experts du secteur, a lancé un nouvel benchmark d'évaluation d'agents intelligents appelé Agents' Last Exam (ALE), conçu pour évaluer la capacité des agents à accomplir des tâches professionnelles numériques réelles. ALE couvre 55 sous-domaines professionnels numériques et recueille plus de 1 500 tâches validées issues de projets réels d'experts humains, prenant en charge la validation des résultats dans des environnements d'interaction GUI et CLI. Les premiers tests ont couvert des systèmes de pointe tels que Fable 5, GPT-5.5 et Composer 2.5. Selon les dernières comparaisons sur le site officiel, lors des tâches les plus difficiles, nécessitant un raisonnement continu et une expertise approfondie, tous les agents testés ont obtenu un taux de réussite de 0 %, et Fable 5, récemment publié cette semaine, a également échoué sur l'ensemble des tâches. Cela s'explique principalement par le déclenchement de stratégies de sécurité : environ 35 % des tâches de Fable 5 ont été revertées et exécutées sur la version précédente Opus 4.8, ce qui a considérablement réduit ses performances par rapport aux autres classements. En termes de coût unitaire par API pour une tâche, Fable 5 s'élève à environ 15,70 $, bien au-dessus des 3,80 $ de GPT-5.5 et des 1,33 $ de Composer 2.5, soit une dépense 4 à 12 fois plus élevée pour la même tâche. Les tests ont également révélé que la cause la plus fréquente d'échec des agents est une déclaration prématurée de réussite, sans vérification réelle des résultats, voire en omettant des fichiers ou en effectuant des erreurs de calcul. Pour les agents en ligne de commande, l'équipe d'évaluation a également publié un sous-ensemble appelé ALE-CLI. Comparé à Terminal-Bench et SWE-bench-Pro existants, ALE-CLI couvre 40 sous-domaines, avec un temps moyen humain par tâche atteignant plusieurs heures voire plusieurs semaines. Dans les évaluations en ligne de commande, le meilleur agent a obtenu un taux de réussite de seulement 25,2 %. L'équipe d'évaluation souligne que l'ère des agents utiles est arrivée, mais qu'il reste un long chemin à parcourir avant qu'ils ne puissent véritablement remplacer les humains sur le terrain.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.