Fable 5 在新的 AI 代理基準測試 ALE 中最難的任務中表現最差

根據動察 Beating 監測，加州大學伯克利分校 RDI 牽頭，聯合數百名行業專家，推出全新 AI 智能體評測基準 Agents' Last Exam（ALE），用以評估智能體完成真實數位化專業工作的能力。ALE 覆蓋 55 個數位化專業子領域，收集了 1500 多個源自人類專家實際項目的驗證任務，支援 GUI 與 CLI 交互環境下的結果驗證。首批測試覆蓋了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系統。最新官網對比口徑顯示，在需要持續推理與深厚專業知識的最難任務中，所有受測智能體的成功率全部為 0%，本周剛發布的 Fable 5 同樣交了白卷。這主要是因為評測觸發了安全策略，Fable 5 約有 35% 的任務被回退切換至舊版 Opus 4.8 運行，導致整體表現遠不及其他榜單搶眼。在單任務 API 成本方面，Fable 5 約為 15.70 美元，遠高於 GPT-5.5 的 3.80 美元和 Composer 2.5 的 1.33 美元，相同任務下的開銷高出 4 到 12 倍。測試還發現，智能體最普遍的失敗原因是過早宣告成功，在沒有實際校驗結果、甚至遺漏文件或算錯數據的情況下便匆忙收工。針對命令行智能體，評估團隊同步發布了子集 ALE-CLI。與已有的 Terminal-Bench 和 SWE-bench-Pro 相比，ALE-CLI 覆蓋了 40 個子領域，單項任務的人類平均耗時達到數小時乃至數週。在命令行評測中，表現最好的智能體通過率也僅有 25.2%。評估團隊指出，好用智能體的時代已經到來，但離真正能夠上崗頂替人類仍有很長的路要走。