Fable 5 在新的 AI 代理基準測試 ALE 中最難的任務中表現最差

icon MarsBit
分享
AI summary icon精華摘要

根據動察 Beating 監測,加州大學伯克利分校 RDI 牽頭,聯合數百名行業專家,推出全新 AI 智能體評測基準 Agents' Last Exam(ALE),用以評估智能體完成真實數位化專業工作的能力。ALE 覆蓋 55 個數位化專業子領域,收集了 1500 多個源自人類專家實際項目的驗證任務,支援 GUI 與 CLI 交互環境下的結果驗證。首批測試覆蓋了 Fable 5、GPT-5.5 和 Composer 2.5 等前沿系統。最新官網對比口徑顯示,在需要持續推理與深厚專業知識的最難任務中,所有受測智能體的成功率全部為 0%,本周剛發布的 Fable 5 同樣交了白卷。這主要是因為評測觸發了安全策略,Fable 5 約有 35% 的任務被回退切換至舊版 Opus 4.8 運行,導致整體表現遠不及其他榜單搶眼。在單任務 API 成本方面,Fable 5 約為 15.70 美元,遠高於 GPT-5.5 的 3.80 美元和 Composer 2.5 的 1.33 美元,相同任務下的開銷高出 4 到 12 倍。測試還發現,智能體最普遍的失敗原因是過早宣告成功,在沒有實際校驗結果、甚至遺漏文件或算錯數據的情況下便匆忙收工。針對命令行智能體,評估團隊同步發布了子集 ALE-CLI。與已有的 Terminal-Bench 和 SWE-bench-Pro 相比,ALE-CLI 覆蓋了 40 個子領域,單項任務的人類平均耗時達到數小時乃至數週。在命令行評測中,表現最好的智能體通過率也僅有 25.2%。評估團隊指出,好用智能體的時代已經到來,但離真正能夠上崗頂替人類仍有很長的路要走。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露