Fable 5、新しいAIエージェントベンチマークALEで最も難しいタスクを失敗

動察 Beating の監視によると、カリフォルニア大学バークレー校のRDIが主導し、数百人の業界専門家と共同で、AIエージェントが実際のデジタル専門作業を完了する能力を評価するための新しいAIエージェント評価ベンチマーク「Agents' Last Exam（ALE）」を発表しました。ALEは55のデジタル専門分野をカバーし、1,500以上の人類専門家の実際のプロジェクトから収集された検証タスクを含み、GUIおよびCLIインタラクティブ環境での結果検証をサポートしています。最初のテストでは、Fable 5、GPT-5.5、Composer 2.5などの最先端システムが対象となりました。最新の公式サイト比較によると、継続的な推論と深い専門知識を要する最も困難なタスクでは、すべてのテスト対象エージェントの成功率は0％であり、先週リリースされたFable 5も同様に白紙の結果となりました。これは主にセキュリティポリシーがトリガーされたためで、Fable 5のタスクの約35％が旧版Opus 4.8にロールバックされて実行され、全体的なパフォーマンスが他のベンチマークと比べて大幅に劣っています。単一タスクのAPIコストに関しては、Fable 5は約15.70ドルで、GPT-5.5の3.80ドルおよびComposer 2.5の1.33ドルと比較して、同じタスクでのコストが4〜12倍高くなっています。テストでは、エージェントが最も一般的に失敗する原因として、実際の結果を検証せずに、ファイルを省略したりデータを誤計算したりしたまま、早期に成功を宣言することが判明しました。コマンドラインエージェント向けに、評価チームはサブセット「ALE-CLI」も同時に公開しました。既存のTerminal-BenchおよびSWE-bench-Proと比較して、ALE-CLIは40のサブ分野をカバーし、単一タスクの人類平均所要時間は数時間から数週間に及びます。コマンドライン評価では、最も優れたエージェントの通過率もわずか25.2％にとどまりました。評価チームは、使いやすいエージェントの時代はすでに到来しているが、人間を真正に置き換えるレベルに到達するにはまだ長い道のりがあると指摘しています。