動察 Beating の監視によると、カリフォルニア大学バークレー校のRDIが主導し、数百人の業界専門家と共同で、AIエージェントが実際のデジタル専門作業を完了する能力を評価するための新しいAIエージェント評価ベンチマーク「Agents' Last Exam(ALE)」を発表しました。ALEは55のデジタル専門分野をカバーし、1,500以上の人類専門家の実際のプロジェクトから収集された検証タスクを含み、GUIおよびCLIインタラクティブ環境での結果検証をサポートしています。最初のテストでは、Fable 5、GPT-5.5、Composer 2.5などの最先端システムが対象となりました。最新の公式サイト比較によると、継続的な推論と深い専門知識を要する最も困難なタスクでは、すべてのテスト対象エージェントの成功率は0%であり、先週リリースされたFable 5も同様に白紙の結果となりました。これは主にセキュリティポリシーがトリガーされたためで、Fable 5のタスクの約35%が旧版Opus 4.8にロールバックされて実行され、全体的なパフォーマンスが他のベンチマークと比べて大幅に劣っています。単一タスクのAPIコストに関しては、Fable 5は約15.70ドルで、GPT-5.5の3.80ドルおよびComposer 2.5の1.33ドルと比較して、同じタスクでのコストが4〜12倍高くなっています。テストでは、エージェントが最も一般的に失敗する原因として、実際の結果を検証せずに、ファイルを省略したりデータを誤計算したりしたまま、早期に成功を宣言することが判明しました。コマンドラインエージェント向けに、評価チームはサブセット「ALE-CLI」も同時に公開しました。既存のTerminal-BenchおよびSWE-bench-Proと比較して、ALE-CLIは40のサブ分野をカバーし、単一タスクの人類平均所要時間は数時間から数週間に及びます。コマンドライン評価では、最も優れたエージェントの通過率もわずか25.2%にとどまりました。評価チームは、使いやすいエージェントの時代はすでに到来しているが、人間を真正に置き換えるレベルに到達するにはまだ長い道のりがあると指摘しています。
Fable 5、新しいAIエージェントベンチマークALEで最も難しいタスクを失敗
MarsBit共有
Fable 5は、UCバークレーのRDIと業界の専門家が開発した最新のAI+暗号通貨ニュースベンチマークALEで苦戦した。GPT-5.5およびComposer 2.5とともに、Fable 5は最も複雑なタスクで0%の得点を記録した。セキュリティポリシーにより35%のロールバックが発生し、Opus 4.8に戻ったことがそのパフォーマンスに悪影響を及ぼした。また、Fable 5は競合製品と比較して1タスクあたり4~12倍のコストがかかる。新規トークン上場は取引所にとって依然として重要な焦点であるが、AIの進歩は現実の課題に直面している。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。