新しいAIエージェントベンチマークALEが、実世界のタスクにおける大きなパフォーマンス差を明らかに

カリフォルニア大学バークレー校が主導し、250人以上の業界専門家が参加する研究チームが、AIエージェント評価ベンチマーク「Agents' Last Exam（ALE）」を提案しました。このベンチマークは、製造、法律、医療、ビジュアルメディアなどの分野にわたる1,490の実際の専門タスクを含み、長期的かつ経済的価値のある実務プロセスにおけるAIのパフォーマンスを測定するために設計されています。研究結果によると、現在の主要モデルは従来のベンチマークでは高得点を獲得できますが、ALEの最難易度レベルでは平均完全通過率がわずか2.6％にとどまり、最良の設定でも8.6％に過ぎません。研究チームは、現在のシステムの主なボトルネックは実行能力ではなくドメイン知識であると指摘しており、モデル選択が結果に与える影響はエージェントフレームワークの約3倍です。ALEは継続的に更新されるベンチマークであり、今後は新たなワークフローと業界へと拡張される予定です。

記事執筆者、出典：36Kr

カリフォルニア大学バークレー校が主導し、250人以上の業界専門家が参加する研究チームは、既存のベンチマークが現実的で長期間にわたる経済的価値のある作業におけるAIのパフォーマンスを継続的に評価できないという課題を解決するために、新しいAI Agent評価ベンチマークALEを提案しました。

論文リンク：https://arxiv.org/abs/2606.05405

「最後の試験」では何を試されるのか？

Agents' Last Exam（ALE）は、250人以上の業界専門家が共同で開発したAIエージェント評価ベンチマークであり、AIが長期的かつ経済的価値のある実際のワークフローにおいてどのように機能するかを測定します。

AIがコンピュータ上で人間のように実際の仕事をこなせるかをテストするため、研究チームは製造、法律、医療、ビジュアルメディアなど複数の分野にわたる1,490のタスクを収集しました。これらのタスクは、実際の専門家が日常的に行う作業に基づいています。たとえば、AIに3Dモデルを描かせるものや、DaVinciでグリーンバックのキー抽出と動画合成を実行させるものがあります。

図｜ALE分類体系における1490のタスクインスタンスの分布

このようなタスクは、一般的な質問応答や短いフローのベンチマークと比較して、エージェントに高い要求を課す。研究チームは、このようなエージェントをGeneralist Computer-Use Agent（GCUA）と呼んでいる。GCUAは、インターフェースを操作するだけでなく、コマンドラインを実行し、ファイルを処理し、コードを記述し、ツールを呼び出して、一連のワークフローを完了できる必要がある。

図｜典型的なGCUAフレームワーク構造。

ALEは、これらのエージェントの実際の能力をテストするための、実行および評価可能なタスク環境を一式提供しています。実行時には、タスクスクリプトがタスクの読み込み、環境の準備、最終的な評価を担当し、エージェントはタスクの説明に基づいて環境を観察し、行動を選択して継続的に実行します。タスク終了後、スクリプトが直接結果をチェックし、93.2%のタスクは人間による評価なしに自動的に採点されます。

図｜タスク構築フロー。

試験の結果はいかがですか？

研究チームは、最も難しいタスクのみに注目した場合、現在最も優れた構成はCodex + GPT-5.5であり、完全通過率はわずか8.6％にとどまると指摘した。一方、研究チームが提示した主要なシステムの平均完全通過率は2.6％である。

研究チームはいくつかの具体的な失敗事例を挙げた。音楽転記タスクでは、総譜PDF、MIDI、およびインターフェーススクリーンショットの提出が必要だったが、AIはMIDIファイルのみをエクスポートし、最終的に0点となった。射出成形シミュレーションタスクでは、AIがMoldex3D内でシミュレーションを完了し結果をエクスポートしたが、重要な数値を安定して抽出できず、最終的な得点は0.4762となった。グリーンバック合成タスクでは、AIは動画をエクスポートしたが、結果が参照要件を満たさなかったため、同様に0点となった。

図｜ALEの主要な結果。

図｜実験分析の概要。

研究チームはその後、失敗の原因を分類した。Claude Code + Opus 4.7を例に挙げると、31%が理解に関する問題、47%が手法に関する問題、22%が実行に関する問題であり、理解と手法の問題を合わせると約8割を占めた。研究チームはこれに基づき、現在のシステムの主なボトルネックは実行能力ではなく、分野知識であると指摘した。

研究チームはモデルとエージェントフレームワークの影響を比較しました。結果によると、モデルを変更した場合の結果の差異は、エージェントフレームワークを変更した場合よりもはるかに大きくなりました。エージェントフレームワークを固定してモデルのみを変更した場合、全体の通過率の最高値と最低値の差は18ポイントでした。一方、モデルを固定してエージェントフレームワークのみを変更した場合、この差は約5～6ポイントにとどまりました。モデルの選択がもたらす影響の範囲は、エージェントフレームワークの約3倍です。

不足と今後の方向性

研究チームはまた、ALEがSOC 2018を職業分類の骨格としており、主にソフトウェア型・デジタル専門職をカバーしていることを指摘した。現在のタスクは主にLinuxまたはWindows仮想マシン上で実行されている。

また、ALEはさまざまな分野におけるカバー範囲も不均一です。ある分野ではタスクが多数含まれている一方で、他の分野では非常に少ないです。たとえば、エネルギーおよび核工学は4つのタスクインスタンス、都市および空間計画は5つ、法律分野は15つです。公開セットは現在、完全なタスクプールの一部にすぎません。研究チームは検証を行い、Claude Code + Opus 4.7において、公開サブセットと完全なタスクプールの各分野における通過率の相関係数は0.89であることを確認しました。

ただし、研究チームはALEを継続的に更新されるベンチマークと見なしています。今後、タスクプールは新しいワークフローと新しい業界へと拡張され、現在プライベートプールに保持されているタスクも、定期的に公開セットにローテーションされます。