Huawei、パーソナルアシスタントタスクにおけるAIエージェントをテストするための「Claw-Anything」ベンチマークを発表

AIのハイプサイクルにおける控えめな数値：世界で最も高度な言語モデルの一つであるGPT-5.5は、現実的なデジタル環境で24時間対応のパーソナルアシスタントとして機能した場合、34.5%の得点しか獲得できませんでした。Claude Opus 4.7はさらに悪く、31.8%でした。

これらの結果は、華為技術と北京理工大学、北京大学の研究者が共同で発表した新しいベンチマーク「Claw-Anything」から得られたものです。2026年5月25日に公開されたこの論文は、AIが質問に答えられるかどうかをテストするだけでなく、AIが実際にあなたのデジタルライフを運営できるかをテストしています。

Claw-Anythingが実際に測定するもの

ベンチマークは、完全なデジタルライフをシミュレートし、AIアシスタントに長期間にわたるイベントストリームと複数の相互依存するバックエンドサービスにわたってそれを管理させます。AIにメールを要約するよう求めるのではなく、受信トレイ、カレンダー、メッセージアプリ、ファイルシステムを同時に監視し、指示されなくても適切な行動を取るように求めます。

複雑さは非常に大きいです。タスクには平均10.1の相互依存サービスが関与し、一部のシナリオでは最大18に達します。ベンチマークには、各環境あたり平均191.7kのコンテキスト単語を含む、200のヒトによる検証済みタスク環境が含まれています。

ベンチマークは、複数のデバイスにおけるグラフィカルユーザーインターフェースとコマンドラインインターフェースの両方のインタラクションを評価します。また、能動的な行動もテストします：AIは、あなたが質問する前に何かを行う必要があることに気づくことができますか？

トレーニングパイプラインは希望の光を示している

研究チームは、これらの複雑なアシスタントタスクに対してAIモデルを微調整するための2,000の学習環境を自動化されたパイプラインで生成しました。Qwen3.5-27Bというより小さなオープンソースモデルは、これらの環境から得られた成功したタスクのトレジャクトリーで微調整した結果、23.7%の性能向上を示しました。

広範なOpenClawエコシステム内で類似のマルチステップ実践タスクをテストするClawBenchとWildClawBenchでは、トップのAIモデルのスコアが33%から62%の範囲にあります。

暗号資産投資家が注目すべき理由

GPT-5.5の合格率34.5％は特に注目に値する。なぜなら、多くの暗号資産AIプロジェクトはOpenAIのモデルを基盤として構築されているからである。Qwen3.5-27Bによる微調整の結果は、ドメイン特化型の成功した経路に特化したトレーニングがパフォーマンスを有意に向上させられることを示唆している。つまり、実際のオンチェーンインタラクションから高品質なトレーニングデータを積極的に収集・整備している暗号資産AIプロジェクトが、真の価値を提供する可能性が高い。

HuaweiがオープンソースのAIベンチマークおよび広範なOpenClawフレームワークに参画していることは、信頼できるAIアシスタントの構築を巡る競争がますますグローバル化していることを示している。このベンチマークは、暗号資産AIエージェントが信頼性を持って実行する必要がある複雑で複数ステップ、複数サービスの調整能力を特にテストする。具体的には、複数のプロトコルにまたがるDeFiポートフォリオの管理、ガバナンス提案の監視、市場状況に応じたリバランス、およびチェーン間での資産のブリッジングである。