Huawei、パーソナルアシスタントタスクにおけるAIエージェントをテストするための「Claw-Anything」ベンチマークを発表

iconCryptoBriefing
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Huaweiは2026年5月25日、北京理工大学および北京大学と提携して「Claw-Anything」ベンチマークを発表しました。このベンチマークは、複数のサービスにわたる複雑なデジタルライフタスクをAIエージェントが管理する能力を評価します。GPT-5.5は34.5%、Claude Opus 4.7は31.8%のスコアを記録しました。ベンチマークには、200のヒトによる検証済みタスクが含まれ、平均して191.7kのコンテキスト単語が使用されています。トレーニングパイプラインにより、Qwen3.5-27Bの性能は23.7%向上しました。このAI+暗号資産ニュース更新は、デジタル資産ニュースおよびAI能力を評価するための新ツールを紹介しています。

AIのハイプサイクルにおける控えめな数値:世界で最も高度な言語モデルの一つであるGPT-5.5は、現実的なデジタル環境で24時間対応のパーソナルアシスタントとして機能した場合、34.5%の得点しか獲得できませんでした。Claude Opus 4.7はさらに悪く、31.8%でした。

これらの結果は、華為技術と北京理工大学、北京大学の研究者が共同で発表した新しいベンチマーク「Claw-Anything」から得られたものです。2026年5月25日に公開されたこの論文は、AIが質問に答えられるかどうかをテストするだけでなく、AIが実際にあなたのデジタルライフを運営できるかをテストしています。

Claw-Anythingが実際に測定するもの

ベンチマークは、完全なデジタルライフをシミュレートし、AIアシスタントに長期間にわたるイベントストリームと複数の相互依存するバックエンドサービスにわたってそれを管理させます。AIにメールを要約するよう求めるのではなく、受信トレイ、カレンダー、メッセージアプリ、ファイルシステムを同時に監視し、指示されなくても適切な行動を取るように求めます。

広告

複雑さは非常に大きいです。タスクには平均10.1の相互依存サービスが関与し、一部のシナリオでは最大18に達します。ベンチマークには、各環境あたり平均191.7kのコンテキスト単語を含む、200のヒトによる検証済みタスク環境が含まれています。

ベンチマークは、複数のデバイスにおけるグラフィカルユーザーインターフェースとコマンドラインインターフェースの両方のインタラクションを評価します。また、能動的な行動もテストします:AIは、あなたが質問する前に何かを行う必要があることに気づくことができますか?

トレーニングパイプラインは希望の光を示している

研究チームは、これらの複雑なアシスタントタスクに対してAIモデルを微調整するための2,000の学習環境を自動化されたパイプラインで生成しました。Qwen3.5-27Bというより小さなオープンソースモデルは、これらの環境から得られた成功したタスクのトレジャクトリーで微調整した結果、23.7%の性能向上を示しました。

広範なOpenClawエコシステム内で類似のマルチステップ実践タスクをテストするClawBenchとWildClawBenchでは、トップのAIモデルのスコアが33%から62%の範囲にあります。

暗号資産投資家が注目すべき理由

GPT-5.5の合格率34.5%は特に注目に値する。なぜなら、多くの暗号資産AIプロジェクトはOpenAIのモデルを基盤として構築されているからである。Qwen3.5-27Bによる微調整の結果は、ドメイン特化型の成功した経路に特化したトレーニングがパフォーマンスを有意に向上させられることを示唆している。つまり、実際のオンチェーンインタラクションから高品質なトレーニングデータを積極的に収集・整備している暗号資産AIプロジェクトが、真の価値を提供する可能性が高い。

HuaweiがオープンソースのAIベンチマークおよび広範なOpenClawフレームワークに参画していることは、信頼できるAIアシスタントの構築を巡る競争がますますグローバル化していることを示している。このベンチマークは、暗号資産AIエージェントが信頼性を持って実行する必要がある複雑で複数ステップ、複数サービスの調整能力を特にテストする。具体的には、複数のプロトコルにまたがるDeFiポートフォリオの管理、ガバナンス提案の監視、市場状況に応じたリバランス、およびチェーン間での資産のブリッジングである。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。