華為推出 Claw-Anything 基準測試，以評估 AI 代理在個人助理任務中的表現

對於 AI 熱潮週期來說，這是一個令人謙卑的數字：GPT-5.5 作為全球最先進的語言模型之一，在模擬真實數位環境中擔任全天候個人助理時，僅獲得 34.5% 的分數。Claude Opus 4.7 的表現更差，僅為 31.8%。

這些結果來自 Claw-Anything，這是由華為研究團隊與北京理工大學及北京大學合作發表的一項新基準。該論文於 2026 年 5 月 25 日發布，不僅測試 AI 是否能回答問題，更測試 AI 是否能真正管理您的數位生活。

Claw-Anything 實際測量的內容

基準模擬完整的數位生活，然後要求 AI 助理在長時間範圍的事件流和多個相互依賴的後端服務中進行管理。你不是要求 AI 總結一封郵件，而是要求它同時監控你的郵件收件箱、日曆、訊息應用程式和檔案系統，並在無需指示的情況下採取適當行動。

複雜度相當高。任務平均涉及 10.1 個相互依賴的服務，某些情境甚至高達 18 個。基準測試包含 200 個經過人工驗證的任務環境，每個環境平均有 191.7k 個上下文詞語。

基準測試評估了在多種裝置上圖形使用者介面和命令列介面的互動。它還測試了主動行為：AI 是否能在你提出要求前察覺到需要執行某些操作？

訓練管道帶來了一絲希望

研究團隊建立了一個自動化流程，為這些複雜的助手任務生成了 2,000 個訓練環境。較小的開源模型 Qwen3.5-27B 在使用這些環境中的成功任務軌跡進行微調後，性能提升了 23.7%。

ClawBench 和 WildClawBench 在更廣泛的 OpenClaw 生態系統中測試類似的多步實踐任務，顯示頂級 AI 模型的得分介於 33% 至 62% 之間。

為何加密貨幣投資者應當關注

GPT-5.5 的 34.5% 通過率尤其值得注意，因為許多加密貨幣 AI 專案都是基於 OpenAI 的模型構建的。Qwen3.5-27B 的微調結果表明，針對領域特定的成功路徑進行專門訓練，能顯著提升表現。這意味著最有可能帶來實際價值的加密貨幣 AI 專案，很可能是在精心策劃來自實際鏈上互動的高品質訓練數據上投入大量資源的專案。

華為參與開源 AI 基準測試，並結合更廣泛的 OpenClaw 框架，表明打造可靠 AI 助理的競爭正日益全球化。該基準測試特別針對加密貨幣 AI 代理所需可靠執行的複雜、多步驟、多服務協調能力：跨多個協議管理 DeFi 投資組合、監控治理提案、根據市場狀況重新平衡資產，以及在不同鏈之間橋接資產。