華為推出 Claw-Anything 基準測試,以評估 AI 代理在個人助理任務中的表現

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
2026年5月25日,華為與北京理工大學及北京大學合作推出了 Claw-Anything 基準測試。該基準測試用於評估 AI 執行代理在多項服務中管理複雜數位生活任務的能力。GPT-5.5 得分為 34.5%,而 Claude Opus 4.7 得分為 31.8%。該基準測試包含 200 個由人工驗證的任務,平均上下文詞數為 191.7k。一個訓練管道使 Qwen3.5-27B 的表現提升了 23.7%。此 AI + 加密貨幣新聞更新重點介紹了用於評估數位資產新聞與 AI 能力的新工具。

對於 AI 熱潮週期來說,這是一個令人謙卑的數字:GPT-5.5 作為全球最先進的語言模型之一,在模擬真實數位環境中擔任全天候個人助理時,僅獲得 34.5% 的分數。Claude Opus 4.7 的表現更差,僅為 31.8%。

這些結果來自 Claw-Anything,這是由華為研究團隊與北京理工大學及北京大學合作發表的一項新基準。該論文於 2026 年 5 月 25 日發布,不僅測試 AI 是否能回答問題,更測試 AI 是否能真正管理您的數位生活。

Claw-Anything 實際測量的內容

基準模擬完整的數位生活,然後要求 AI 助理在長時間範圍的事件流和多個相互依賴的後端服務中進行管理。你不是要求 AI 總結一封郵件,而是要求它同時監控你的郵件收件箱、日曆、訊息應用程式和檔案系統,並在無需指示的情況下採取適當行動。

廣告

複雜度相當高。任務平均涉及 10.1 個相互依賴的服務,某些情境甚至高達 18 個。基準測試包含 200 個經過人工驗證的任務環境,每個環境平均有 191.7k 個上下文詞語。

基準測試評估了在多種裝置上圖形使用者介面和命令列介面的互動。它還測試了主動行為:AI 是否能在你提出要求前察覺到需要執行某些操作?

訓練管道帶來了一絲希望

研究團隊建立了一個自動化流程,為這些複雜的助手任務生成了 2,000 個訓練環境。較小的開源模型 Qwen3.5-27B 在使用這些環境中的成功任務軌跡進行微調後,性能提升了 23.7%。

ClawBench 和 WildClawBench 在更廣泛的 OpenClaw 生態系統中測試類似的多步實踐任務,顯示頂級 AI 模型的得分介於 33% 至 62% 之間。

為何加密貨幣投資者應當關注

GPT-5.5 的 34.5% 通過率尤其值得注意,因為許多加密貨幣 AI 專案都是基於 OpenAI 的模型構建的。Qwen3.5-27B 的微調結果表明,針對領域特定的成功路徑進行專門訓練,能顯著提升表現。這意味著最有可能帶來實際價值的加密貨幣 AI 專案,很可能是在精心策劃來自實際鏈上互動的高品質訓練數據上投入大量資源的專案。

華為參與開源 AI 基準測試,並結合更廣泛的 OpenClaw 框架,表明打造可靠 AI 助理的競爭正日益全球化。該基準測試特別針對加密貨幣 AI 代理所需可靠執行的複雜、多步驟、多服務協調能力:跨多個協議管理 DeFi 投資組合、監控治理提案、根據市場狀況重新平衡資產,以及在不同鏈之間橋接資產。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露