Anthropic 揭示 Opus 4.8 瀏覽器代理在安全措施前的劫持率為 31.5%

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Anthropic 報告稱,在未實施安全措施前,其 Opus 4.8 浏覽器代理的劫持率為 31.5%。公司於 5 月 28 日發布了一份 244 頁的系統卡,顯示在添加防護措施後,成功率降至 1%。這些發現強調了在 AI 系統中強化安全的必要性,特別是對於依賴鏈上數據分析和自主交易的山寨幣而言。

在防護機制啟動前,近三分之一嘗試劫持 Anthropic 最新 AI 浏覽器代理的行動均告成功。這並非來自紅隊 Slack 頻道的謠言,而是 Anthropic 在其自身系統卡中公佈的數字。

公司於5月28日發布了Claude Opus 4.8系統卡,共244頁,涵蓋四個代理層面。瀏覽器代理的預防性劫持率為31.5%。用通俗的話說:如果惡意攻擊者在模型瀏覽網頁時發動提示注入攻擊,且無任何防禦層生效,該攻擊約有三分之一的機率會成功。

前沿實驗室之間的透明度差距

事實是,單看這個 31.5% 的數字似乎不太理想。但今年春天,Anthropic 是唯一一家為安全專業人員提供具體數字的前沿實驗室。

OpenAI 發布了一則提示注入披露,但僅涵蓋了連接器這一表面。Google 將整個主題從其模型卡中移除,並納入一份更廣泛的安全框架文件中,實質上削弱了其具體性。Meta 則完全未發布任何封閉式模型卡。

廣告

這些保障措施實際上的作用

31.5% 這個數字是預防性保護措施前的測量值,這是非常重要的背景資訊。它代表了在 Anthropic 的多層防禦機制啟動前,模型的原始脆弱面積。

對相關模型 Opus 4.5 進行防護後測試,顯示攻擊成功率降至約 1%,較未防護基線大幅降低約 97%。

提示注入仍然是具備代理能力的 AI 系統面臨的主要安全挑戰。當模型能夠瀏覽網站、填寫表單或代表用戶執行多步驟任務時,成功的注入攻擊可將所有代理行為導向攻擊者的目標。

Anthropic 過去版本的系統卡,包括 Opus 4.7 報告,也包含了量化的注入抵抗指標。該公司一直致力於持續發布這些數據,使這些資料隨著時間推移更具參考價值,成為一條趨勢線,而非單一快照。

這對加密貨幣與人工智慧整合平台的重要性

加密行業正深度整合人工智慧代理。自主交易機器人、AI 驅動的投資組合管理員、鏈上數據分析工具,以及根據自然語言指令執行交易的 DeFi 代理,均已上線或正在數十個協議中開發中。

31.5% 的預防性劫持率應讓所有開發這些產品的團隊停下來思考。如果你的 AI 代理瀏覽外部資料來源、解析來自潛在敵對智能合約的鏈上內容,或讀取論壇和社交平台上的用戶生成內容,提示注入並非理論風險,而是已測量出的風險。

事後防護措施改善至約 1% 是令人鼓舞的,但這背後有一個前提。這個數字來自 Anthropic 自身的測試環境。在真實部署情境中,代理程式需與雜亂且不受控制的網路內容互動,且對手擁有以百萬計的財務激勵,這些條件將與紅隊演練不同,對防禦系統構成更嚴峻的考驗。

對於評估與人工智慧相關的加密貨幣項目的投資者而言,實驗室之間的透明度差距本身即是一種訊號。基於 Claude 模型構建的協議至少能指向已公開的安全數據,並解釋其緩解策略;而依賴未發布類似數據的實驗室模型的項目,則是要求用戶信任一個黑箱。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露