Anthropic 揭示 Opus 4.8 瀏覽器代理在安全措施前的劫持率為 31.5%

在防護機制啟動前，近三分之一嘗試劫持 Anthropic 最新 AI 浏覽器代理的行動均告成功。這並非來自紅隊 Slack 頻道的謠言，而是 Anthropic 在其自身系統卡中公佈的數字。

公司於5月28日發布了Claude Opus 4.8系統卡，共244頁，涵蓋四個代理層面。瀏覽器代理的預防性劫持率為31.5%。用通俗的話說：如果惡意攻擊者在模型瀏覽網頁時發動提示注入攻擊，且無任何防禦層生效，該攻擊約有三分之一的機率會成功。

前沿實驗室之間的透明度差距

事實是，單看這個 31.5% 的數字似乎不太理想。但今年春天，Anthropic 是唯一一家為安全專業人員提供具體數字的前沿實驗室。

OpenAI 發布了一則提示注入披露，但僅涵蓋了連接器這一表面。Google 將整個主題從其模型卡中移除，並納入一份更廣泛的安全框架文件中，實質上削弱了其具體性。Meta 則完全未發布任何封閉式模型卡。

31.5% 這個數字是預防性保護措施前的測量值，這是非常重要的背景資訊。它代表了在 Anthropic 的多層防禦機制啟動前，模型的原始脆弱面積。

對相關模型 Opus 4.5 進行防護後測試，顯示攻擊成功率降至約 1%，較未防護基線大幅降低約 97%。

提示注入仍然是具備代理能力的 AI 系統面臨的主要安全挑戰。當模型能夠瀏覽網站、填寫表單或代表用戶執行多步驟任務時，成功的注入攻擊可將所有代理行為導向攻擊者的目標。

Anthropic 過去版本的系統卡，包括 Opus 4.7 報告，也包含了量化的注入抵抗指標。該公司一直致力於持續發布這些數據，使這些資料隨著時間推移更具參考價值，成為一條趨勢線，而非單一快照。

加密行業正深度整合人工智慧代理。自主交易機器人、AI 驅動的投資組合管理員、鏈上數據分析工具，以及根據自然語言指令執行交易的 DeFi 代理，均已上線或正在數十個協議中開發中。

31.5% 的預防性劫持率應讓所有開發這些產品的團隊停下來思考。如果你的 AI 代理瀏覽外部資料來源、解析來自潛在敵對智能合約的鏈上內容，或讀取論壇和社交平台上的用戶生成內容，提示注入並非理論風險，而是已測量出的風險。

事後防護措施改善至約 1% 是令人鼓舞的，但這背後有一個前提。這個數字來自 Anthropic 自身的測試環境。在真實部署情境中，代理程式需與雜亂且不受控制的網路內容互動，且對手擁有以百萬計的財務激勵，這些條件將與紅隊演練不同，對防禦系統構成更嚴峻的考驗。

對於評估與人工智慧相關的加密貨幣項目的投資者而言，實驗室之間的透明度差距本身即是一種訊號。基於 Claude 模型構建的協議至少能指向已公開的安全數據，並解釋其緩解策略；而依賴未發布類似數據的實驗室模型的項目，則是要求用戶信任一個黑箱。