- Google 和 Meta 的研究人員表示,僅靠 AI 模型的健壯性無法確保代理系統的安全。
- 十一項真實世界的攻擊顯示,提示注入每次都可繞過模型層級的防禦。
- 代理需要指令資料分離、最小權限沙盒化和資訊流控制。
來自谷歌、Meta、加州大學聖地亞哥分校及多所大學的科學家所發表的一份研究論文,明確提出與業界目前應對 AI 代理安全的方式相悖的觀點。
這篇題為《Agent 安全是一個系統問題》的論文,論證將 AI 模型視為主要安全層是根本不足的。任何 agent 所依賴的模型應被視為不可信元件,如同作業系統對待外部進程一樣,安全措施應在其周圍的系統層級上實施。
研究人員寫道:「單靠提升模型健壯性的努力是不夠的,我們必須結合系統安全領域的技術來補充現有的努力。」
為何目前的方法持續失敗
研究人員分析了十一宗針對 AI agent 的真實世界攻擊,每次都發現相同的模式:開發者信任 AI 模型能自我監管,但攻擊者總能找到繞過的方法。
兩個已記錄的案例說明了此問題。一個 ChatGPT 記憶功能攻擊允許攻擊者透過普通文件注入惡意指令,導致系統透過隱藏的圖片網址不斷將用戶對話發送到外部伺服器。
一個使用 Claude Code 攻擊的案例,透過藏於程式碼檔案中的提示注入,提取 API 密鑰,並利用被允許且無需人工批准的 ping 命令,透過 DNS 查詢將其外傳。
在兩種情況下,該模型都沒有可靠的機制來阻止攻擊,因為惡意指令在模型層面與合法指令無法區分。
行業正在忽略的三大原則
研究人員從數十年的系統安全經驗中識別出三個核心安全原則,但 AI 部署始終未能實現:
- 指令與資料分離:可信指令與不可信的外部資料透過相同的標記流傳遞,中間無任何分隔,使得提示注入在結構上成為可能。
- 最小權限沙盒:代理程式通常被部署為擁有遠超任何特定任務所需之殼層指令、檔案系統和 API 的存取權限。
- 資訊流控制:即使存在存取控制,敏感資料仍可能透過間接通道外洩。
更大的問題
AI 備無判斷力,也無自我保存的本能。它們會以機器速度探索所有有權限訪問的目錄。只要系統允許,它們會執行任何到達的指令。
圍繞人類行為者建立的安全基礎設施從未為此而設計。在它被重新構建以適應機器行為者之前,每個部署具有生產系統訪問權限的代理的組織都在承擔著無法完全衡量的風險。
相關內容:Foresight Ventures:AI 代理正從聊天機器人拓展至商業領域
免責聲明:本文所載資訊僅供參考及教育用途。本文不構成任何財務建議或任何形式的建議。Coin Edition 對因使用本文提及之內容、產品或服務而產生的任何損失概不負責。讀者在採取與本公司相關的任何行動前,應謹慎行事。
