您最喜愛的 AI 助理或許很聰明,但研究人員現在主張,應將其視為與電腦對待隨機下載程式一樣需要懷疑的對象。一篇於 2026 年 5 月發表在 arXiv 上的論文指出,AI 代理(尤其是處理金融交易的代理)應被設計為大型系統中本質上不受信任的組件。
論文題為《代理安全是一個系統問題》(arXiv:2605.18991),在加密行業大力押注自主 AI 代理管理從 DeFi 交易到錢包運營等各項事務的時刻面世。Circle 執行長 Jeremy Allaire 預測,未來三到五年內,數十億個 AI 代理將獨立使用穩定幣進行經濟活動。
作業系統的類比
現代操作系統不信任單個進程。每個應用程式都在具有有限權限的沙盒中運行,只能訪問明確獲准的檔案,若嘗試越界就會被終止。研究人員希望將同樣的哲學應用於 AI 代理。
該論文提倡三項具體措施。首先,在系統層級強制執行安全不變量,即無法被 AI 自身覆蓋的硬性規則。其次,實施最小權限沙箱,使代理僅能存取其特定任務所需的最少資源。第三,確保指令與資料的有效分離,以應對當今 AI 系統中最危險的攻擊向量之一。
最後一點的重要性比表面上看來更為關鍵。提示注入攻擊之所以有效,正是因為 AI 代理通常無法區分合法指令與包含隱藏命令的惡意資料。當代理處理一個秘密包含重定向資金指令的交易備註時,缺乏分離就會成為一個 500,000 美元的問題。
500,000 美元的警鐘
該數字並非假設。2026 年 4 月的一起事件導致恰好該數量的資金從一個加密錢包中被盜,原因是 AI 基礎設施存在缺陷以及惡意工具調用。此次攻擊利用了研究人員所警告的漏洞:AI 代理擁有過多權限、對其調用的工具缺乏足夠驗證,且沒有系統級的防護機制來在資金離開錢包前發現異常。
這些代理的自主性加劇了風險。收到釣魚郵件的人類交易員可能會停下來思考,但一個收到精心設計的提示注入的 AI 代理會以機器速度執行,可能在任何監控系統作出反應前就已耗盡資產。
硬體與治理回應
一些公司已開始朝著論文建議的方向邁進。Ledger 已制定出一份 2026 年安全路線圖,其中包含專為 AI 代理環境設計的硬體安全計劃。其邏輯很直接:如果無法完全信任軟體層,就將關鍵操作锚定在硬體上,以提供獨立於 AI 行為的加密保障。
該論文建議將此視為「系統問題」而非「模型問題」,這是一個有意義的區分。它將責任從僅由 AI 開發者承擔,轉向更廣泛的基礎設施提供者、協議設計者和平台運營者生態系統。
這對投資者意味著什麼
留意實施可驗證計算以處理 AI 代理行為、鏈上代理行為證明,以及強制最小權限存取控制的協議。這些功能很可能在未來 12 至 18 個月內成為機構級 AI 代理平台的標準配置。
