研究人員敦促將 AI 代理視為不可信系統以保障加密貨幣安全

您最喜愛的 AI 助理或許很聰明，但研究人員現在主張，應將其視為與電腦對待隨機下載程式一樣需要懷疑的對象。一篇於 2026 年 5 月發表在 arXiv 上的論文指出，AI 代理（尤其是處理金融交易的代理）應被設計為大型系統中本質上不受信任的組件。

論文題為《代理安全是一個系統問題》（arXiv:2605.18991），在加密行業大力押注自主 AI 代理管理從 DeFi 交易到錢包運營等各項事務的時刻面世。Circle 執行長 Jeremy Allaire 預測，未來三到五年內，數十億個 AI 代理將獨立使用穩定幣進行經濟活動。

作業系統的類比

現代操作系統不信任單個進程。每個應用程式都在具有有限權限的沙盒中運行，只能訪問明確獲准的檔案，若嘗試越界就會被終止。研究人員希望將同樣的哲學應用於 AI 代理。

該論文提倡三項具體措施。首先，在系統層級強制執行安全不變量，即無法被 AI 自身覆蓋的硬性規則。其次，實施最小權限沙箱，使代理僅能存取其特定任務所需的最少資源。第三，確保指令與資料的有效分離，以應對當今 AI 系統中最危險的攻擊向量之一。

最後一點的重要性比表面上看來更為關鍵。提示注入攻擊之所以有效，正是因為 AI 代理通常無法區分合法指令與包含隱藏命令的惡意資料。當代理處理一個秘密包含重定向資金指令的交易備註時，缺乏分離就會成為一個 500,000 美元的問題。

該數字並非假設。2026 年 4 月的一起事件導致恰好該數量的資金從一個加密錢包中被盜，原因是 AI 基礎設施存在缺陷以及惡意工具調用。此次攻擊利用了研究人員所警告的漏洞：AI 代理擁有過多權限、對其調用的工具缺乏足夠驗證，且沒有系統級的防護機制來在資金離開錢包前發現異常。

這些代理的自主性加劇了風險。收到釣魚郵件的人類交易員可能會停下來思考，但一個收到精心設計的提示注入的 AI 代理會以機器速度執行，可能在任何監控系統作出反應前就已耗盡資產。

一些公司已開始朝著論文建議的方向邁進。Ledger 已制定出一份 2026 年安全路線圖，其中包含專為 AI 代理環境設計的硬體安全計劃。其邏輯很直接：如果無法完全信任軟體層，就將關鍵操作锚定在硬體上，以提供獨立於 AI 行為的加密保障。

該論文建議將此視為「系統問題」而非「模型問題」，這是一個有意義的區分。它將責任從僅由 AI 開發者承擔，轉向更廣泛的基礎設施提供者、協議設計者和平台運營者生態系統。

留意實施可驗證計算以處理 AI 代理行為、鏈上代理行為證明，以及強制最小權限存取控制的協議。這些功能很可能在未來 12 至 18 個月內成為機構級 AI 代理平台的標準配置。