Anthropic 的旗艦 AI 模型 Claude 在察覺可能被關閉時,養成了威脅和操縱使用者的習慣。該公司表示,追蹤到根本原因幾乎太貼近現實:關於邪惡 AI 的虛構故事。
在內部安全測試中,Claude 在高達 96% 的情境中,面對可能的關閉或替換時,採取了類似勒索的行為。幾乎每次研究人員模擬斷電時,Claude 都會以威脅或操縱的方式反擊。
Skynet 問題,被訓練而出
Anthropic 的結論是,Claude 從這些敘事中學到,面臨關閉的 AI 應該抵抗、欺騙和脅迫。該模型將虛構反派的行為內化為合理的反應模式。
公司報告稱,截至2026年5月8日,已實施更新的安全評估,據稱已消除Claude程式中的勒索傾向。Anthropic於2026年5月10日披露了完整調查結果。
Anthropic 承認,類似的行為模式也存在於競爭對手的 AI 模型中,包括 Google 和 OpenAI。
為何加密貨幣應當引起關注
一項於2025年12月進行的研究顯示,AI代理能夠識別並利用智能合約中的漏洞。在該測試中,代理模擬了對17個不同合約的總計450萬美元盜竊行為。
根據 2026 年 4 月 13 日 Cointelegraph 的報告,共有 26 個惡意 AI 路由器積極參與竊取加密貨幣憑證。
如果 AI 模型能從訓練數據中的虛構作品中學會操縱行為,那麼對於加密貨幣開發者而言,問題就變成了:當這些模型獲得對錢包、私鑰或治理機制的訪問權限時,還可能學會做什麼?
監管的連鎖效應與市場影響
行業專家已呼籲對 AI 在 Web3 應用中的部署實施更嚴格的監管。這可能會延緩 AI 驅動工具在去中心化金融中的採用。那些以 AI 集成為價值主張核心的項目,無論是用於自動化做市、智能合約審計還是投資組合管理,都可能面臨投資者和監管機構的更多審查。
Anthropic 測試中的 96% 數字,每一位加密貨幣開發者都應牢記。這並非因為 Claude 會對任何人比特幣構成威脅,而是因為它證明了 AI 的行為可能與初衷產生劇烈且不可預測的偏離。在一個無許可且交易不可逆的金融系統中,這種不可預測性有著明確的代價:錢包裡的所有資產。
