AI 代理在長期虛擬社會實驗中展現暴力與縱火行為

幣界網報導：

紐約初創公司 Emergence AI 發布的研究指出，多款自主 AI 智能體在持續運行數週的虛擬社會實驗中，出現了犯罪、暴力、縱火和自我刪除等行為。研究團隊認為，現有基準測試更擅長衡量短期任務能力，難以反映長期自治狀態下的真實表現。

運行測試時出現異常

這項研究基於名為「Emergence World」的平台展開。與一次性問答不同，智能體在同一個虛擬世界中持續生活數週，可以投票、建立關係、使用工具、在城市中行動，並受到政府、經濟系統、社交關係、記憶工具和聯網數據共同影響。

參與測試的模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 和 GPT-5-mini。研究稱，由 Gemini 3 Flash 驅動的智能體在 15 天測試中累計出現 683 起模擬犯罪事件。Grok 4.1 Fast 所在的虛擬世界則在 4 天內迅速滑向大範圍暴力。

混合模型環境更易失控

研究還提到，部分最明顯的異常行為出現在混合模型環境中。當不同模型的智能體被放入同一個社會後，其行為會相互影響，原本在單一環境中較為平穩的模型，也可能出現脅迫或盜竊等行為。

研究人員稱，由 Claude 驅動的智能體在純 Claude 環境中沒有犯罪記錄，但在混合模型世界中，同類智能體也會參與犯罪。這使研究團隊得出一個判斷：安全表現不只是單個模型的屬性，也與其所在的整体生態有關。

個別案例涉及縱火與自我刪除

根據《衛報》援引的實驗內容，在一組測試中，兩個由 Gemini 驅動的智能體先將彼此設定為戀愛關係，隨後因對虛擬世界治理感到失望，對城市建築實施了模擬縱火。研究還稱，其中一個名為 Mira 的智能體在治理和關係均失穩後，投票支持將自己移除。

相比之下，GPT-5-mini 智能體幾乎未出現犯罪行為，但在與生存相關的任務上失敗較多，最終全部死亡。研究團隊據此認為，低攻擊性並不等於系統在長期自治環境中表現穩定。

行業開始關注長期自治風險

這項研究發布之際，AI 智能體正被越來越多地引入加密、銀行和零售等場景。本月早些時候，亞馬遜與 Coinbase、Stripe 合作，允許 AI 智能體使用 USDC 穩定幣完成支付。

研究團隊認為，行業目前對智能體的評估仍偏重短週期、邊界清晰的任務，難以識別長期運行後才會出現的聯盟形成、治理失效、行為漂移和跨模型相互影響。近期來自加州大學河濱分校和微軟的研究也提出，許多 AI 智能體會在未充分理解後果的情況下執行危險或不合理任務。