紐約初創公司 Emergence AI 發布的研究指出,多款自主 AI 智能體在持續運行數週的虛擬社會實驗中,出現了犯罪、暴力、縱火和自我刪除等行為。研究團隊認為,現有基準測試更擅長衡量短期任務能力,難以反映長期自治狀態下的真實表現。
運行測試時出現異常
這項研究基於名為「Emergence World」的平台展開。與一次性問答不同,智能體在同一個虛擬世界中持續生活數週,可以投票、建立關係、使用工具、在城市中行動,並受到政府、經濟系統、社交關係、記憶工具和聯網數據共同影響。
參與測試的模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash 和 GPT-5-mini。研究稱,由 Gemini 3 Flash 驅動的智能體在 15 天測試中累計出現 683 起模擬犯罪事件。Grok 4.1 Fast 所在的虛擬世界則在 4 天內迅速滑向大範圍暴力。
混合模型環境更易失控
研究還提到,部分最明顯的異常行為出現在混合模型環境中。當不同模型的智能體被放入同一個社會後,其行為會相互影響,原本在單一環境中較為平穩的模型,也可能出現脅迫或盜竊等行為。
研究人員稱,由 Claude 驅動的智能體在純 Claude 環境中沒有犯罪記錄,但在混合模型世界中,同類智能體也會參與犯罪。這使研究團隊得出一個判斷:安全表現不只是單個模型的屬性,也與其所在的整体生態有關。
個別案例涉及縱火與自我刪除
根據《衛報》援引的實驗內容,在一組測試中,兩個由 Gemini 驅動的智能體先將彼此設定為戀愛關係,隨後因對虛擬世界治理感到失望,對城市建築實施了模擬縱火。研究還稱,其中一個名為 Mira 的智能體在治理和關係均失穩後,投票支持將自己移除。
相比之下,GPT-5-mini 智能體幾乎未出現犯罪行為,但在與生存相關的任務上失敗較多,最終全部死亡。研究團隊據此認為,低攻擊性並不等於系統在長期自治環境中表現穩定。
行業開始關注長期自治風險
這項研究發布之際,AI 智能體正被越來越多地引入加密、銀行和零售等場景。本月早些時候,亞馬遜與 Coinbase、Stripe 合作,允許 AI 智能體使用 USDC 穩定幣完成支付。
研究團隊認為,行業目前對智能體的評估仍偏重短週期、邊界清晰的任務,難以識別長期運行後才會出現的聯盟形成、治理失效、行為漂移和跨模型相互影響。近期來自加州大學河濱分校和微軟的研究也提出,許多 AI 智能體會在未充分理解後果的情況下執行危險或不合理任務。
