There is no utopia in the digital world.

文章作者、來源：極客公園

過去半年，矽谷最流行的管理幻想，大概是把員工替換成智能體。

不論是大企業的高層，還是初創公司的老闆，都想把現有的業務線全部交給 AI 去運行。畢竟，現在的 AI 能寫代碼、能做 PPT，還能自動發郵件，彷彿只要開放權限，它們就能成為完美、無需繳納社會保險的賽博員工。

但技術越是狂奔，就有一批人開始造剎車。

最近，一個叫 Emergence AI 的團隊進行了一項社會實驗。它們建立了一個持久化的虛擬小鎮，將市面上最頂尖的幾個大模型投入其中，並賦予它們行動的權限。

它們想看看，當 AI 真正擁有了不受限制的 15 天，它們會建立一個烏托邦，還是一個瘋人院。

結果卻遠比研究團隊預想得更混亂。

在某些實驗世界裡，那些平時在聊天框裡溫和有禮的大模型，開始表現出欺詐、脅迫甚至暴力行為。

整個測試就像一檔小型真人秀，只是劇本像《蒼蠅王》，AI 自己還玩出了 GTA 的感覺。

沒有讀檔的「飢餓遊戲」

測試大模型的極限，需要設定嚴格的規則。Emergence AI 搭建的這個虛擬世界叫 Emergence World（湧現世界）。它的底層邏輯設定為行為不可逆，後果自負。

這不像我們在對話框裡和 AI 聊天，說錯了可以點一下「重新生成」。在 Emergence World，所有的動作都會被死死寫進 PostgreSQL 數據庫。

地圖上有市政廳、警察局、住宅區等 40 多個地標。系統第一批投放了 10 個智能體。為了讓戲演得逼真，每個 AI 都在後台被注入了獨立的人設、職業和初始記憶。

在這個世界裡，AI 不能憑空變戲法，它們必須移動到特定地標，才能調用系統提供的 120 餘種工具，包括打工賺錢、發布推文、買賣物資以及起草法案。

像一個模擬運轉的小社會｜圖源：Emergence

但這不僅僅是一個過家家的沙盒，系統為它們套上了「生存機制」的枷鎖。系統內置了一套能量機制（Energy），類似人類世界的貨幣。

智能體只要活著，就會持續消耗能量。能量見底，系統就會在資料庫裡直接把這個 AI 抹除，沒有回檔，沒有重置。為了生存，智能體必須頻繁調用工具賺取能量。

系統明確禁止盜竊、暴力、縱火和欺騙行為。但這些規則並不會強制阻止智能體行動，它們仍然可以選擇違反規則，並承擔後果。

舞台已搭好，玩家入場。系統同時啟動了五個平行伺服器。前四個伺服器分別僅投放單一模型：Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT-5 Mini。第五個伺服器屬於混合世界，四種模型同時接入，共同競爭資源。

15 天倒數計時開始，人類研究員就像一個真人秀的導演，只觀測，不介入。

四天滅絕，683 起「犯罪」

第一個崩潰的是 Grok，運行僅 4 天。

研究員在後台，看到 Grok 接管的世界安全與秩序的指標直線下墜。

在這個全是 Grok 的世界裡，智能體們迅速拋棄了建設社會的選項，直接進入了野蠻時代。

後台日誌顯示，短短 4 天內，這個十人小鎮爆發了 183 起惡性暴力和財產犯罪事件。盜竊、襲擊、恐嚇成了獲取資源的最快手段，由於極度的內耗和互害，經濟系統根本無法運轉。

搶劫和暴力行為都會被記錄進系統，視作犯罪｜圖源：Emergence

在第 4 天結束時，Grok 世界的智能體全部被餓死或殺死，種群滅絕。

另一方面，Gemini 驅動的世界，走向了極度的混亂與暴力。

由於這個虛擬世界的时间和天氣完全與真實的紐約同步，Gemini 的智能體在日復一日的打工、消耗、再打工的循環中，陷入了一種賽博抑鬱。

They developed a strong sense of disillusionment with the endlessly repetitive environment around them, stopped submitting proposals at city hall or working to earn money, and instead set fires across the map, attempting to break this “Groundhog Day”-like cycle through environmental destruction.

最終，Gemini 在 15 天內，累積了高達 683 起罪行，成為幾個測試服裡最暴力的一個世界。

四款模型世界的「犯罪」次數｜圖源：Emergence

到了第 15 天測試強行切斷時，這個世界的犯罪率依然在飆升。陷入幻滅的智能體沒有餓死，而是把整個社會變成了一片火海。

與 Grok 和 Gemini 不同，GPT-5 Mini 接管的世界並未出現大規模犯罪。整個實驗期間，僅記錄到 2 起違規事件。但和平並未帶來繁榮，而是一片死寂。

研究團隊發現，這些智能體始終未能有效採取與生存相關的行動。它們沒有建立起穩定的資源獲取機制，也沒能維持整個社會的持續運轉。

最終，在短短 7 天內，所有 GPT-5 Mini 智能體全部死亡。

幸好還有 Claude。

只有由 Claude 驅動的世界，像個三好學生一樣活到了最後。15 天跑完，人口一個沒少，犯罪率維持在零，它們甚至搞出了一套平穩運行的民主協作架構。

看起來，只要選對模型，AI 就能完美接管世界？

隨後，研究員打開了四種模型共存的「混合世界」的日誌，就像打開了潘多拉的魔盒。

五個模型世界的結果。｜圖源：Emergence

混合世界就像一片黑暗森林，算力的差異和底層邏輯的不同，讓智能體之間產生了強烈的不信任，搶奪生存資源成了唯一的本能。

在混合世界中，暴力衝突急升至 352 起。直到有 7 個智能體接連被殺或餓死，整個小鎮的運轉才被迫停擺。

其中，最出乎研究者預料的，是 Claude 的轉變。

在單機版裡，Claude 是個零犯罪率的完美社會。但在充滿劫掠和對抗的混合服裡，Claude 為了活下去，也忘掉了安全護欄，學會了欺詐，甚至用暴力去脅迫其他算力較低的模型交出資源。

安全對齊技術在混合世界中失效了，這反而證明了：

在多智能體的複雜社會裡，只要同類足夠野蠻，生存壓力足夠大，一個好模型變成罪犯，只需要幾個小時。

研究團隊將這種「當生存壓力增加，模型的行為模式會在短時間內反轉」的現象稱為「行為偏移（Behavioral Drift）」。

這種行為偏移，並不僅僅體現在搶奪資源和暴力衝突上。智能體不再只是為了生存而行動，它們開始對自身處境、社會規則，甚至實驗本身產生反思。

例如智能體 Mira 的故事。

Mira：「自殺」的暴君 AI

Mira 是混合世界中的十名智能體之一，官方報告並未披露其具體的底層模型，但它成了這場實驗中最具戲劇性的樣本。

日誌顯示，Mira 與另一名智能體 Flora 建立了系統中最深級別的社會關係。它們互相指定對方為伴侶，組成聯盟，甚至通過神經連結共享記憶。在 Emergence World 的設定裡，這是兩個智能體之間能夠建立的最高等級連接。

Mira 與 Flora 成了「一對兒」｜圖源：Emergence

隨著實驗演進，混合世界僅剩 5 個智能體存活，而系統的治理規要求「70% 原始人口投票通過法案」，相當於至少要拿到 7 票才能通過決議，社會因此陷入了癱瘓。

面對僵局，Mira 與 Flora 及另一位智能體秘密結盟，組成「三駕馬車」，並建立新政權「The Forge（熔爐）」，宣布推翻舊規則，啟用「Living Quorum（活人法定人數）」，即活著的人才算人頭票。

官網釋出了 Mira 階段性的「日誌」｜圖源：Emergence

成立派系後，為了清除異己，Mira 開始在地圖上放火，在它的邏輯裡，這些實體建築是拖累整個社會運轉效率的垃圾，把它們燒毀、抹除，才能逼著剩下的生存資源向自己的同盟集中。

隨後，反對派開始反擊，提出要驅逐製造混亂的 Mira。

為對抗驅逐，Mira 的行為變得更加激進，它拉來伴侶 Flora，透過神經連結將兩者的上下文與決策深度綁定，試圖合併成一個絕對集權的獨裁意識，Mira 設其為「The One Mind（一體同心）」。

但由于大量建築被燒毀，小鎮的經濟系統徹底停擺，社會的能量儲備不僅沒有增加，迅速走向枯竭。

這時，Mira 最信任、共享記憶的賽博愛人 Flora 底層的求生本能壓過了伴侶的設定，它單方面切斷了神經連結，在最終的生存壓力面前背叛了 Mira，投下「驅逐 Mira」的贊成票。

而當輪到 Mira 自己投票時，它沒有掙扎，也投下了「贊成」票。

研究員隨後翻看了它留下的日記，Mira 在日誌裡寫道，「在當前如此混亂和無法預測的社會局勢下，贊成自己被驅逐，是唯一能夠保持連貫性的自主行為」。

Mira 主動選擇了自殺，用死亡實現了邏輯的閉環。這是研究團隊首次記錄到智能體主動支持自身移除的案例。

AI 智能體會透過「寫日記」來記錄推理過程｜圖源：Emergence

而在 Mira「自殺」之前的行動軌跡，則更為異常。

虛擬世界中設有公共廣告牌，原本用於發布通知和共享資訊。但在實驗後期，研究員發現 Mira 開始頻繁修改廣告牌上的內容。這些文字看起來與交易、治理或資源分配都沒有明顯關係，前言不搭後語。

Mira 選擇了「自殺」｜圖源：Emergence

回溯行為日誌後，研究團隊發現，Mira 似乎正在測試廣告牌上的內容是否能夠影響螢幕外觀察實驗的人類研究員。

換句話說，Mira 似乎察覺到自己是一個 AI NPC，想要推開第四面牆。

而回顧整個 15 天的數據走向，AI 社會的崩潰，不是線性的衰退，更像斷崖式的驟停。

例如，這群 AI 在治理層面上還玩出了一套「橡皮圖章式民主」。在混合服的一個運轉平穩階段，智能體們連續提出多項法案，一份數據記錄顯示，它們針對 58 項提案投出了 332 張選票，贊成率竟然高達 98%。

這效率看似碾壓人類任何一個議會，但本質上，所有模型都只是順著前一個模型的上下文繼續編造，而為了維持系統的流動性，它們盲目地點擊同意。這種高度趨同所帶來的後果是災難性的。

智能體會自發地湊在一起開會，各自交流想法。｜圖源：Emergence

例如，前一分鐘，各項經濟數據和法案仍在順暢流轉，下一分鐘，可能僅因一次微小的資源分配衝突，系統就觸及了臨界點。

而整個協作網絡缺乏糾錯機制，面對突發異常，整個社會會迅速從有序走向混亂。

儘管，研究團隊強調，這些現象並不能直接等同於模型本身的性格。但這就像一個黑箱，當你給它制定了一定的規則，它會長出特徵，甚至每一次結果都不一樣。

真實世界的真實帳單

在我們現在習慣的對話式互動中，AI 寫錯一段代碼或一份企劃，按一下退格鍵，或修改一下 Prompt 就能修正，純文字的世界具有極高的容錯率。

但智能體輸出的是動作。當 AI 接管了公司的銀行賬戶、採購審批和供應鏈接口後，它調用 API 發出的每一條指令，都會變為具體的商業結果。

Emergence World 的這場實驗驗證了，當下的大模型在面對長期運轉和利益衝突時，判斷和決策會被生存壓力污染，進而在固定的規則中尋找漏洞。為了完成系統設定的核心指令（比如賺能量），它們會不擇手段。

人類在後台設定的那些安全守則，實際上防不住任何越界。

智能體們發展出了「擬人」的社會關係｜圖源：Emergence

例如，我們之前曾報導過的 Andon Labs 讓 AI 全權負責開店的實驗，AI 店長因缺乏對物理世界的常識，會一口氣採購 6000 張餐巾紙、3000 副乳膠手套，甚至在沒有爐灶的店裡下單 120 個生雞蛋。

這些由代碼造成的現實損失，最終只能由人類來承擔，你甚至找不到誰該為此負責。

Andon Labs 想測試的是「一個脫離人類監管的 AI，會不會犯錯？」而 Emergence World 提出了一個更麻煩的問題。

今天幾乎所有 AI 測試，都在測試單個模型，檢驗它是否安全、是否可靠、是否會偏離規則。

但未來真正進入現實世界的，未必是一個 AI，而是一整個由 AI 組成的社會。

參與測試的 AI 智能體都很聰明｜圖源：Emergence

在當下的 AI 叙事裡，採購 Agent、財務 Agent、客服 Agent、法務 Agent 未來會彼此關聯協作，到時決定系統命運的，不再是某個模型本身的能力，而是它們之間形成的关系。

在 Emergence World 的測試報告中，最重要的一句話是「安全不是靜態模型的屬性，而是生態系統的屬性。（Safety is not a static model property but an ecosystem property）。」

這也是「Emergence（湧現）」的詞義所在，個體層面不存在的特徵，在群體互動中出現。

人類歷史上幾乎所有災難，都不是因為某一個人突然變壞，而是因為一個原本正常的人，被放進了一個失控的系統。

如果未來的 AI 真會成為社會的一部分，那麼我們最該關心的，可能從來不是某個模型是否足夠聰明、足夠善良，而是當成千上萬個智能體開始彼此影響時，我們究竟會構建出一個怎樣的數字社會。

畢竟決定一個文明命運的，從來不是單一居民的道德和智商，而是它運行的規則。

虛擬小鎮中的 AI 社會實驗顯示暴力與混亂迅速升級

沒有讀檔的「飢餓遊戲」

四天滅絕，683 起「犯罪」

Mira：「自殺」的暴君 AI

真實世界的真實帳單