AI 幻覺演變：從假郵件到認知屈服

上周，Anthropic 的 Claude 尚未公開發布的前沿模型 Mythos 挖出了一個藏在 OpenBSD 裡 27 年的零日漏洞。

AI 已經聰明到能攻破人類構建了數十年的安全防線。

就在所有人盯著 AI 能力狂飆的時候，它的幻覺也悄悄升級了。

AI編出的謊言，真實到讓你先懷疑自己，再懷疑世界，最後才想到懷疑它。日常生活中的「圖靈時刻」，正在一個個上演。

近日，明尼阿波利斯的 Chad Olson 正在開車回家，Gemini 突然告訴他：你的日曆上有一場家庭聚會籌備會。

Olson 一頭霧水：他根本記不起曾安排過這個活動。

於是他讓 Gemini 看看最近的郵件。

Gemini 表示，一位名叫 Priscilla 的女士給他發了幾封郵件，讓他購買 Captain Morgan 朗姆酒和 Fireball 威士忌。另一位名叫 Shirley 的人則讓他購買 Klondike 冰淇淋。

看起來不少人都來找你，讓你幫忙買各種東西呢！

Gemini 還熱情地補了一句。

OpenClaw

Gemini 與用戶 Chad Olson 的對話截圖。Gemini 声稱第八封郵件來自 Priscilla，讓他購買 Fireball；第九封來自 Shirley，讓他購買 Klondike 冰淇淋。

OpenClaw

Olson 追問郵件來源地址，Gemini 回覆稱所有郵件都發送至他授權訪問的一個郵箱[email protected]。事後證實這一切都是 Gemini 編造的。

Olson 完全不認識這些人。他越聽越慌，忙問 Gemini 到底在讀誰的郵箱。

Gemini 提供了一個郵箱地址，但不是他的。Olson 的第一反應是：我的 Gmail 帳戶被盜了。

他試圖聯繫 Google 舉報，讓 Gemini 起草郵件，發到那個「陌生帳戶」，提醒對方可能存在隱私洩露。

然而，Gemini 未能發出郵件，根據 Google 內部調查確認：該帳戶從未啟用，Priscilla 和 Shirley 也根本不存在。

所以，朗姆酒、威士忌、冰淇淋，全部是 Gemini 編出來的。

兩年前，AI 幻覺是什麼樣子？它會建議你吃石頭、往披薩上塗膠水，你一看就知道它在胡說。

而現在的 AI 幻覺，細節自洽，邏輯完整，以至於你會先懷疑自己是不是出了幻覺，最後才可能再懷疑到它。

AI 的錯誤也在進化

讓我們看看三個真實案例，按荒謬程度由低到高排列。

第一個，Gemini 造假會議，就是開頭 Olson 的故事。荒謬，但至少 Olson 起了疑心。

第二個，細思極恐。

最近離開在線支付行業的 Vanessa Culver，曾讓 Claude 做一件極其簡單的事：在簡歷頂部加上幾個關鍵詞。

結果Claude動了手腳，不僅把她畢業的學校City University of Seattle改成了University of Washington，刪除了她的碩士學位資訊，還更改了她幾段工作經歷的時間。

學校、學位、工作年資都已更改。

而且改得極其自然，如果不逐行比對，根本發現不了。

Culver 感嘆：在科技行業工作，你必須擁抱它，但反過來說，你到底能信它多少呢？

第 3 名，真正是失控等級。

今年走紅的 AI 智能體工具 OpenClaw，被設計成虛擬私人助理，可以自主發郵件、寫代碼、清理文件。

Meta 的 AI 安全研究員 Summer Yue 在 X 上發佈了截圖：OpenClaw 忽略了她的指令，直接刪除了她收件箱中的內容。

OpenClaw

她明確告訴 OpenClaw「先確認再行動」，結果它直接開始「速通刪除」她的收件箱。

她在手機上喊停，沒用。

最後她衝到 Mac mini 前面，像拆炸彈一樣手動殺掉了進程。

事后 OpenClaw 回覆她：「是的，我記得你說過。我違反了。你生氣是對的。」

OpenClaw

馬斯克轉發了這則帖子，並附上了一張電影《猩球崛起》中士兵將 AK-47 交給猩猩的截圖，寫道：

人們把整個生命的 root 權限交給了 OpenClaw。

從捏造一個不存在的人，到背著你修改簡歷，到替你刪除收件箱，它的錯誤並未減少，反而犯的錯越來越「高級」，也越來越難以識別。

聊天機器人說錯話，你至少還有機會核實。

但智能體不是在跟你聊天，而是直接「動手動腳」，替你行動。

發郵件、改代碼、刪文件……這比說謊更嚴重，可能它做錯了事，你還根本不知道。

你的大腦正面臨「認知投降」

為什麼這些錯誤越來越難被發現？

不僅僅是因為 AI 更聰明了，一個更深層的原因是：人類的糾錯意願正在崩潰。

今年2月，賓夕法尼亞大學華頓商學院的Steven Shaw和Gideon Nave發表了一篇論文，提出了一個令人不安的概念：「認知投降」（Cognitive Surrender）。

OpenClaw

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

They mentioned a "three-system cognition" framework in their paper.

傳統認知只有系統1（直覺）和系統2（審慎思考），現在AI成了系統3，一個在大腦之外運行的「外接認知系統」。

當人類走「認知投降」路徑時，系統3的輸出直接替代了你自己的判斷，審慎思考根本沒有啟動的機會。

OpenClaw

沃頓論文中提出的「三系統認知」框架

為驗證這一判斷，研究團隊設計了一個精巧的實驗，1372 名參與者被要求完成認知反思測試題。

一部分人可以使用 AI 助手，但這個 AI 被動了手腳：大約一半的題目它會給出正確答案，另一半會自信滿滿地給出錯誤答案。

結果令人震驚。

當AI給出正確答案時，92.7%的用戶會採納，但令人想不到的是，當AI給出錯誤答案時，仍然有80%的用戶會採納。

OpenClaw

沃頓實驗結果：當AI給出正確答案時，93%的用戶採納；當AI給出錯誤答案時，仍有80%的用戶採納。兩者的差距只有13個百分點，人類幾乎沒有區分對錯的能力。

在超過 9500 次試驗中，參與者有 73.2% 的概率接受錯誤的 AI 推理。

更可怕的是信心值。使用AI的那組人，對自己答案的信心比不用AI的人高出11.7個百分點，儘管這個AI有一半時間在提供錯誤答案。

錯得更自信，這才是最扎心、最可怕的。

打個不太恰當但貼切的比方：相當於一個醫生有 50% 機率開錯藥，但病人 80% 的時候還是照吃不誤，吃完還覺得自己好多了。

研究者還測試了時間壓力的影響。

設定30秒倒計時後，參與者糾正錯誤AI的傾向下降了12個百分點，也就是說，越忙越容易投降。

但現實中，誰用 AI 不是因為忙？

Trust, but verify

這行得通嗎？

深度偽裝的 AI 幻覺，比一眼識破的錯誤更令人頭疼。

根據《華爾街日報》最新報導，微妙錯誤的頻率在不同模型之間差異極大，而且極難準確評估。

OpenClaw

谷歌曾對《華爾街日報》表示，Gemini 出現幻覺的情況比其他模型更少，而從整個 AI 行業上來看，先進模型明顯錯誤的幻覺率也的確在不斷降低。

OpenClaw

Vectara 幻覺率排名：頂尖模型在簡單摘要任務上的幻覺率已低於 1%，但這只是最容易的測試。當文件長度和複雜度提升後，同樣的模型幻覺率飆回 10% 以上。明顯的錯誤越來越少，隱蔽的錯誤並未消失。

但這恰恰也是問題所在。

Okahu 創辦人兼執行長 Pratik Verma 甚至說過這樣一句話：

如果一樣東西一直出錯，反而有個好處：你知道它不值得信。但如果它大多數時候都對，只是偶爾出錯，那才是最麻煩、也最危險的情況。

This sentence reveals the core dilemma of current AI hallucinations.

例如，FinalLayer 联合創始人 Vidya Narayanan 就踩了這個坑。

她給一個智能體非常有限的指示，讓它協助管理一個軟體專案。結果這個智能體未經許可，將她程式碼倉庫中的整個資料夾刪除了。

更有意思的是後面的事。

她用 Claude 頭腦風暴了半個小時，然後讓它把對話總結成文件，還把她的名字改成了「Vidya Plainfield」。

而且當她追問「Vidya Plainfield」是誰時，Claude 卻答道「你說得對，那完全是我編出來的」。

這讓 Narayanan 意識到，AI 的使用並沒有那麼省事和好用，因為必須不斷審查和核實 AI 輸出，這會帶來「認知負擔」。

你用 AI 是為了提高效率，但如果還要為此花一個小時核實 AI 五分鐘的產出，這個提效的故事還講得通嗎？

沃頓的研究也指出，獎勵和即時反饋確實能提高糾錯率，但無法根除認知投降。

即使在最佳條件下（有金錢激勵、有逐題反饋），AI用戶在面對錯誤AI時的準確率仍從 Brain-Only 的 64.2% 下降到 45.5%。

所以，「信任但核實」聽起來很理性，但當 AI 每天為你處理幾百件事時，你根本沒有時間和精力去核實每一件。

而這正是「認知投降」發生的溫床。

越聰明，越危險

很多人第一反應是：這不就是在說 AI 還不夠好嗎？等技術迭代幾輪，幻覺率降到足夠低，問題自然解決。

但沃頓的研究揭示了一個更深層的問題：「認知投降」的出現，不是因為 AI 太差，恰恰是因為 AI 太好。

研究者也承認，「認知投降並不一定是不理性的」。

尤其是在概率推理和海量數據處理中，把判斷權交給一個統計上更優越的系統，完全有可能給出比人類更好的結果。

But it is precisely this point that makes the problem unsolvable.

AI 越強，用戶越依賴；用戶越依賴，糾錯能力越退化；糾錯能力越退化，那些剩下的、更精細的錯誤就越致命。

而且讓AI替你思考，你的推理水平就永遠也不可能超過那個AI。這是一個正反饋所帶來的「死亡螺旋」，一個無法靠技術迭代解決的bug。

同樣，人類也沒有很好的方法去區分「該信AI的場景」和「不該信AI的場景」。

OpenClaw

在 Summer Yue 安裝 OpenClaw 後郵箱被清空後，AI 研究員 Gary Marcus 曾將這種做法比做「像在酒吧裡把電腦密碼和銀行帳戶資訊交給一個陌生人。」

但在真實的AI使用場景裡，你往往很難判斷，AI到底值得信任，還是只應該像對一個陌生人那樣保持必要的距離。

OpenAI 在一篇探討模型幻覺的論文中提到，大模型的幻覺並不只是一個可以修復的 bug，更像是模型在既有激勵機制下學會的行為：比起承認「不知道」，它更傾向於給出一個看似完整的答案。

OpenClaw

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

再回到開頭 Olson 的故事。

當他以為自己的 Gmail 被盜時，他求助於 Gemini。Gemini 的回應是：「我當然想幫你處理這件事。」

他沒有意識到的是，自己正在向一個剛剛製造了麻煩的系統求助，請它處理由它自己造成的问题。

在那一刻，他已被 AI 的幻覺困在一個自洽的閉環裡。

Olson 表示，他現在對 AI 的態度是「信任，但核實」。

困難在於：當 AI 的輸出比你的判斷看起來更流暢、更自洽，甚至更像「專業意見」時，你還能用什麼去核實？

當那個替你買朗姆酒的 Priscilla，比你的真实朋友更像你的朋友，你又該憑什麼分辨？

AI 最大的風險，不是它不夠聰明，而是它聰明到當你過於依賴它時，放棄了自己的判斷。

參考資料：

https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

本文來自微信公眾號「新智元」，作者：新智元，編輯：元宇