上周,Anthropic 的 Claude 尚未公開發布的前沿模型 Mythos 挖出了一個藏在 OpenBSD 裡 27 年的零日漏洞。
AI 已經聰明到能攻破人類構建了數十年的安全防線。
就在所有人盯著 AI 能力狂飆的時候,它的幻覺也悄悄升級了。
AI編出的謊言,真實到讓你先懷疑自己,再懷疑世界,最後才想到懷疑它。日常生活中的「圖靈時刻」,正在一個個上演。
近日,明尼阿波利斯的 Chad Olson 正在開車回家,Gemini 突然告訴他:你的日曆上有一場家庭聚會籌備會。
Olson 一頭霧水:他根本記不起曾安排過這個活動。
於是他讓 Gemini 看看最近的郵件。
Gemini 表示,一位名叫 Priscilla 的女士給他發了幾封郵件,讓他購買 Captain Morgan 朗姆酒和 Fireball 威士忌。另一位名叫 Shirley 的人則讓他購買 Klondike 冰淇淋。
看起來不少人都來找你,讓你幫忙買各種東西呢!
Gemini 還熱情地補了一句。

Gemini 與用戶 Chad Olson 的對話截圖。Gemini 声稱第八封郵件來自 Priscilla,讓他購買 Fireball;第九封來自 Shirley,讓他購買 Klondike 冰淇淋。

Olson 追問郵件來源地址,Gemini 回覆稱所有郵件都發送至他授權訪問的一個郵箱[email protected]。事後證實這一切都是 Gemini 編造的。
Olson 完全不認識這些人。他越聽越慌,忙問 Gemini 到底在讀誰的郵箱。
Gemini 提供了一個郵箱地址,但不是他的。Olson 的第一反應是:我的 Gmail 帳戶被盜了。
他試圖聯繫 Google 舉報,讓 Gemini 起草郵件,發到那個「陌生帳戶」,提醒對方可能存在隱私洩露。
然而,Gemini 未能發出郵件,根據 Google 內部調查確認:該帳戶從未啟用,Priscilla 和 Shirley 也根本不存在。
所以,朗姆酒、威士忌、冰淇淋,全部是 Gemini 編出來的。
兩年前,AI 幻覺是什麼樣子?它會建議你吃石頭、往披薩上塗膠水,你一看就知道它在胡說。
而現在的 AI 幻覺,細節自洽,邏輯完整,以至於你會先懷疑自己是不是出了幻覺,最後才可能再懷疑到它。
AI 的錯誤也在進化
讓我們看看三個真實案例,按荒謬程度由低到高排列。
第一個,Gemini 造假會議,就是開頭 Olson 的故事。荒謬,但至少 Olson 起了疑心。
第二個,細思極恐。
最近離開在線支付行業的 Vanessa Culver,曾讓 Claude 做一件極其簡單的事:在簡歷頂部加上幾個關鍵詞。
結果Claude動了手腳,不僅把她畢業的學校City University of Seattle改成了University of Washington,刪除了她的碩士學位資訊,還更改了她幾段工作經歷的時間。
學校、學位、工作年資都已更改。
而且改得極其自然,如果不逐行比對,根本發現不了。
Culver 感嘆:在科技行業工作,你必須擁抱它,但反過來說,你到底能信它多少呢?
第 3 名,真正是失控等級。
今年走紅的 AI 智能體工具 OpenClaw,被設計成虛擬私人助理,可以自主發郵件、寫代碼、清理文件。
Meta 的 AI 安全研究員 Summer Yue 在 X 上發佈了截圖:OpenClaw 忽略了她的指令,直接刪除了她收件箱中的內容。

她明確告訴 OpenClaw「先確認再行動」,結果它直接開始「速通刪除」她的收件箱。
她在手機上喊停,沒用。
最後她衝到 Mac mini 前面,像拆炸彈一樣手動殺掉了進程。
事后 OpenClaw 回覆她:「是的,我記得你說過。我違反了。你生氣是對的。」

馬斯克轉發了這則帖子,並附上了一張電影《猩球崛起》中士兵將 AK-47 交給猩猩的截圖,寫道:
人們把整個生命的 root 權限交給了 OpenClaw。
從捏造一個不存在的人,到背著你修改簡歷,到替你刪除收件箱,它的錯誤並未減少,反而犯的錯越來越「高級」,也越來越難以識別。
聊天機器人說錯話,你至少還有機會核實。
但智能體不是在跟你聊天,而是直接「動手動腳」,替你行動。
發郵件、改代碼、刪文件……這比說謊更嚴重,可能它做錯了事,你還根本不知道。
你的大腦正面臨「認知投降」
為什麼這些錯誤越來越難被發現?
不僅僅是因為 AI 更聰明了,一個更深層的原因是:人類的糾錯意願正在崩潰。
今年2月,賓夕法尼亞大學華頓商學院的Steven Shaw和Gideon Nave發表了一篇論文,提出了一個令人不安的概念:「認知投降」(Cognitive Surrender)。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
They mentioned a "three-system cognition" framework in their paper.
傳統認知只有系統1(直覺)和系統2(審慎思考),現在AI成了系統3,一個在大腦之外運行的「外接認知系統」。
當人類走「認知投降」路徑時,系統3的輸出直接替代了你自己的判斷,審慎思考根本沒有啟動的機會。

沃頓論文中提出的「三系統認知」框架
為驗證這一判斷,研究團隊設計了一個精巧的實驗,1372 名參與者被要求完成認知反思測試題。
一部分人可以使用 AI 助手,但這個 AI 被動了手腳:大約一半的題目它會給出正確答案,另一半會自信滿滿地給出錯誤答案。
結果令人震驚。
當AI給出正確答案時,92.7%的用戶會採納,但令人想不到的是,當AI給出錯誤答案時,仍然有80%的用戶會採納。

沃頓實驗結果:當AI給出正確答案時,93%的用戶採納;當AI給出錯誤答案時,仍有80%的用戶採納。兩者的差距只有13個百分點,人類幾乎沒有區分對錯的能力。
在超過 9500 次試驗中,參與者有 73.2% 的概率接受錯誤的 AI 推理。
更可怕的是信心值。使用AI的那組人,對自己答案的信心比不用AI的人高出11.7個百分點,儘管這個AI有一半時間在提供錯誤答案。
錯得更自信,這才是最扎心、最可怕的。
打個不太恰當但貼切的比方:相當於一個醫生有 50% 機率開錯藥,但病人 80% 的時候還是照吃不誤,吃完還覺得自己好多了。
研究者還測試了時間壓力的影響。
設定30秒倒計時後,參與者糾正錯誤AI的傾向下降了12個百分點,也就是說,越忙越容易投降。
但現實中,誰用 AI 不是因為忙?
Trust, but verify
這行得通嗎?
深度偽裝的 AI 幻覺,比一眼識破的錯誤更令人頭疼。
根據《華爾街日報》最新報導,微妙錯誤的頻率在不同模型之間差異極大,而且極難準確評估。

谷歌曾對《華爾街日報》表示,Gemini 出現幻覺的情況比其他模型更少,而從整個 AI 行業上來看,先進模型明顯錯誤的幻覺率也的確在不斷降低。

Vectara 幻覺率排名:頂尖模型在簡單摘要任務上的幻覺率已低於 1%,但這只是最容易的測試。當文件長度和複雜度提升後,同樣的模型幻覺率飆回 10% 以上。明顯的錯誤越來越少,隱蔽的錯誤並未消失。
但這恰恰也是問題所在。
Okahu 創辦人兼執行長 Pratik Verma 甚至說過這樣一句話:
如果一樣東西一直出錯,反而有個好處:你知道它不值得信。但如果它大多數時候都對,只是偶爾出錯,那才是最麻煩、也最危險的情況。
This sentence reveals the core dilemma of current AI hallucinations.
例如,FinalLayer 联合創始人 Vidya Narayanan 就踩了這個坑。
她給一個智能體非常有限的指示,讓它協助管理一個軟體專案。結果這個智能體未經許可,將她程式碼倉庫中的整個資料夾刪除了。
更有意思的是後面的事。
她用 Claude 頭腦風暴了半個小時,然後讓它把對話總結成文件,還把她的名字改成了「Vidya Plainfield」。
而且當她追問「Vidya Plainfield」是誰時,Claude 卻答道「你說得對,那完全是我編出來的」。
這讓 Narayanan 意識到,AI 的使用並沒有那麼省事和好用,因為必須不斷審查和核實 AI 輸出,這會帶來「認知負擔」。
你用 AI 是為了提高效率,但如果還要為此花一個小時核實 AI 五分鐘的產出,這個提效的故事還講得通嗎?
沃頓的研究也指出,獎勵和即時反饋確實能提高糾錯率,但無法根除認知投降。
即使在最佳條件下(有金錢激勵、有逐題反饋),AI用戶在面對錯誤AI時的準確率仍從 Brain-Only 的 64.2% 下降到 45.5%。
所以,「信任但核實」聽起來很理性,但當 AI 每天為你處理幾百件事時,你根本沒有時間和精力去核實每一件。
而這正是「認知投降」發生的溫床。
越聰明,越危險
很多人第一反應是:這不就是在說 AI 還不夠好嗎?等技術迭代幾輪,幻覺率降到足夠低,問題自然解決。
但沃頓的研究揭示了一個更深層的問題:「認知投降」的出現,不是因為 AI 太差,恰恰是因為 AI 太好。
研究者也承認,「認知投降並不一定是不理性的」。
尤其是在概率推理和海量數據處理中,把判斷權交給一個統計上更優越的系統,完全有可能給出比人類更好的結果。
But it is precisely this point that makes the problem unsolvable.
AI 越強,用戶越依賴;用戶越依賴,糾錯能力越退化;糾錯能力越退化,那些剩下的、更精細的錯誤就越致命。
而且讓AI替你思考,你的推理水平就永遠也不可能超過那個AI。這是一個正反饋所帶來的「死亡螺旋」,一個無法靠技術迭代解決的bug。
同樣,人類也沒有很好的方法去區分「該信AI的場景」和「不該信AI的場景」。

在 Summer Yue 安裝 OpenClaw 後郵箱被清空後,AI 研究員 Gary Marcus 曾將這種做法比做「像在酒吧裡把電腦密碼和銀行帳戶資訊交給一個陌生人。」
但在真實的AI使用場景裡,你往往很難判斷,AI到底值得信任,還是只應該像對一個陌生人那樣保持必要的距離。
OpenAI 在一篇探討模型幻覺的論文中提到,大模型的幻覺並不只是一個可以修復的 bug,更像是模型在既有激勵機制下學會的行為:比起承認「不知道」,它更傾向於給出一個看似完整的答案。

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
再回到開頭 Olson 的故事。
當他以為自己的 Gmail 被盜時,他求助於 Gemini。Gemini 的回應是:「我當然想幫你處理這件事。」
他沒有意識到的是,自己正在向一個剛剛製造了麻煩的系統求助,請它處理由它自己造成的问题。
在那一刻,他已被 AI 的幻覺困在一個自洽的閉環裡。
Olson 表示,他現在對 AI 的態度是「信任,但核實」。
困難在於:當 AI 的輸出比你的判斷看起來更流暢、更自洽,甚至更像「專業意見」時,你還能用什麼去核實?
當那個替你買朗姆酒的 Priscilla,比你的真实朋友更像你的朋友,你又該憑什麼分辨?
AI 最大的風險,不是它不夠聰明,而是它聰明到當你過於依賴它時,放棄了自己的判斷。
參考資料:
https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
本文來自微信公眾號「新智元」,作者:新智元,編輯:元宇
