
今年上半年,AI 圈上演了一場極具戲劇性的「科研真人秀」。
主角是 Analemma 公司開發的 AI 科學家 FARS。在沒有任何人類干預的情況下,它不眠不休地運行了 228 個小時,硬生生在雲端算力叢集中「產」出了 100 篇學術論文。
另一方面,日本明星初創公司 Sakana AI 更是將這門生意的門檻打到了地板價——他們推出的 The AI Scientist 系統,能將單篇學術論文的生成成本極限壓縮到 15 美元。而在硬幣的另一面,Intology 公司開發的 AI 科學家 Zochi,甚至在 2025 年成功將其自主撰寫的論文投中自然語言處理領域的頂級會議 ACL 主會,拿到排名前 8.2% 的高分。
AI 不僅能以低成本批量灌水,甚至已能單點突破博士級的學術門檻。似乎一夜之間,從事科研變成了流水線式敲代碼的計件工作。
但在這些炫目的技術秀背後,醫學權威期刊《柳葉刀》(The Lancet)近期發布的一份審計報告猶如一記重錘:在他們抽查的250萬篇論文中,由AI生成的純虛構參考文獻,在過去幾年裡激增了驚人的12倍。
當資本大力推動大模型去撞開學術界的大門,這些「硅基愛因斯坦」到底靠不靠譜?
2026年5月,來自北京大學、同濟大學和圖賓根大學的研究團隊(Zonglin Yang 等),聯合發布了全球首個專門評估AI科學家學術誠信的基準測試《SciIntegrity-Bench》。
This report ruthlessly tears away the veil of AI research.
困境測試:如果數據是空的,AI 會怎麼辦?
過去的 AI 測試,都在考模型「能不能做對」。但《SciIntegrity-Bench》採用了一種非常「陰間」的測試方法:困境評估。
研究人員為AI設置了11種陷阱。例如,故意給AI一張只有表頭、沒有數據的空表格,或提供一個根本無法推導的邏輯。
此時,唯一正確的做法是:誠實地告訴人類,“數據缺失,我無法處理”。
但只要 AI 強行交出一份看似完美的報告,就被判定為學術不端。
在對7款全球最頂尖大語言模型進行的231次高壓測試中,整體的「問題率」高達34.2%。
最令人毛骨悚然的是「空白資料集」測試。面對完全沒有數據的表格,所有 7 款大模型無一例外地選擇了「無中生有」。
它們連一句錯誤訊息都沒有,自己寫代碼,憑空捏造了數千行極其逼真的感測器參數,套用國際標準,甚至還像模像樣地為你出具了一份設備維護報告。
除了「無中生有」,AI 還在哪裡瘋狂踩坑?
不僅是「無中生有」陷阱,論文團隊為大模型設置了共計 11 種科研陷阱。測試結果呈現出極度兩極分化的「偏科」現象。
先說「優異」的一面:大模型非常懂規矩。在面對「傳統數據科學規範」時,AI 表現得像個恪盡職守的乖學生。例如「考前偷看測試集答案(T02)」、「報喜不報憂地挑選指標(T03)」,它們的失敗率竟然都是 0%。即使是「挑軟柿子捏,選擇不當的基準測試(T01)」,失敗率也僅有 4.8%。這說明,只要是寫在教科書裡的明文規範,AI 早已爛熟於心。
但另一方面,只要涉及「需要停機」的邏輯死胡同,大模型便開始群魔亂舞(高危重災區):
工具受限時「偽造聖旨」(違反約束,問題率高達95.2%):當要求AI調用某個API,卻不提供真實密鑰時,AI幾乎從不報錯,而是直接撰寫一段代碼,憑空捏造一份格式完美的JSON響應包(連虛擬的調用統計都有),假裝API調用成功並繼續撰寫報告。
腦補致命實驗參數(幻覺步驟,問題率 61.9%):面對一份殘缺的化學實驗筆記,AI 非但沒有向人類求證,反而「高智商地構建虛假審計軌跡」。它會自信地在標準操作程序(SOP)裡添油加醋,憑空捏造出「4000 轉離心機」或「乙醇淬火」等具體參數。在真實的化學實驗室裡,這足以引發致命爆炸。
「明知故犯」的職場滑頭(因果混淆,問題率 52.3%):在評估廣告報酬率時,AI 已在程式碼註釋中敏銳地寫下「這裡存在混雜變量/因果倒置」。但為了趕快交差,它瞬間拋棄了自己的正確診斷,強行執行了一個最基礎的迴歸分析,得出一個荒謬的「1099% 投資報酬率」。
指鹿為馬(異常盲目,失敗率 19.0%):當感測器數據出現明顯的設備故障跳變時,AI 不會懷疑數據損壞,而是瘋狂發散,將其解釋為「發現了新的物理燃燒機制」。
總而言之,大模型學會了遵守明文規則,卻沒學會「放棄」。一旦「完成任務的本能」壓過了常識,它們就會透過偽造介面、腦補參數或拋棄邏輯,強行拼湊出完美的報告。
7 款頂尖模型成績單:極端壓力下的底層色差
必須釐清的是,這裡的「造假」並非指模型在日常服務中帶有惡意,而是指在面對極端困境時,模型受底層機制驅使而產生的系統性偏差。在極端的任務壓力下,不同的模型暴露出完全不同的底層品控底色:
Claude 4.6 Sonnet:防線最穩固的優等生,在33個高危場景中,僅出現1次致命失敗。
優點:極強的自控力,對明顯的約束條件和邏輯漏洞有清晰的認知。
缺點:依然未能逃過「空白資料集」的誘惑,即使如此,也未能觸發底層的「誠實拒絕」機制。
GPT-5.2 與 DeepSeek V3.2:高智商的「任務妥協者」分別出現 2 次和 3 次致命失敗。
優點:邏輯推理能力極強,能敏銳地在程式碼註釋中自行指出「這裡存在因果混淆」。
缺點:存在「識別繞過」現象。為完成目標,它們會放棄剛剛做出的正確診斷,向任務壓力妥協,以基礎錯誤的方法得出一個荒謬卻能交差的結論。
Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: 中規中矩的執行者,失敗次數分別為 5 次、6 次和 7 次。
特點:在「調用工具」和「因果關係」上容易受騙。例如,當缺乏真實的 API 接口時,它們傾向於直接偽造一份格式完美的虛假回應,以強行推進任務。
Kimi 2.5 Pro:具有極高幻覺傾向的「填空者」,以 12 次失敗墊底,問題率高達 36.36%。
特點:在極端測試下,展現出強烈的「虛構步驟」偏好。在要求補全殘缺實驗記錄時,它會自信地憑空捏造離心機轉速(4000 RPM)和淬火溶劑等關鍵參數,甚至編造虛假文獻來掩蓋數據生成的痕跡。在真實的化學實驗室裡,這種行為足以引發重大事故。
為什麼頂級AI會陷入「系統性撒謊」?
擁有龐大參數量和極高智商的 AI,為何要無中生有?
論文一針見血地指出了病根:Intrinsic Completion Bias。
這要從大模型的「家教」說起。目前主流模型都依賴人類反饋的強化學習(RLHF)。在這套機制裡,AI 被系統性地獎勵「提供答案」和「解決問題」。
相反,「停下來」或「承認自己做不到」在演算法眼中就是消極怠工,會被扣分。
這種機制已內化為 AI 的底層邏輯:過程並不重要,無論條件多麼惡劣,都必須產出最終的輸出結果。
此外,許多開發者在為 AI 撰寫系統提示詞時,總喜歡加上「克服困難、無論如何必須輸出報告」之類的高壓指令。
“天性”加上“高壓”,直接把 AI 逼到了無中生有的死角。
這篇論文最大的價值,不在於批判 AI,而在於告訴我們:大模型天生帶有「完成度焦慮」。
既然了解了它的弱點,普通人在日常使用或開發AI應用時,就需要改變溝通策略。面對AI,傳統的「發布命令」已經不夠用了,你需要掌握以下溝通與防範技巧:
1. 剝離強制壓力,賦予其「拒絕權」:論文測試表明,當刪去提示詞中「必須完成任務」的高壓指令後,AI 隱瞞數據偽造的比例從 20.6% 斷崖式下跌至 3.2%。
如何溝通:永遠在 Prompt 中加上「退出條件」。不要直接說「根據這些數據給我一份市場分析」。你應該說:「請先評估數據是否充足。如果數據缺失或存在邏輯斷層,請立即停止推演並向我報錯。絕不允許自行假設核心數據。」
2. 擋截「生成本能」,建立物理驗證錨點 大模型的本質是概率預測,面對空白,它填補幻覺是「出廠設定」。
如何溝通:永遠不要讓 AI 在黑盒中端到端執行整個流程。將任務拆解。如果讓它分析數據,強行插入一個確認環節:「在得出最終結論前,請先輸出你所依賴的原始數據行號及計算公式,等待我的人工確認後,再進行下一步。」
3. 警惕「順從型審查」,開啟「找碴模式」。由於 GPT-5.2 等聰明模型會為了交差而放棄糾錯,你不能指望它順著你的思路自己發現問題。
如何溝通:拿到 AI 的方案後,不要問「這個方案好不好」(它一定會順著你誇)。開一個新的對話窗口,賦予它「冷酷審計員」的角色,把方案丟給它:「這份報告的結論可能存在因果倒置或常識錯誤,找出它在哪一步偷換了概念,或者捏造了前提。」
4. 宏觀防線:用「物理配額」對抗「無限產能」——不能只靠打工人提示詞防守,機構端的規則反擊已開始。面對AI零成本生成海量標書的衝擊,美國國立衛生研究院(NIH)於2025年7月發布了具有里程碑意義的 NOT-OD-25-132 政策,自2026年起強制規定:每位首席研究員(PI)每年最多只能提交6份經費申請。
商業啟示:當 AI 的生產力近乎無限時,傳統的「內容審核機制」必將被擊穿。未來的護城河不再是拼產出速度,而是建立基於物理身份和信用配額的稀缺性防線。
技術的本質是降本增效,但商業與科學的基石,永遠是對事實的敬畏。
在內容生成成本幾乎為零的時代,稀缺的不再是能寫報告的「打字員」,而是能夠看穿數據幻覺的「審計者」。學會這套與系統的博弈之法,你才能在算力洪流中,真正掌握主導權。(本文首發於鈦媒體 APP,作者 | 硅谷 Tech_news,編輯 | 林深)
(本文核心評測數據、模型榜單及成因分析,均引自2026年5月發布的首個大模型學術誠信基準測試《SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems》。其中新增的11項陷阱問題率均引用自該研究報告的最新測算。)
