蒂姆尼特·格布鲁 2020 年論文預測的重大 AI 風險已成真

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
2020 年,Google 道德 AI 團隊的共同負責人蒂姆尼特·格布魯(Timnit Gebru)在共同撰寫一篇名為《論隨機鸚鵡的危險》的論文後,被突然解僱。該論文指出 AI 幻覺、偏見放大和環境成本等問題。如今鏈上數據顯示,這些風險已成為全行業的普遍問題。恐懼與貪婪指數的讀數反映出市場對 AI 失控增長的日漸擔憂。超過 4,000 名員工和業界人士曾簽署請願書支持她。六年後,她的警告已被證明具有遠見。

如果把時間撥回 2020 年,大多數 AI 從業者討論的還是 GPT-3 到底有多強。

當時,生成式 AI 還未成為全球焦點,ChatGPT 還要兩年後才會問世,大模型更沒有掀起如今席捲全球的投資狂潮。可就在那一年,一位谷歌頂級 AI 研究員卻因為一篇尚未發表的論文,與公司爆發激烈衝突,並最終失去了工作。

當時很多人以為,這不過是矽谷又一次關於職場管理、學術發表和企業文化的爭議;可如今再回頭看,人們才發現,那篇論文中的警告,幾乎全部在現實世界中應驗了。

而被解雇的研究員,正是 AI 倫理研究領域最具影響力的人物之一——Timnit Gebru。

AI 倫理

一場震動 AI 圈的「解僱事件」

在 2020 年 12 月,Timnit Gebru 於社交平台發文表示,自己已被 Google 解僱。

消息迅速引爆整個 AI 研究圈。因為當時的 Gebru 並非一名普通的研究員,而是谷歌倫理 AI 團隊(Ethical AI Team)聯合負責人,也是全球 AI 公平性與算法偏見研究領域的知名學者之一。

出生於衣索比亞的 Gebru 長期關注 AI 中的種族偏見、性別歧視以及社會公平問題。在加入谷歌之前,她曾於史丹福大學從事研究。2018 年,她參與發表的一篇關於演算法偏見的研究,被許多人視為 AI 公平性研究的重要轉折點。同年,谷歌將她招入麾下,並高調展示公司對「負責任 AI(Responsible AI)」的重視。

然而僅僅兩年後,雙方便走向決裂。

當時,谷歌對外表示 Gebru 是主動辭職,但 Gebru 本人則提供了完全不同的說法:她表示,自己在休假期間收到公司郵件,被告知離職立即生效,所有內部系統權限和郵箱存取權限同時被關閉。

在她看來,這是一場毫無疑問的解僱。

隨後,超過 4000 名谷歌員工和業內人士簽署公開信,對公司的處理方式提出質疑,要求讓 Gebru 復職——而這一切的導火線,是一篇僅有 14 頁的學術論文。

一篇14頁的論文引發爭議

這篇論文名為《On the Dangers of Stochastic Parrots》(《隨機鸚鵡的危險》),作者包括 Timnit Gebru、華盛頓大學語言學教授 Emily Bender,以及另外兩位研究人員,被引用次數目前已超 1.4 萬次。

後來,「隨機鸚鵡」這個名稱也廣為流傳。(論文地址:https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

論文中指出,大型語言模型本質上是基於統計規律重現語言模式:它們能夠生成流暢、自然甚至富有邏輯的文本,卻並未真正理解語言的含義——就像一隻學會模仿人類說話的鸚鵡,看似聰明,實則這種模仿僅建立在海量互聯網文本之上。而互聯網本身充滿了偏見、歧視和仇恨內容。因此,大模型極有可能將這些問題一併學習進去,並在生成內容時繼續放大。

要知道,那可是 2020 年,當時 GPT-3 剛發布、ChatGPT 尚未誕生、大模型熱潮也遠未到來,這篇論文就已經提前預言了今天整個行業最頭疼的問題之一。

該論文提交至頂級 AI 倫理會議後,谷歌管理層卻提出要求:撤回論文,或移除谷歌研究人員的署名。而 Gebru 拒絕了,她要求公司說明具體原因,並希望雙方能展開進一步討論。

同時,她還向谷歌內部員工群組發送了一封措辭激烈的郵件。

在郵件中,Gebru 批評谷歌在推動少數族裔招聘和解決內部不平等问题上缺乏實際行動。她寫道:「當你開始為弱勢群體發聲時,你的處境就會越來越糟。你會讓其他領導層感到不舒服。」她還表示:如果公司始終無法解釋為何要撤回論文,那她將在適當的時候選擇離職。

事情的發展遠超她的預料。Gebru 表示,谷歌隨後回覆稱不會滿足她提出的要求,並直接接受了她的「辭職」,立即取消了她的所有存取權限。

At that time, the incident quickly became one of the most controversial topics in the global AI community.

當年看似激進的觀點,如今已成現實

真正讓這起事件持續被討論至今的,並不是解僱本身,而是那篇論文裡的內容——因為今天回頭再看,其中提出的幾乎每一個擔憂,都已經變成 AI 行業正在面對的現實問題。

(1)第一項預警:模型會「胡說八道」

在 2020 年,GPT-3 剛剛發布。當時人們對模型生成文本的能力感到驚嘆,卻很少有人認真討論其可靠性。

Gebru 和 Bender 指出:隨著模型規模不斷擴大,人們會越來越容易將流暢的表達誤認為真正的理解。模型看起來像是在思考,實際上只是在預測下一個最可能出現的詞,因此,它們遲早會生成看似合理卻完全錯誤的資訊。

而今天,這個問題有了一個所有人都熟悉的名字:AI 幻覺(Hallucination)。無論是 ChatGPT、Gemini、Claude 還是其他先進模型,幻覺問題至今仍未被徹底解決。

In a sense, this paper accurately anticipated the phenomenon before “hallucination” became an industry buzzword.

(2)第二項預警:偏見不會消失,而會被放大

論文還指出,互聯網本身並非中立的數據來源,訓練數據天然包含各種種族、性別、文化和地域偏見。模型不僅會學習這些偏見,還可能因優化機制進一步強化它們。

後來,各種現實問題驗證了這一擔憂:

亞馬遜曾嘗試利用 AI 篩選求職簡歷,結果系統會自動降低包含 “women(女性)” 等關鍵詞簡歷的評分。

發現美國多家大型醫院使用的醫療風險評估系統長期低估黑人患者的醫療需求。

蘋果信用卡 Apple Card 也曾因女性獲得的信用額度遠低於男性而引發監管關注。

These cases illustrate that algorithms do not automatically achieve fairness; instead, they may inadvertently entrench real-world inequalities in more subtle ways.

(3)第三項預警:AI 的能源消耗將成為新問題

在 2020 年,算力成本遠沒有今天這樣受到關注,但那篇論文已開始討論訓練超大模型帶來的環境影響。據研究人員測算,訓練一個大型語言模型所產生的碳排放量,相當於五輛汽車整個生命周期的排放總和——當時,這一說法被不少人認為過於悲觀。

然而,隨著 AI 基礎設施建設進入軍備競賽階段,問題迅速顯現:根據谷歌公開披露的數據,2024 年公司溫室氣體排放量相比 2019 年增長 48%;微軟同期也增長約 29%。這兩家公司都明確表示,AI 數據中心和算力基礎設施是重要原因之一。

諷刺的是,這些科技巨頭幾年前還在高調宣傳碳中和目標。

(4)第四項警報:沒有人真正知道訓練數據裡有什麼

在很多人眼中,訓練數據似乎只是一個工程問題。但 Gebru 認為,隨著數據規模越來越大,完整審計訓練數據將變得幾乎不可能。

她的觀點再次得到驗證:2023 年,研究人員發現廣泛用於訓練圖像生成模型的數據集 LAION-5B 中,存在大量兒童虐待圖片,包括 Stable Diffusion 在內的多個主流模型都曾使用這一數據集。

不出所料,許多開發者此前並不知道這些內容的存在。也就是說,即使是模型開發者自己,也未必真正了解模型「吃進去」的是什麼——而這正是論文最早提出的问题之一。

(5)第五項預警:互聯網將逐漸被 AI 內容佔據

在谷歌看來,這可能才是整篇論文最敏感的部分。Gebru 和 Bender 認為,大模型的發展最終會把語言和文化的話語權集中到極少數科技巨頭手中。原因很簡單:訓練超大模型需要海量資金、算力和數據資源,真正有能力參與競爭的公司屈指可數。

久而久之,網際網路中的主流聲音將逐漸演變成:由少數公司訓練出的統計平均值,然後再以「中立助手」的身份向全世界傳播。與此同時,那些在訓練資料中佔比較低的語言和文化則會被進一步邊緣化。

更嚴重的是,當 AI 生成的內容再次進入互聯網,並成為下一轮訓練數據時,問題會不斷自我強化——這正是當今研究人員所稱的:「模型崩潰(Model Collapse)」。

2024 年的一項研究發現,英文互聯網新增內容中,約 57% 已經是 AI 生成或 AI 輔助生成;而針對低資源語言的研究則發現,由於訓練數據越來越多地來自 AI 生成內容,部分語言的翻譯質量已經出現明顯退化。

In other words, this paper not only predicted the “model collapse” phenomenon but also identified its underlying mechanism even before the concept was formally introduced.

離開谷歌後,她選擇繼續研究

事件發生後,很多人後來將 Gebru 描述為「反 AI 人士」,但事實並非如此,她從未主張停止發展 AI。從頭到尾,她質疑的是另一件事:

究竟是誰在決定 AI 的發展方向?

在她看來,推動大模型發展的研究人員和管理層往往擁有相似的背景,服務於相似的商業目標,並受到相同的競爭壓力驅動。在這樣的激勵機制下,更快地發布產品、更快地擴大用戶規模、更快地贏得市場競爭,往往比安全、公平和倫理問題擁有更高的優先級。

而所有試圖減緩這一進程的人,都可能被視為阻礙者。諷刺的是,Gebru 正是在 Google 內部提出這一觀點,而 Google 通過解雇她,也讓這一觀點獲得了最具戲劇性的現實註腳。

更令人唏噓的是,事件發生後不久,另一位倫理 AI 團隊聯合負責人 Margaret Mitchell 也被解僱——短短 90 天內,谷歌曾經引以為傲的倫理 AI 團隊基本被瓦解。

離開谷歌後,Gebru 於 2021 年創立了分佈式 AI 研究所(DAIR,Distributed AI Research Institute)。與大型科技公司不同,這家機構希望在商業利益之外開展 AI 研究,其目標很直接:研究那些科技巨頭未必願意面對的問題。過去幾年裡,DAIR 持續關注數據來源、算法公平性、語言多樣性以及 AI 產業權力集中等議題。

AI 倫理

而隨著生成式 AI 爆發式發展,越來越多研究者也開始重新關注那篇《隨機鸚鵡的危險》:因為他們發現,當年論文中被視為過度擔憂的問題,如今已成為行業每天都在討論的現實。

或許,她只是比其他人更早看到了問題

六年過去了,關於 Timnit Gebru 與谷歌之間的是非爭議,外界或許永遠無法獲得一個所有人都認同的答案。

谷歌認為,這是一場正常的學術審查與離職事件;Gebru 則認為,自己因堅持發表研究成果而遭到壓制。但有一點已越來越難以否認:

那篇導致她離開谷歌的論文,並沒有隨著爭議結束而失去意義。

恰恰相反,它所討論的幻覺、偏見、數據污染、環境成本、模型崩潰和權力集中等問題,如今已成為整個 AI 產業無法迴避的話題。

有時,歷史會以一種出人意料的方式給予評價。

2020 年,很多人覺得 Timnit Gebru 太悲觀了;

在 2026 年,人們開始意識到,她或許只是比其他人更早看到了問題。

參考連結:https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

本文來自微信公眾號「CSDN」,整理:鄭麗媛

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露