ティムニット・ゲブリの2020年の論文は、現在実現した主要なAIリスクを予測していた

2020年に戻ったとすれば、ほとんどのAI業界関係者はGPT-3がどれほど強力なのかを議論していた。

その頃、生成AIは世界的な注目を集めておらず、ChatGPTはまだ2年後に登場する予定で、大規模モデルは現在のような世界的な投資ブームを引き起こす前だった。しかし、その年、あるグーグルのトップAI研究者が、未発表の論文をめぐって会社と激しい対立を起こし、最終的に職を失った。

当時、多くの人は、これがシリコンバレーによる職場管理、学術発表、企業文化に関するまた一つの論争に過ぎないと考えていたが、今になって振り返ると、その論文に記された警告のほとんどが現実世界で実現していたことが明らかになった。

解雇された研究員は、AI倫理研究分野で最も影響力のある人物の一人であるティムニット・ゲブリである。

AI倫理

AI業界を震撼させた「解雇イベント」

2020年12月、ティムニット・ゲブリはソーシャルメディアで、自分自身がグーグルから解雇されたことを発表した。

このニュースはAI研究界に即座に衝撃を広めた。当時のゲブリは普通の研究者ではなく、グーグルの倫理AIチームの共同リーダーであり、AIの公平性とアルゴリズムのバイアス研究分野で世界的に知られた学者の一人だった。

エチオピア出身のゲブリは、AIにおける人種的偏見、性別差別、社会的公平性の問題に長年注目してきた。グーグルに加わる前、彼女はスタンフォード大学で研究に従事していた。2018年、彼女が共同で発表したアルゴリズムの偏見に関する研究は、AIの公平性研究における重要な転機と広く認識された。同年、グーグルは彼女を招聘し、「責任あるAI（Responsible AI）」への同社の重視を大々的にアピールした。

しかし、たった2年後、両者は決裂した。

当時、グーグルはゲブリが自発的に辞任したと発表したが、ゲブリ自身はまったく異なる説明をした。彼女は、休暇中に会社からのメールを受け取り、即日退職が通知され、すべての内部システムへのアクセス権限とメールアカウントのアクセス権が同時に停止されたと述べた。

彼女にとって、これは疑いようのない解雇だった。

その後、4000人以上のグーグル従業員および業界関係者が公開書簡に署名し、同社の対応を疑問視し、ゲブリの復職を要求した。そのきっかけとなったのは、たった14ページの学術論文だった。

14ページの論文が議論を呼ぶ

この論文のタイトルは『On the Dangers of Stochastic Parrots』（『確率的オウムの危険』）で、著者はTimnit Gebru、ワシントン大学の言語学教授であるEmily Bender、および他の2人の研究者であり、現在までに14,000回以上引用されている。

その後、「ランダムなオウム」という名称も広く知られるようになった。（論文のリンク：https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf）

論文では、大規模言語モデルは本質的に統計的規則に基づいて言語パターンを再現していると指摘されている。これらのモデルは、滑らかで自然、さらには論理的なテキストを生成できるが、言語の意味を真正に理解しているわけではない。まるで人間の話し方を模倣するように学んだオウムのように、見かけは賢そうに見えるが、その模倣は膨大なインターネットテキストに基づいているにすぎない。そしてインターネット自体は偏見、差別、憎悪コンテンツで満ちあふれている。したがって、大規模モデルはこれらの問題をそのまま学習し、生成されるコンテンツにおいてそれをさらに拡大する可能性が高い。

それは2020年で、当時GPT-3は剛剛リリースされ、ChatGPTはまだ存在せず、大規模モデルのブームもまだ到来していなかったにもかかわらず、この論文はすでに今日の業界が最も頭を悩ませている問題の一つを予見していたのです。

この論文がトップレベルのAI倫理会議に提出された後、グーグルの経営陣は論文を撤回するか、グーグルの研究者の名前を削除するよう要求した。しかし、ゲブリはこれを拒否し、会社に具体的な理由を説明するよう求め、両者間でさらなる議論を進めることを希望した。

同時に、彼女はグーグルの社内スタッフグループにも強烈なメールを送った。

メールで、ゲブルーは、グーグルが少数派の採用推進や内部の不平等問題への対応において実質的な行動を取っていないと批判した。彼女は「弱者に声を上げ始めると、状況は悪化する。他の経営陣を不快にさせるからだ」と書いた。また、会社が論文を撤回した理由を常に説明できない場合、適切なタイミングで退職すると述べた。

状況は彼女の予想をはるかに超えた。ゲブリは、グーグルが彼女が要求したことを受け入れず、彼女の「辞任」を直接受理し、即座にすべてのアクセス権を削除したと述べた。

当時、この出来事は急速に、グローバルなAI分野で最も議論を呼ぶ話題の一つとなった。

当時見られていた過激な見解は、今や現実となっている

この出来事が今日まで議論の対象となっているのは、解雇そのものではなく、その論文に記された内容である。なぜなら、今日振り返ってみると、そこに提起されたほぼすべての懸念が、AI業界が直面している現実の問題となっているからである。

（1）第一の警告：モデルは「嘘をつく」可能性があります

2020年、GPT-3がリリースされたとき、人々はモデルがテキストを生成する能力に驚嘆したが、その信頼性について真剣に議論した人はほとんどいなかった。

ゲーとベンダーは、モデルの規模が拡大するにつれて、流暢な表現を真の理解と誤認する傾向が強まると指摘した。モデルは思考しているように見えるが、実際には次に最も可能性の高い単語を予測しているだけであり、したがって、いずれは妥当に見えるが完全に誤った情報を生成するようになる。

そして今日、この問題は誰もが熟知する名前、「AIの幻覚（Hallucination）」として知られるようになりました。ChatGPT、Gemini、Claude 以及其他先進モデルにおいて、幻覚問題はいまだに完全には解決されていません。

ある意味で、この論文は「幻覚」が業界の注目語になる前から、それを正確に予見していた。

（2）第二の警告：偏見は消えず、拡大されるだけである

論文はまた、インターネット自体が中立的なデータソースではないこと、トレーニングデータにはもともと種族、性別、文化、地域的な偏見が含まれていることを指摘している。モデルはこれらの偏見を学習するだけでなく、最適化メカニズムによってそれらをさらに強化する可能性がある。

その後、さまざまな現実の問題がこの懸念を裏付けました：

アマゾンはAIを用いて求職者の履歴書をスクリーニングしようとしたが、システムは「women（女性）」などのキーワードを含む履歴書の評価を自動的に下げていた。

米国の複数の大型病院で使用されている医療リスク評価システムは、黒人患者の医療ニーズを長年にわたり過小評価していたことが判明した。

アップルカードは、女性に与えられる信用限度額が男性よりもはるかに低かったことにより、規制当局の注目を集めました。

これらの事例は、アルゴリズムが自動的に公平を実現していないことを示しており、逆に現実世界の不平等をより隠蔽された形で固定化する可能性があることを示している。

（3）第三の警告：AIのエネルギー消費が新たな問題に

2020年には、計算能力のコストは今日ほど注目されていなかったが、その論文は超大規模モデルの訓練が環境に与える影響について既に議論を開始していた。研究者たちの推定によると、大規模言語モデルを訓練することによって発生する炭素排出量は、自動車5台のライフサイクル全体にわたる排出量の合計に相当する——当時、この主張は多くの人にとって過度に悲観的だと見なされていた。

しかし、AI基盤インフラが軍備競争の段階に入ると、問題が急速に浮上した。グーグルが公表したデータによると、2024年の同社の温室効果ガス排出量は2019年と比較して48%増加した。マイクロソフトも同期間で約29%増加した。両社はいずれも、AIデータセンターおよび計算インフラが重要な要因であると明言している。

皮肉なことに、これらのテクノロジー大手は数年前まで炭素中和目標を大々的に宣伝していた。

（4）第4の警告：誰もトレーニングデータに何が含まれているか本当のところ知らない

多くの人々にとって、トレーニングデータは単なるエンジニアリングの問題に見える。しかし、Gebruは、データ規模が大きくなるにつれて、トレーニングデータの完全な監査がほぼ不可能になると信じている。

彼女の見解は再び当たった：2023年、研究者たちは、LAION-5Bという画像生成モデルの訓練に広く使用されているデータセットに、Stable Diffusionを含む複数の主要モデルが使用していた大量の児童虐待画像が存在することを発見した。

予想されていたことだが、多くの開発者はこれまでこれらの内容の存在を知らなかった。つまり、モデルの開発者自身でさえ、モデルが「どのように入力されたか」を真正に理解しているとは限らない——これは論文が最初に提起した問題の一つである。

（5）第5の警告：インターネットは徐々にAIコンテンツで占められるようになる

グーグルにとって、これは論文全体で最もセンシティブな部分かもしれない。ゲブリとベンダーは、大規模モデルの発展が、言語と文化の発言権を極めて少数のテクノロジー大手に集中させると考えている。その理由は単純だ：超大規模モデルのトレーニングには膨大な資金、計算リソース、データが必要であり、実際に競争に参加できる企業はごくわずかだからである。

やがて、インターネット上の主流の声は、少数の企業が訓練した統計的平均値となり、それらが「中立的なアシスタント」として世界中に配信されるようになる。一方で、トレーニングデータにおける割合が低い言語や文化は、さらに周縁化されていくだろう。

さらに深刻なのは、AIが生成したコンテンツが再びインターネットに流出し、次のトレーニングデータとなることで、問題が自己強化し続けることです。これが現在の研究者たちが「モデル崩壊（Model Collapse）」と呼ぶ現象です。

2024年の研究では、英語のインターネットに追加されるコンテンツの約57%がAI生成またはAI支援生成であることが判明した。また、低リソース言語に関する研究では、訓練データがAI生成コンテンツから増加しているため、一部の言語の翻訳品質が顕著に低下していることが示された。

言い換えれば、この論文は「モデル崩壊」現象を予測しただけでなく、この概念が正式に登場する前からその形成メカニズムを指摘していた。

グーグルを退職後、彼女は研究を継続することを選んだ

当時の出来事後、多くの人がゲブリを「反AI活動家」と表現したが、実際にはそうではない。彼女はAIの開発を停止すべきだと主張したことは一度もない。彼女が一貫して疑問を呈してきたのは、別の事柄だった。

AIの開発方向を決定しているのは一体誰なのか？

彼女によると、大規模モデルの開発を推進する研究者や経営陣は、似たような背景を持ち、似たような商業目標を達成し、同じ競争圧力に駆られている。このようなインセンティブ構造下では、安全、公平、倫理的な問題よりも、製品の迅速なリリース、ユーザー規模の迅速な拡大、市場競争での迅速な勝利が優先されることが多い。

このプロセスを遅らせようとするすべての者は、妨害者と見なされる可能性がある。皮肉なことに、GebruはGoogle内部でこの見解を提唱したが、Googleが彼女を解雇したことにより、この見解は最も劇的な現実の注釈を得ることとなった。

さらに悲劇的なのは、この出来事の直後に、もう一人の倫理AIチーム共同リーダーであるマーガレット・ミッチェルも解雇されたことだ。たった90日で、グーグルが誇っていた倫理AIチームはほぼ解体されてしまった。

グーグルを退職後、2021年にゲブリは分散型AI研究所（DAIR）を設立した。大手テクノロジー企業とは異なり、この機関は商業的利益を超えてAI研究を推進し、その目標は明確だ：テクノロジー大手が直面したくない問題を研究すること。過去数年間、DAIRはデータの出所、アルゴリズムの公平性、言語の多様性、およびAI産業における権力の集中といった課題に注力してきた。

AI倫理

一方で、生成AIの爆発的な発展に伴い、ますます多くの研究者が『ランダムなオウムの危険』という論文に再び注目し始めている。なぜなら、当時過剰な懸念と見なされていた問題が、今や業界で毎日議論される現実となっているからである。

おそらく、彼女は他の人よりも早くその問題に気づいただけだったのだ

六年が経過したが、Timnit Gebruとグーグルの間の是非について、外界が全員が同意する答えを得ることはおそらく不可能だろう。

グーグルは、これは通常の学術的レビューと退職の出来事だと考えている；ゲブリは、自身が研究成果の発表を堅持したために圧力を受けてきたと主張している。しかし、一つの事実はますます否定できなくなってきている：

彼女がグーグルを去る原因となったその論文は、論争が終結してもその意味を失っていない。

逆に、それらが議論する幻覚、バイアス、データ汚染、環境コスト、モデルの崩壊、権力の集中といった問題は、現在、AI業界全体が避けられない話題となっている。

時として、歴史は予想外の方法で評価を下す。

2020年、多くの人がティムニット・ゲブリュはあまりに悲観的だと感じた；

2026年、人々は彼女が他の人よりも早く問題に気づいていた可能性があることに気づき始めた。

参照リンク：https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

本文は微信公众号「CSDN」より。整理：鄭麗媛