あなたは15年間、GoogleのAIを訓練してきました。あなたは気づいていませんでした。
原文作者:Sharbel、Unfungible共同創設者
原文編集:Lila、BlockBeats
編集者コメント:CAPTCHA(キャプチャ)とは、ウェブサイトにログインするたびにクリックする数字や図形のことですが、インターネットユーザーなら誰もがよく知っています。しかし、「私はロボットではありません」をクリックするたびに、あなたは単に本人確認を行っているだけだと考えがちですが、実際には、世界最大かつ最も隠蔽されたデータ生産に参加しているのです。Luis von Ahnが開発したreCAPTCHAは、散在する人間の行動を集約し、Googleおよびその子会社である自動運転企業Waymoなどの核心事業を支えるデータの基盤を築きました。
「無料」「安全」という表象の下、インターネットは新たな労働関係を静かに再構築している。あなたは自分が人間であることを証明するために時間を費やし、AIの訓練に貢献しているが、AIが学習を完了すれば、その労働は完全に置き換えられる。本記事は公開から20時間未満で、ツイッター上で950万回以上の閲覧を記録した。以下が原文の内容である:
毎日約50万時間の人的労働が、Googleによって無償で利用されている。これらの労働を提供しているのは、単にオンラインバンキングにログインしたいだけの人々である。
reCAPTCHAは、インターネットの歴史で最も成功した隠れたデータ操作である。ピーク時には、毎日2億人が認証を完了していた。しかし、ほぼ誰も、1回のクリックの背後に何が隠されているかに気づいていない。
Googleの自動運転車会社Waymoの現在の時価総額は450億ドルです。その大部分の核心的なトレーニングデータは、あなたがさまざまなウェブサイトを訪問する際に無償で提供したものです。
以下が完全なストーリーです:
きっかけ:賢いアイデア
2000年、スパムボットがインターネットを破壊していた。フォーラムはスパムで埋め尽くされ、受信トレイは溢れかえり、ウェブサイトは人間と機械を区別する方法を切実に必要としていた。
カーネギーメロン大学のルイス・フォン・アーン教授がこの問題を解決しました。彼はCAPTCHAを発明しました。これは、人間だけが読み取れるねじれた文字で、ロボットには解読できません。
しかし、フォン・アーンが見出したのはそれだけではありません。数百万の人々がこれらのチャレンジに労力を費やしています。もしこの労力を同時に二つのことを達成するために使えるとしたらどうでしょうか?
2007年、彼はreCAPTCHAを発表しました。その優れた点は、ランダムな乱数ではなく、2つの単語を表示することです。1つはシステムが既に知っている単語、もう1つはコンピューターがまだ認識できない実際の書籍スキャン文字です。あなたの回答は、これらの書籍のデジタル化を支援しました。
これらの書籍は『ニューヨーク・タイムズ』アーカイブとGoogleブックスから来ており、合計で1億3千万冊にのぼります。
あなたはただ普通のウェブサイトにログインしているつもりですが、実際には世界最大のデジタル図書館のOCR(光学文字認識)に協力しています。
2009年、GoogleはreCAPTCHAを買収しました。

その後、グーグルはルールを変更した
「ねじれ文字」の時代は2012年頃に終わった。
Googleは新たな課題に直面しています:ストリートビュー車が世界中のすべての道路を撮影しましたが、写真は単なる原始データにすぎません。AIが機能するためには、道路標識、横断歩道、信号機、店舗の外観などを理解する必要があります。
そのため、GoogleはreCAPTCHA v2を再設計しました。歪んだ文字ではなく、写真のグリッドが表示されます。「信号機があるマスをすべてクリックしてください。」「すべての横断歩道を選択してください。」「店舗を識別してください。」
これらの画像は直接Googleストリートビューから取得されています。あなたのクリックがタグになります。
毎回の選択は、Googleのコンピュータービジョンモデルに伝えています:このピクセルの集まりは信号機であり、その形状は横断歩道であるということを。あなたはテストを受けているのではなく、データセットを構築しているのです。

想像を絶する規模
ピーク時には、毎日2億個のreCAPTCHAが解かれました。各チャレンジに10秒かかるため、毎日20億秒の人的労力が生み出されます。つまり、毎日50万時間です。
有償のデータアノテーションコストは、1時間あたり約10〜50ドルです。最低基準で計算すると、1日あたり無料で搾取される労働価値は最大500万ドルに達します。
そしてreCAPTCHAは特定のアプリにだけ存在するわけではありません。あらゆる銀行、すべての政府ポータル、あらゆるECサイトに広まっています。選択の余地はありません:アカウントにログインしたいですか?では、データセットをラベル付けしてください。グーグルは一度もあなたの意見を尋ねたことはなく、一銭も給料を支払ったことはなく、甚至このことをあなたに伝えたこともありません。

これらはすべて何を生み出したのでしょうか?
これらのデータは、直接2つの製品に提供されています:
- グーグルマップ:世界で最も広く使われているナビゲーションツール。その道路標識、店舗、都市の地理を認識する能力は、数十億回に及ぶユーザーがログイン時に行うアノテーションによって支えられています。
-Waymo:グーグルの自動運転プロジェクト。安全なナビゲーションのために、無人車は数千種類の視覚パターンをほぼ完璧に認識する必要がある。
その識別作業の正解トレーニングデータは、数百万のユーザーが無意識のうちにreCAPTCHAを通じてラベル付けしたものです。Waymoは2024年に400万回以上の有料乗車を完了し、時価総額は450億ドルに達しました。その基盤は、単にメールを確認したいだけだった「無償のインターネット利用者」たちによって築かれました。
なぜ誰もこのモデルをコピーできないのか?
データアノテーションは非常に高価です。Scale AI、Appen、Labelbox などの企業は、この問題を解決するために、時給1ドルに満たない従業者を数十万人雇っています。
Googleの解決策は独自の道を歩んだ:彼らはラベル付けを強制的にした。有料ではなく、同意を求めず、インターネットのあらゆる場所への「入場券」として扱った。その結果、数十億枚のラベル付き画像、グローバルなカバレッジ、24時間体制の天候、世界のすべての都市が得られた。どのラベル付け会社もこれを行えない。インターネット自体が工場であり、各インターネット利用者が契約しない従業員となっている。

あなたはまだ参加しています
2018年に導入されたreCAPTCHA v3は、チャレンジを表示しなくなりました。マウスの動かし方、スクロール速度、滞在時間などを観察することで、あなたの行動ファインダーが人間かどうかを判断します。これらの行動データは、GoogleのAIシステムにもフィードバックされます。
あなたは積極的に参加したことはなく、チェックボックスが一度も表示されたことはありません。しかし今、あなたが訪問しているほとんどのウェブサイトで、あなたは依然としてそれをしています。
不気味な皮肉
ルイス・フォン・アーンの当初の意図は天才的だった:人間が無駄にしているエネルギーを有用な成果に変えること。しかし、グーグルがこのビジョンを用いて行ったことは別である。彼らはユーザーが避けられないセキュリティメカニズムを利用し、それを全世界に展開して、数百億ドルの価値を持つ商業製品を構築した。ユーザーは何も得られず、甚至そのことを知らされなかった。
最も深い皮肉は、あなたが数年をかけて、AI がまだできなかった視覚認識作業を完了することで、自分自身が人間であることを証明したということだ。そして、AI がこれらの作業を習得した瞬間、人間の視覚アノテーションは必要とされなくなった。
あなたは自分が人間であることを証明したが、その結果、自分自身を置き換え可能にした。
クリックして、律動BlockBeatsが募集している職種を確認してください
律動 BlockBeats 公式コミュニティへようこそ:
Telegram サブスクリプショングループ:https://t.me/theblockbeats
Telegram コミュニティ:https://t.me/BlockBeats_App
Twitter公式アカウント:https://twitter.com/BlockBeatsAsia
