Anda telah melatih AI Google selama 15 tahun. Anda tidak tahu apa-apa.
Penulis asal: Sharbel, rakan pengasas Unfungible
Lila, BlockBeats
Editor's Note: CAPTCHA, the numbers or patterns you click every time you log into a website, is something every internet user is familiar with. But each time you click "I'm not a robot," you think you're simply verifying your identity—when in fact, you're participating in the world's largest and most secretive data production. Luis von Ahn's reCAPTCHA has aggregated fragmented human actions into the foundational data supporting Google's core businesses, including its autonomous driving company Waymo.
Di bawah permukaan "percuma" dan "selamat", internet secara halus membentuk semula hubungan buruh yang baru: anda menghabiskan masa membuktikan bahawa anda adalah manusia, tetapi memberi sumbangan kepada latihan AI, dan sekali AI belajar, buruh ini digantikan sepenuhnya. Artikel ini diposting kurang dari 20 jam, tetapi telah memperoleh lebih daripada 9.5 juta tontonan di Twitter. Berikut adalah kandungan asal:
Sekitar 500,000 jam kerja manusia setiap hari dimanfaatkan secara percuma oleh Google. Dan orang-orang yang menyumbang ini hanya ingin log masuk ke perbankan dalam talian.
reCAPTCHA adalah operasi data terselubung paling berjaya dalam sejarah internet. Pada puncaknya, 200 juta orang menyelesaikan pengesahan setiap hari. Tetapi hampir tidak ada yang sedar apa yang dimaksudkan di sebalik setiap klik.
Syarikat kereta auto-pilot Google, Waymo, kini mempunyai nilai pasaran sebanyak US$45 bilion. Sebahagian besar data latihan intinya ialah data yang anda berikan secara percuma semasa mengakses pelbagai laman web.
Berikut adalah cerita lengkap:
Asal-usul: Satu idea yang bijak
Pada tahun 2000, robot spam sedang menghancurkan internet. Forum dipenuhi dengan postingan sampah, kotak masuk dipenuhi, dan laman web memerlukan cara untuk membezakan manusia dengan mesin.
Profesor Luis von Ahn dari Universiti Carnegie Mellon menyelesaikan masalah ini. Beliau mencipta CAPTCHA: teks terdistorsi yang hanya boleh dibaca oleh manusia, tidak boleh dilalui oleh robot.
Tetapi von Ahn melihat lebih daripada itu. Jutaan orang menghabiskan tenaga mereka dalam cabaran-cabaran ini. Bagaimana jika tenaga ini boleh digunakan untuk melakukan dua perkara pada masa yang sama?
Pada tahun 2007, beliau melancarkan reCAPTCHA. Kecemerlangannya terletak pada fakta bahawa ia tidak lagi menunjukkan kod rawak, tetapi dua perkataan: satu yang diketahui sistem, dan satu lagi ialah perkataan sebenar dari buku yang dipindai yang belum dapat dikenal pasti oleh komputer. Jawapan anda membantu proses digitalisasi buku-buku tersebut.
Buku-buku ini berasal dari arsip The New York Times dan Google Books, sehingga mencapai 130 juta judul.
Anda menyangka anda hanya log masuk ke laman web biasa, tetapi sebenarnya anda sedang melakukan OCR (pengenalan karakter optik) untuk perpustakaan digital terbesar di dunia.
Pada tahun 2009, Google mengambil alih reCAPTCHA.

Kemudian, Google mengubah permainan
Zaman "teks terdistorsi" berakhir sekitar tahun 2012.
Google menghadapi cabaran baru: kereta Street View telah mengambil gambar setiap jalan di seluruh dunia, tetapi gambar-gambar tersebut hanyalah data mentah. Agar AI berfungsi, ia perlu memahami apa yang dilihatnya: rambu jalan, zebra crossing, lampu isyarat, dan fasad kedai.
Jadi, Google telah mendesain semula reCAPTCHA v2. Alih-alih teks yang terdistorsi, kini terdapat grid gambar. "Klik semua petak yang mengandungi lampu isyarat." "Pilih setiap jalan penyeberangan pejalan kaki." "Kenal pasti kedai."
Gambar-gambar ini secara langsung berasal dari Google Street View. Klik anda adalah label.
Setiap pilihan memberitahu model penglihatan komputer Google: sekumpulan piksel ini adalah lampu isyarat, bentuk itu adalah zebra crossing. Anda bukan sedang melalui ujian, anda sedang membina set data.

Skala yang melampaui bayangan
Pada masa puncaknya, 200 juta reCAPTCHA dibuka setiap hari. Setiap cabaran mengambil masa 10 saat, bermakna menghasilkan 2 miliar saat tenaga manusia setiap hari. Iaitu: 500,000 jam setiap hari.
Kos penghuraian data berbayar adalah sekitar $10 hingga $50 setiap jam. Berdasarkan kadar terendah: nilai tenaga kerja yang diekstrak secara percuma setiap hari mencapai $5 juta.
Dan reCAPTCHA tidak hanya wujud di satu aplikasi sahaja. Ia tersebar di setiap bank, setiap portal kerajaan, setiap laman web e-dagang. Anda tiada pilihan lain: ingin log masuk ke akaun? Sila label set data terlebih dahulu. Google tidak pernah bertanya pendapat anda, tidak membayar gaji sepeser pun, dan bahkan tidak pernah memberitahu anda tentang perkara ini.

What has all of this created?
Data ini secara langsung diberikan kepada dua produk:
- Google Maps: Alat navigasi paling sering digunakan di seluruh dunia. Kemampuannya untuk mengenal rambu jalan, kedai, dan geografi bandar sebagian besar berkat penandaan oleh miliaran pengguna semasa log masuk ke laman web.
-Waymo: Projek kereta tanpa pemandu Google. Untuk navigasi yang selamat, kereta tanpa pemandu perlu mengenal pasti ribuan corak visual dengan hampir sempurna.
Data latihan kebenaran untuk tugas pengenalan tersebut diberi label secara tidak sengaja oleh jutaan orang melalui reCAPTCHA. Waymo menyelesaikan lebih daripada 4 juta perjalanan berbayar pada tahun 2024, dengan nilai pasaran sebanyak $45 bilion. Fondasinya dibina oleh 'warganet tanpa bayaran' yang hanya ingin memeriksa emel mereka.
Mengapa tiada siapa yang boleh meniru model ini?
Pemarkahan data sangat mahal. Keberadaan syarikat seperti Scale AI, Appen, dan Labelbox adalah untuk menyelesaikan masalah ini, dengan mempekerjakan ratusan ribu pekerja, kadang-kadang dengan upah kurang daripada $1 sejam.
Solusi Google adalah berbeza: mereka menjadikan penandaan sebagai perkara yang wajib. Tanpa bayaran, tanpa kebenaran, ia menjadi "tiket" untuk memasuki setiap sudut internet. Hasilnya: berbilion gambar yang ditandai, cakupan global, cuaca 24 jam, setiap bandar di dunia. Tiada syarikat penandaan mana pun yang mampu mencapai ini. Internet itu sendiri adalah kilang, dan setiap pengguna internet adalah pekerja tanpa kontrak.

Anda masih terlibat hingga kini
reCAPTCHA v3 yang dilancarkan pada 2018 bahkan tidak lagi menunjukkan cabaran. Ia memantau cara anda bergerakkan tetikus, kelajuan gulir, dan masa anda berhenti. Cap tindakan anda akan memberitahu ia sama ada anda manusia atau bukan. Data tingkah laku ini juga dipulangkan ke sistem AI Google.
Anda tidak pernah secara aktif memilih untuk menyertai, tidak pernah ada kotak semak yang disediakan untuk anda tandakan. Tetapi sekarang, di kebanyakan laman web yang anda lawati, anda masih melakukannya.
Ironi yang mengganggu
Niat asal Luis von Ahn adalah cemerlang: mengubah tenaga yang sebenarnya dibuang manusia menjadi hasil yang berguna. Tetapi tindakan Google yang memanfaatkan visi ini adalah perkara lain. Mereka memanfaatkan mekanisme keselamatan yang pengguna terpaksa gunakan, menerapkannya di seluruh web, dan mengumpul hasilnya untuk membina produk perniagaan bernilai ratusan bilion dolar. Pengguna tidak mendapat apa-apa, bahkan tidak sedar apa yang berlaku.
Ironi paling mendalam ialah: anda menghabiskan bertahun-tahun membuktikan bahawa anda adalah manusia dengan menyelesaikan tugas pengenalan visual yang pada masa itu masih tidak boleh dilakukan oleh AI. Namun, sekali AI belajar melakukan ini, penandaan visual oleh manusia tidak lagi diperlukan.
Anda membuktikan bahawa anda adalah manusia, tetapi justru menjadikan diri anda boleh digantikan.
Klik untuk mengetahui jawatan yang sedang dilamar oleh BlockBeats
Selamat datang ke komuniti rasmi律动 BlockBeats:
Kumpulan langgan Telegram: https://t.me/theblockbeats
Grup percakapan Telegram:https://t.me/BlockBeats_App
Akaun rasmi Twitter: https://twitter.com/BlockBeatsAsia
