15 yıldır Google'in AI'sını eğitiyordunuz. Haberiniz yoktu.

Yazar: Sharbel, Unfungible ortağı

Lila, BlockBeats

Editör Notu: CAPTCHA, her web sitesine giriş yaptığınızda tıklamanız gereken sayılar veya desenlerdir ve her internet kullanıcısı bunu çok iyi bilir. Ancak "Ben bir robot değilim" butonuna her tıkladığınızda, sadece kimliğinizi doğruladığınızı düşünüyorsunuz, aslında dünyanın en büyük ve en gizli veri üretimine katılıyorsunuz. Luis von Ahn tarafından geliştirilen reCAPTCHA, dağılmış insan davranışlarını, Google ve altındaki otonom araç şirketi Waymo gibi temel işlerin desteklediği veri altyapısına dönüştürür.

“Ücretsiz” ve “Güvenli” görünümleri altında, internet tamamen yeni bir iş ilişkisini şekillendirdi: İnsan olduğunuzu kanıtlamak için zaman harcayıp AI eğitimi için katkı sağlıyorsunuz, ancak AI öğrendikten sonra bu emek tamamen yerini alıyor. Bu makale 20 saatten az bir sürede Twitter'da 9,5 milyondan fazla görüntülenme aldı. Aşağıda orijinal metin yer alıyor:

Günlük yaklaşık 500.000 saat insan emeği, Google tarafından ücretsiz olarak kullanılıyor. Bu emeği sağlayan kişiler ise sadece internet bankacılığına giriş yapmak istiyorlar.

reCAPTCHA, internet tarihinin en başarılı gizli veri operasyonudur. Zirve döneminde, her gün 200 milyon kişi doğrulama tamamlıyordu. Ancak neredeyse hiç kimse, her tıklamanın ardında neyin yer aldığını fark etmiyordu.

Google'ün otomatik sürücüsüz araç şirketi Waymo, şu anda 45 milyar dolarlık bir değere sahip. Ancak bunun büyük bir kısmı, çeşitli web sitelerini ziyaret ederken ücretsiz olarak sunduğunuz temel eğitim verilerinden oluşuyor.

İşte tam hikaye:

Kaynak: Akıllı bir fikir

2000 yılında spam botları interneti yok ediyordu. Forumlar spamle dolduruluyordu, inboxlar patlıyordu ve siteler insanlarla makineleri ayırt etmek için bir yöntem gerekiyordu.

Carnegie Mellon Üniversitesi'nden Luis von Ahn Profesör, bu sorunu çözdü. İnsanların okuyabildiği, ancak robotların geçemeyeceği çarpık metinlerden oluşan CAPTCHA'yı icat etti.

Ancak von Ahn bunun dışındakileri de gördü. Milyonlarca insan bu zorluklara enerji harcıyor. Peki bu enerji aynı anda iki şey yapmak için kullanılsaydı?

2007 yılında, reCAPTCHA'yı sundu. İnce detayı şuydu: rastgele karalama yerine iki kelime gösteriyordu; biri sistem tarafından bilinen, diğeri bilgisayarların henüz tanıyamadığı gerçek kitapların taranmış kelimeleriydi. Cevabınız bu kitapların dijitalleştirilmesine yardımcı oluyordu.

Bu kitaplar, The New York Times arşivinden ve Google Kitap'tan gelmektedir ve toplamda 130 milyon kadar kitaptır.

Sadece sıradan bir web sitesine giriş yaptığınızı düşünüyorsunuz, aslında küresel en büyük dijital kütüphanenin OCR (optik karakter tanıma) işlemini yapıyorsunuz.

2009 yılında Google, reCAPTCHA'yi satın aldı.

Daha sonra Google oyunu değiştirdi

Sarhoş yazıların dönemi yaklaşık 2012 yılında sona erdi.

Google yeniden bir zorlukla karşılaştı: Street View araçları, dünyadaki her yolu çekti, ancak fotoğraflar sadece ham veriler. Yapay zekânın çalışması için gördüklerini anlaması gerekir: yol işaretleri, geçitler, ışıklı işaretler, dükkan önleri.

Google, reCAPTCHA v2'yi yeniden tasarladı. Ekran üzerinde bozulmuş metinler yerine fotoğraf ızgarası yer alıyor. “Tüm sinyal lambaları olan kareleri tıklayın.” “Her geçen geçitleri seçin.” “Dükkanları tanımlayın.”

Bu resimler doğrudan Google Street View'den alınmıştır. Tıklamanız etiketlemektir.

Her seçim, Google'un bilgisayarlı görme modeline şu piksel grubunun bir ışık sinyali olduğunu, o şeklin bir zebra geçidi olduğunu söylüyor. Sınavı geçmiyorsunuz, veri kümesi oluşturuyorsunuz.

Hayal edilenden daha büyük bir ölçek

Zirve döneminde, her gün 200 milyon reCAPTCHA çözülüyor. Her bir zorluk 10 saniye sürüyor, bu da her gün 2 milyar saniye insan emeğine karşılık geliyor. Yani: her gün 500.000 saat.

Ücretli veri etiketleme maliyeti saatte yaklaşık 10 ila 50 ABD dolarıdır. En düşük standartla hesaplandığında: günlük ücretsiz olarak çıkarılan emek değeri 5 milyon ABD dolarına ulaşmaktadır.

reCAPTCHA yalnızca bir uygulamada değil, her bankada, her devlet portalında ve her e-ticaret sitesinde mevcut. Seçenekiniz yok: Hesabınıza girmek istiyorsanız, önce veri setini etiketleyin. Google hiç sizi danışmadı, hiç ücret ödemedi ve hatta bunu size bile söylemedi.

Bu tümü neyi oluşturdu?

Bu veriler doğrudan iki ürüne verilmiştir:

- Google Haritalar: Dünyanın en çok kullanılan navigasyon aracı. Yol işaretleri, mağazalar ve şehir coğrafyasını tanıma yeteneği, milyarlarca insanın web sitesine giriş yaparken yaptığı etiketlemeler sayesindedir.

-Waymo: Google'un otomatik sürüş projesi. Güvenli seyahat için, otomatik araçlar binlerce görsel deseni neredeyse mükemmel şekilde tanımlamalıdır.

Doğrulama işlerinin gerçek değer eğitim verileri, reCAPTCHA aracılığıyla milyonlarca kişinin bilinçsizce etiketlemesiyle oluşturulmuştur. Waymo, 2024 yılında 4 milyondan fazla ücretli seyahat tamamladı ve 45 milyar dolar değerindeydi. Temelini, sadece bir e-posta kontrol etmek isteyen "ücretsiz internet kullanıcıları" oluşturdu.

Bu modeli neden kimse kopyalayamıyor?

Veri etiketleme son derece pahalıdır. Scale AI, Appen ve Labelbox gibi şirketler, saatte 1 doların altında ücret ödenen yüz binlerce işçi istihdam ederek bu sorunu çözmek için varlardır.

Google'un çözümü farklı bir yoldan geliyor: Etiketlemeyi zorunlu hale getirdiler. Ücret ödenmeden, izin alınmadan, internetin her yerine girişin «bilet»i olarak. Sonuç: milyarlarca etiketli görüntü, küresel kapsama, 24 saatlik hava durumu, dünyanın her şehri. Hiçbir etiketleme şirketi bunu yapamaz. İnternet kendisi fabrikadır ve her internet kullanıcısı sözleşme imzalamamış bir çalışanıdır.

Hâlâ katılıyorsunuz

2018 yılında tanıtılan reCAPTCHA v3, artık zorlukları göstermez. Fare hareketlerinizi, kaydırma hızınızı, kalma sürenizi gözlemleyerek çalışır. Davranış iziniz, sizin bir insan olup olmadığınızı belirler. Bu davranış verileri aynı zamanda Google'ın AI sistemine geri gönderilir.

Asla kendinizden bir seçim yapmadınız, hiçbir onay kutusu işaretlenmedi. Ancak şu anda, ziyaret ettiğiniz çoğu web sitesinde hâlâ bunu yapıyorsunuz.

Endişe verici bir ironi

Luis von Ahn'un amacı genialdi: insanların zaten harcadığı enerjiyi kullanışlı bir çıktıya dönüştürmek. Ancak Google bu vizyonu nasıl kullandığı başka bir konu. Kullanıcıların zorunlu olarak kullandığı güvenlik mekanizmasını, tüm ağda uygulayarak, milyarlarca dolarlık bir ticari ürün oluşturmak için çıktıları topladı. Kullanıcılar hiçbir şey kazanmadı, hatta bilinçli bile olmadı.

En derin ironi şudur: Görsel tanıma işlerini tamamlayarak yıllarca kendinizin insan olduğunu ispatladınız, çünkü AI o dönemde bunları yapamıyordu. Ancak AI bunları öğrendikten sonra, insan görsel etiketleme artık gerekli olmaz.

Kendinizi insan olduğunu kanıtladınız, ancak sonuç olarak kendinizi yerine geçilebilir hale getirdiniz.

Kaynak bağlantı

Dinamik BlockBeats'ta açık pozisyonları öğrenmek için tıklayın

Lütfen BlockBeats Resmi Topluluğuna katılın:

Telegram abone grubu: https://t.me/theblockbeats

Telegram sohbet grubu: https://t.me/BlockBeats_App

Twitter resmi hesabı: https://twitter.com/BlockBeatsAsia