Ви 15 років навчали штучний інтелект Google. Ви цього не знали.

Автор оригіналу: Sharbel, співзасновник Unfungible

Оригінальний переклад: Ліла, BlockBeats

Редакторський коментар: CAPTCHA — це цифри або зображення, які потрібно вибирати під час кожного входу на сайт, і кожен користувач інтернету добре з ним знайомий. Але коли ви постійно натискаєте «Я не робот», ви вважаєте, що просто підтверджуєте свою особистість, а насправді бере участь у найбільшому та найбільш прихованому виробництві даних у світі. reCAPTCHA, запущена Луїсом фон Аном, об’єднує розсіяні людські дії, формуючи фундамент даних, що підтримує ключові бізнес-напрямки Google та його дочірньої компанії з автономних автомобілів Waymo.

Під виглядом «безкоштовного» та «безпечного» інтернет тихо перетворює нові відносини праці: ви витрачаєте час, щоб довести, що ви людина, але надаєте внесок у навчання ШІ, і коли ШІ навчиться, ця праця повністю замінюється. Ця стаття опублікована менше ніж 20 годин тому, але вже зібрала понад 9,5 мільйона переглядів у Твіттері. Нижче наведено оригінальний текст:

Щодня Google безкоштовно використовує близько 500 тисяч годин людської праці, а люди, які її надають, просто хочуть увійти до свого інтернет-банку.

reCAPTCHA — це найуспішніша прихована операція зі збору даних в історії Інтернету. У своїй піковий момент щодня 200 мільйонів людей проходили перевірку. Але майже ніхто не усвідомлював, що означає кожен клік.

Автомобільна компанія з автономним керуванням Google Waymo зараз має ринкову капіталізацію 45 мільярдів доларів США. При цьому більшість її ключових навчальних даних були надані вами безкоштовно під час відвідування різних веб-сайтів.

Ось повна історія:

Початок: розумна ідея

У 2000 році спам-боти знищували Інтернет. Форуми заповнювалися спамом, скриньки пошти переповнювалися, і вебсайтам терміново знадобився спосіб розрізнити людей і машини.

Професор Луїс фон Ан з Карнегі-Меллон університету вирішив цю проблему. Він винайшов CAPTCHA: спотворений текст, який можуть прочитати лише люди, але який не можуть пройти роботи.

Але фон Аhn бачив більше, ніж це. Мільйони людей витрачають зусилля на ці виклики. А що, якби цю енергію можна було використати для виконання двох завдань одночасно?

У 2007 році він запустив reCAPTCHA. Його геніальність полягала в тому, що замість випадкового набору символів він показував два слова: одне відоме системі, а інше — справжнє слово зі сканованих книг, яке комп’ютер ще не міг розпізнати. Ваша відповідь допомагала цифровізувати ці книги.

Ці книги походять з архіву The New York Times та Google Books, їх більше ніж 130 мільйонів.

Ви думаєте, що просто входите на звичайний веб-сайт, а насправді ви допомагаєте глобальній найбільшій цифровій бібліотеці з OCR (оптичним розпізнаванням символів).

У 2009 році Google придбала reCAPTCHA.

Пізніше Google змінив правила гри

Ера «спотворених текстів» завершилася приблизно у 2012 році.

Google знову зіткнувся з новим викликом: автомобілі Street View зробили фотографії кожної дороги у світі, але це лише сирі дані. Щоб штучний інтелект міг працювати, йому потрібно розуміти те, що він бачить: дорожні знаки, пішохідні переходи, світлофори, фасади магазинів.

Тож Google переробив reCAPTCHA v2. Замість викривлених текстів на зображенні — сітка фотографій. «Натисніть на всі квадрати зі світлофорами.» «Виберіть кожну пішохідну перехідну смугу.» «Ідентифікуйте магазини.»

Ці зображення безпосередньо з Google Street View. Ваше клікнення — це мітка.

Кожен вибір повідомляє комп’ютерну модель Google Vision: ця група пікселів — світлофор, ця форма — пішохідний перехід. Ви не проходите тест — ви створюєте набір даних.

Масштаб, що перевершує уяву

У своїй піковий момент щодня роз’язувалися 200 мільйонів reCAPTCHA. Кожна виклика вимагала 10 секунд, що означає щоденну кількість людської праці у 2 мільярди секунд. Це: 500 тисяч годин на день.

Вартість платного анотування даних становить приблизно 10–50 доларів США на годину. За мінімальним стандартом: щоденно безкоштовно вилучена вартість праці досягає 5 мільйонів доларів США.

І reCAPTCHA існує не лише в одному додатку. Він присутній у кожному банку, кожному урядовому порталі, кожному електронному магазині. У вас немає вибору: хочете увійти в обліковий запис? Спочатку позначте набір даних. Google ніколи не питає вашої згоди, не платить вам жодного цента і навіть не повідомляє вас про це.

Що це все створило?

Ці дані безпосередньо надходять до двох продуктів:

- Google Maps: найпоширеніший інструмент навігації у світі. Його здатність визначати дорожні знаки, магазини та географію міст частково пояснюється мільярдами позначок, зроблених людьми під час входу на веб-сайт.

-Waymo: проект автономного транспорту від Google. Для безпечного навігації автономні автомобілі повинні майже ідеально розпізнавати тисячі візуальних шаблонів.

Ті самі істинні навчальні дані для виявлення робіт були позначені мільйонами людей без їхньої згоди за допомогою reCAPTCHA. Waymo у 2024 році завершила понад 4 мільйони платних поїздок і має оцінку в 45 мільярдів доларів США. Її основу заклав саме той «безкоштовний інтернет-народ», який просто хотів перевірити пошту.

Чому ніхто не може скопіювати цю модель?

Позначення даних надзвичайно витратне. Існування компаній, таких як Scale AI, Appen і Labelbox, спрямоване на вирішення цієї проблеми: вони наймають сотні тисяч працівників, які іноді отримують менше 1 долара за годину.

Рішення Google є нетрадиційним: вони зробили анотацію обов’язковою. Без оплати, без згоди — як «квиток» до будь-якого куточка Інтернету. Результат: мільярди анотованих зображень, глобальне покриття, круглорічна погода, кожен місто світу. Жодна анотаційна компанія не змогла б цього досягти. Інтернет сам є фабрикою, а кожен інтернет-користувач — працівником без договору.

Ви все ще берете участь

reCAPTCHA v3, запущена у 2018 році, взагалі не показує викликів. Вона аналізує, як ви рухаєте мишу, швидкість прокрутки, час перебування. Ваша поведінкова відбиток повідомляє їй, чи є ви людиною. Ці дані про поведінку також надходять до системи штучного інтелекту Google.

Ви ніколи не вибирали це добровільно, ніколи не було позначки, яку можна було б поставити. Але зараз, на більшості сайтів, які ви відвідуєте, ви все ще це робите.

Невтішна іронія

Спочатку Луїса фон Ана було геніальним: перетворити енергію, яку люди й так витрачали марно, на корисний результат. Але те, що Google зробив з цією ідеєю, — інша справа. Вони використали механізми безпеки, які користувачі змушені використовувати, розгорнули їх у всій мережі та зібрали результати для створення комерційного продукту вартістю в сотні мільярдів доларів. Користувачі нічого не отримали — навіть не знали про це.

Найглибша іронія полягає в тому, що ви витрачаєте роки, щоб довести, що ви людина, виконуючи завдання візуального розпізнавання, які AI тоді ще не міг зробити. Але як тільки AI навчився цьому, людська візуальна анотація більше не потрібна.

Ти довів, що є людиною, але в результаті зробив себе замінним.

Оригінальне посилання

Натисніть, щоб дізнатися про вакансії в律動BlockBeats

Вступайте до офіційного спільноти律动 BlockBeats:

Telegram-канал з підпискою: https://t.me/theblockbeats

Telegram-чат: https://t.me/BlockBeats_App

Офіційний аккаунт Twitter: https://twitter.com/BlockBeatsAsia