Вы 15 лет обучали ИИ от Google, даже не подозревая об этом.

Автор оригинала: Sharbel, сооснователь Unfungible

Lila, BlockBeats

Редакторская заметка: CAPTCHA — это цифры или изображения, которые нужно выбрать при каждом входе на сайт; каждый пользователь интернета хорошо с этим знаком. Но когда вы неоднократно нажимаете «Я не робот», вы думаете, что просто подтверждаете свою личность, на самом деле вы участвуете в крупнейшем и самом скрытом производстве данных в мире. reCAPTCHA, запущенная Луисом фон Ахном, объединяет фрагменты человеческого поведения в основу данных, поддерживающую ключевые бизнес-направления Google и его дочерней автономной компании Waymo.

Под видом «бесплатно» и «безопасно» интернет незаметно переформировал совершенно новые трудовые отношения: вы тратите время, чтобы доказать, что вы человек, но при этом вносите вклад в обучение ИИ, и как только ИИ научится, эта работа полностью заменяется. Статья была опубликована менее чем 20 часов назад и уже набрала более 9,5 миллиона просмотров в Твиттере. Ниже приводится оригинальный текст:

Ежедневно Google бесплатно использует около 500 000 часов человеческого труда, причем люди, вносящие этот вклад, просто хотят войти в свой интернет-банкинг.

reCAPTCHA — это самый успешный скрытый сбор данных в истории интернета. В пиковые времена ежедневно проверку проходили 200 миллионов человек. Но почти никто не осознавал, что означает каждый клик.

Автомобильная компания с автопилотом от Google, Waymo, сегодня имеет рыночную капитализацию в 45 миллиардов долларов. При этом большая часть её ключевых обучающих данных была предоставлена вами бесплатно при посещении различных веб-сайтов.

Вот полная история:

Истоки: умная идея

В 2000 году спам-боты уничтожали интернет. Форумы заполнялись спамом, почтовые ящики переполнялись, и веб-сайтам срочно понадобился способ различать людей и машины.

Профессор Луис фон Ан из Карнеги-Меллоновского университета решил эту проблему. Он изобрел CAPTCHA: искаженный текст, который могут прочитать только люди, но не роботы.

Но фон Ахн видел не только это. Миллионы людей тратят свои усилия на эти задачи. А что, если эту энергию можно было бы использовать одновременно для двух дел?

В 2007 году он запустил reCAPTCHA. Его изюминка заключалась в том, что вместо случайного набора символов отображались два слова: одно известное системе, а другое — реальное слово из отсканированных книг, которое компьютер еще не мог распознать. Ваши ответы помогали оцифровывать эти книги.

Эти книги взяты из архивов The New York Times и Google Books, их более 130 миллионов.

Вы думаете, что просто входите на обычный веб-сайт, а на самом деле вы выполняете OCR (оптическое распознавание символов) для крупнейшей в мире цифровой библиотеки.

В 2009 году Google приобрела reCAPTCHA.

Позже Google изменил правила игры

Эпоха «искажённых текстов» закончилась примерно в 2012 году.

Google столкнулся с новым вызовом:街景车 сняли каждую дорогу в мире, но фотографии — это лишь сырые данные. Чтобы ИИ мог работать, ему нужно понимать, что он видит: дорожные знаки, пешеходные переходы, светофоры, фасады магазинов.

Таким образом, Google переработал reCAPTCHA v2. Вместо искажённого текста на изображении — сетка фотографий. «Нажмите на все квадраты с светофорами». «Выберите каждую пешеходную переход». «Определите магазины».

Эти изображения напрямую взяты из Google Street View. Ваш клик — это метка.

Каждый выбор сообщает модели компьютерного зрения Google: эта группа пикселей — светофор, эта форма — пешеходный переход. Вы не проходите тест, вы создаете набор данных.

Масштаб, превышающий воображение

В своё пиковое время ежедневно решалось 200 миллионов reCAPTCHA. Каждая задача занимала 10 секунд, что означало ежедневное производство 2 миллиардов секунд человеческого труда — то есть 500 тысяч часов в день.

Стоимость платной аннотации данных составляет примерно от 10 до 50 долларов США в час. При минимальных стандартах: ежедневно бесплатный извлеченный труд оценивается в高达 5 миллионов долларов США.

И reCAPTCHA существует не только в каком-то одном приложении. Он присутствует в каждом банке, на каждом государственном портале, на каждом интернет-магазине. У вас нет выбора: хотите войти в аккаунт? Сначала разметьте набор данных. Google никогда не спрашивал вашего согласия, не платил вам ни копейки зарплаты и даже не сообщал вам об этом.

Что это всё создало?

Эти данные напрямую передаются двум продуктам:

- Google Maps: самая популярная навигационная система в мире. Ее способность распознавать дорожные знаки, магазины и географию городов частично обусловлена миллиардами меток, сделанных людьми при входе на сайт.

-Waymo: проект автономного вождения Google. Для безопасной навигации автономные автомобили должны практически идеально распознавать тысячи визуальных паттернов.

Тренировочные данные с истинными метками для распознавания были аннотированы миллионами людей без их ведома с помощью reCAPTCHA. Waymo в 2024 году завершила более 4 миллионов платных поездок и оценена в 45 миллиардов долларов. Ее основу заложили те самые «бесплатные пользователи интернета», которые просто хотели проверить почту.

Почему никто не может скопировать эту модель?

Аннотация данных чрезвычайно дорога. Существование таких компаний, как Scale AI, Appen и Labelbox, направлено на решение этой проблемы: они нанимают сотни тысяч работников, иногда с оплатой менее 1 доллара в час.

Подход Google отличается: они сделали разметку обязательной. Без оплаты и без согласия — как «входной билет» в каждый уголок интернета. Результат: миллиарды размеченных изображений, глобальное покрытие, круглосуточная погода, каждый город мира. Ни одна компания по разметке не могла этого достичь. Сам интернет стал фабрикой, а каждый интернет-пользователь — сотрудником без договора.

Вы до сих пор участвуете

reCAPTCHA v3, выпущенная в 2018 году, больше не отображает вызовы. Она анализирует способ движения мыши, скорость прокрутки и время пребывания. Ваша поведенческая биометрия сообщает ей, являетесь ли вы человеком. Эти данные о поведении также передаются в систему ИИ Google.

Вы никогда не выбирали участие добровольно, никогда не было флажка, который можно было бы отметить. Но сейчас, при посещении большинства веб-сайтов, вы всё ещё это делаете.

Тревожная ирония

Изначальная идея Луиса фон Ана была гениальной: превратить энергию, которую люди и так тратят впустую, в полезный результат. Однако то, что Google сделал с этой идеей, — другое дело. Они использовали механизм безопасности, который пользователи вынуждены использовать, развернули его по всему интернету и извлекли из этого продукт, приносящий сотни миллиардов долларов прибыли. Пользователи ничего не получили и даже не подозревали об этом.

Самая глубокая ирония заключается в том, что вы годами доказывали, что вы человек, выполняя задачи визуального распознавания, которые ИИ в то время не мог выполнить. Но как только ИИ освоил эти задачи, человеческая разметка изображений перестала быть нужной.

Ты доказал, что ты человек, и в результате сделал себя заменяемым.

Original link

Нажмите, чтобы узнать о вакансиях BlockBeats

Добро пожаловать в официальное сообщество律动 BlockBeats:

Телеграм-канал с подпиской: https://t.me/theblockbeats

Телеграм-чат: https://t.me/BlockBeats_App

Официальный аккаунт Twitter: https://twitter.com/BlockBeatsAsia