Тысячи людей по всему миру продают личные данные для обучения ИИ несмотря на риски для конфиденциальности

Автор: The Guardian

Компиляция: Shenchao TechFlow

Обзор Shenchao: Это расследовательское сообщение раскрывает быстро растущую серую отрасль: тысячи людей по всему миру зарабатывают на обучении ИИ, продавая свои голоса, лица, записи звонков и повседневные видео.

Это не общее обсуждение вопросов конфиденциальности, а расследование, связанное с реальными людьми, реальными суммами денег и реальными последствиями — актер, продавший свое лицо, позже увидел «себя» в Instagram, рекламирующем неизвестные медицинские продукты, а в комментариях люди обсуждали его «внешность».

Когда жажда данных у ИИ-компаний сочетается с глобальным экономическим неравенством, это создает несимметричную сделку.

Полный текст:

Однажды утром прошлого года житель Кейп-Тауна, Южная Африка, Якобус Лоу вышел на прогулку, как обычно, кормя чайков. Но на этот раз он записал несколько видео — снимая свои шаги и вид с тротуара. Это видео принесло ему 14 долларов — примерно в 10 раз больше минимальной зарплаты в стране и эквивалентно половине недельных расходов на еду этого 27-летнего молодого человека.

Это задача «Городская навигация», выполненная Louw на Kled AI. Kled AI — это приложение, которое платит пользователям за загрузку фотографий, видео и других данных для обучения моделей ИИ. За несколько недель Louw заработал 50 долларов, загружая фотографии и видео из повседневной жизни.

За тысячи километров оттуда, в Ранчи, Индия, 22-летний студент Сахил Тигга регулярно зарабатывает на Silencio — приложении, которое собирает аудиоданные от пользователей для обучения ИИ, получая доступ к микрофону его телефона для записи окружающего шума в ресторанах или на оживленных перекрестках. Он также загружает свои собственные аудиозаписи. Сахил специально ездит в уникальные места, такие как холлы отелей, еще не зафиксированные на карте Silencio. За это он зарабатывает более 100 долларов в месяц, чего хватает, чтобы покрыть все расходы на еду.

В Чикаго 18-летний ученик-сварщик Рамелио Хилл заработал несколько сотен долларов, продав Neon Mobile — платформе для обучения диалоговым ИИ — свои личные сообщения в мобильных чатах с друзьями и семьей по цене 0,50 доллара за минуту. Для Хилла это простой расчет: он считает, что технологические компании и так уже владеют огромным объемом его личных данных, поэтому он решил и сам извлечь из этого выгоду.

Эти «фриланс-задачи по обучению ИИ» — загрузка сцен вокруг вас, ваших фотографий, видео и аудио — находятся на передовой глобального нового данныхого золотого лихорадки. По мере того как Силиконовая долина испытывает растущий спрос на качественные человеческие данные, превышающий возможности сбора с открытого интернета, возникает процветающая индустрия рынка данных, заполняющая этот разрыв. От Кейптауна до Чикаго тысячи людей микролицензируют свои биометрические идентификаторы и конфиденциальные данные для следующего поколения ИИ.

Но эта новая гиг-экономика сопряжена с определенными издержками. За несколько долларов эти тренеры топят отрасль, которая в конечном итоге может сделать их навыки устаревшими, одновременно подвергая себя будущим рискам глубоких подделок, кражи личных данных и цифровой эксплуатации — о которых они только начинают узнавать.

Пусть зубчатые колеса ИИ продолжают вращаться

Языковые модели ИИ, такие как ChatGPT и Gemini, требуют огромных объемов обучающих материалов для постоянного улучшения, но сейчас они сталкиваются с нехваткой данных. Самые популярные источники обучающих данных — C4, RefinedWeb и Dolma — составляют четверть самых качественных наборов данных в интернете, и теперь они ограничивают использование своих данных генеративными ИИ-компаниями для обучения моделей. Исследователи оценивают, что ИИ-компании могут исчерпать доступные свежие качественные тексты уже к 2026 году. Хотя некоторые лаборатории уже начали использовать синтетические данные, сгенерированные самими ИИ, для обратной связи в обучении, этот рекурсивный процесс приводит к накоплению ошибок в результатах моделей, что может вызвать сбои.

Приложения, такие как Kled AI и Silencio, именно здесь и появляются. На этих рынках данных миллионы людей продавали свои персональные данные для обучения и тренировки ИИ. Помимо Kled AI, Silencio и Neon Mobile, у тренеров ИИ есть множество других вариантов: Luel AI, поддерживаемый известным инкубатором Y-Combinator, который получает многоязычные диалоги по ставке около 0,15 доллара США в минуту; ElevenLabs позволяет вам создать цифровую копию своего голоса и сдавать ее в аренду по базовой ставке 0,02 доллара США в минуту.

Профессор экономики Королевского колледжа Лондона Буке Клейн Теселинк заявил, что фриланс для обучения ИИ — это новая категория работы, которая значительно вырастет.

Теселинк говорит, что компании ИИ понимают, что выплата вознаграждений за авторские права на данные помогает избежать споров об авторском праве, которые могут возникнуть при полной зависимости от веб-скрапинга. Исследователь ИИ Вениамин Веселовский отмечает, что этим компаниям также необходимы высококачественные данные для моделирования новых и улучшенных поведенческих моделей. «На данный момент человеческие данные являются золотым стандартом выборки вне распределения модели», — добавляет Веселовский.

Люди, которые приводят в движение эти машины — особенно из развивающихся стран — часто нуждаются в этих деньгах и практически не имеют другого выбора. Для многих фрилансеров, занимающихся обучением ИИ, эта работа является практичным ответом на экономическое неравенство. В странах с высоким уровнем безработицы и обесцениванием местной валюты заработок в долларах США часто более стабилен и выгоден, чем местная работа. Некоторые не могут найти работу на начальном уровне и вынуждены заниматься обучением ИИ ради пропитания. Даже в более богатых странах рост стоимости жизни делает продажу себя логичным финансовым решением.

Лоу, тренер ИИ из Кейптауна, хорошо осознает цену конфиденциальности. Несмотря на нестабильный доход, который не покрывает все его ежемесячные расходы, он готов принять эти условия, чтобы заработать деньги. Страдая от нервного заболевания в течение многих лет и не могущий найти работу, он накопил 500 долларов, заработанных на рынке данных ИИ (включая Kled AI), и записался на курс спа-обучения, чтобы стать массажистом.

«Как южноафриканец, я получаю больше долларов, чем другие думают», — говорит Лоу.

Профессор интернет-географии Оксфордского университета и автор книги «Кормление машин» Марк Грем признал, что для частных лиц в развивающихся странах эти деньги могут иметь практическое значение в краткосрочной перспективе, но предупредил, что «структурно эта работа нестабильна, не имеет перспектив роста и на самом деле является тупиком».

Грэм добавил, что рынок данных ИИ зависит от «конкуренции за снижение заработной платы» и «временного спроса на человеческие данные». Как только этот спрос сменится, «работники не будут иметь никакой защиты, необъявляемых навыков и социальной поддержки».

Грэм заявил, что единственными победителями стали «платформы северного полушария, которые захватили всю долгосрочную ценность».

Полномочия

Хилл, тренер ИИ из Чикаго, чувствует противоречивые эмоции по поводу продажи личных телефонных разговоров Neon Mobile. За около 11 часов разговоров он заработал 200 долларов, но говорит, что приложение часто отключается и задерживает выплаты. «Neon всегда казалась мне подозрительной, но я продолжал использовать его, чтобы заработать немного дополнительных денег на оплату счетов», — сказал Хилл.

Теперь он начал переосмысливать, настолько ли легко были эти деньги. В сентябре прошлого года, всего через несколько недель после запуска, Neon Mobile был отключен, после того как TechCrunch обнаружил уязвимость в безопасности, позволявшую любому получить доступ к номерам телефонов пользователей, аудиозаписям разговоров и текстовым сообщениям. Хилл сказал, что Neon Mobile никогда не уведомлял его об этом, и теперь он обеспокоен тем, что его голос может быть использован в интернете в неподобающих целях.

Дженифер Кинг, исследователь по вопросам конфиденциальности данных в Институте искусственного интеллекта, ориентированном на человека, Стэнфордского университета, выражает обеспокоенность тем, что на рынке данных ИИ неясно, как и где будут использоваться данные пользователей. Она добавляет, что потребители подвергаются риску того, что их данные будут повторно использованы способами, которые они не одобряют, не понимают или не предвидели, при этом у них практически нет возможности для исправления ситуации, поскольку они не осведомлены о своих правах и не могли вести переговоры по этому поводу.

Когда тренеры ИИ делятся данными на Neon Mobile и Kled AI, они предоставляют полномочную, глобальную, исключительную, неотзываемую, передаваемую и безвозмездную лицензию, позволяющую платформе продавать, использовать, публично демонстрировать и хранить их изображения, а также создавать производные произведения на их основе.

Основатель Kled AI Ави Пател заявил, что протокол данных его компании будет использоваться исключительно в целях обучения и исследований ИИ. «Вся бизнес-модель основана на доверии пользователей. Если участники считают, что их данные могут быть использованы неправомерно, платформа не сможет функционировать», — отметил он, добавив, что компания будет проверять покупателей перед продажей наборов данных, чтобы избежать сотрудничества с «подозрительными» организациями, такими как индустрия порнографии, и «государственными учреждениями», которые, по их мнению, могут использовать данные против доверия.

Neon Mobile не ответил на запрос на комментарий.

Профессор права Лондонского городского университета Святого Георгия Энрико Бонадио отметил, что эти условия соглашения позволяют платформе и ее клиентам «практически делать что угодно с этим материалом, бессрочно, без дополнительной оплаты, а у участников нет реального способа отозвать согласие или пересмотреть условия».

Более тревожные риски включают использование данных тренеров для создания глубоких подделок и имитации личности. Хотя рынки данных утверждают, что идентифицирующая информация (такая как имя и местоположение) удаляется из данных перед продажей, биометрические закономерности по своей природе трудно анонимизировать с реальным эффектом, добавил Бонадио.

Сожаление продавца

Даже если тренеры ИИ смогут договориться о более детальных условиях защиты использования данных, они все равно могут пожалеть. В 2024 году актер из Нью-Йорка Адам Кой продал свое изображение компании Captions — программе для редактирования видео на основе ИИ, теперь переименованной в Mirage — за 1000 долларов. Его соглашение предусматривало, что его личность не будет использоваться в политических целях, для продвижения алкоголя, табака или порнографического контента, а срок лицензии составлял один год.

Подписи не ответили на запрос на комментарий.

Вскоре друзья Адама начали распространять видео, которые они нашли в интернете, где использовались его лицо и голос, набравшие миллионы просмотров. В одном из видео на Instagram его AI-копия представлялась как «вагинальный врач» и продвигала не подтвержденные медицинские добавки для беременных и кормящих женщин.

«Мне неловко объяснять это другим», — сказал Кой.

«Комментарии странные, потому что они оценивают мою внешность, но это вообще не я», — добавила Кой. «Когда я принимала решение (о продаже своего изображения), я думала, что большинство моделей и так собирают данные и изображения в интернете, так почему бы не получить за это деньги».

Кой сказал, что после этого он больше не брался ни за одну работу по сбору данных для ИИ. Он сказал, что рассмотрит возможность вернуться к этому только в случае, если какая-либо компания предложит значительное вознаграждение.