Тисячі людей по всьому світу продають особисті дані для навчання ШІ за ризику порушення конфіденційності

Автор: The Guardian

Переклад: Deep潮 TechFlow

Огляд Shenchao: Цей розслідувальський матеріал розкриває швидко розростаючуся сіру індустрію: тисячі людей по всьому світу заробляють на навчанні ШІ, продаючи свої голоси, обличчя, записи дзвінків та щоденні відео.

Це не загальна дискусія про приватність, а розслідування з реальними людьми, реальними сумами та реальними наслідками — актор, який продав своє обличчя, потім побачив «себе» у Instagram, який просуває невідомі медичні продукти, а в коментарях люди обговорюють його «зовнішність».

Коли жага даних від компаній з штучним інтелектом поєднується з глобальним економічним розривом, виникає нерівноправна угоду.

Повний текст:

Одного ранку минулого року Якобус Лоу, який жив у Кейптауні, Південна Африка, вийшов на звичайну прогулянку, годуючи чайок по дорозі. Але на цей раз він записав кілька відео — зображення своїх кроків і виду з тротуару. Це відео принесло йому 14 доларів США — майже в 10 разів більше, ніж мінімальна заробітна плата в країні, і стільки ж, скільки він витрачає на їжу за півтижня.

Це завдання «Міська навігація», виконане Louw на Kled AI. Kled AI — це додаток, який платить користувачам за завантаження фотографій, відео та інших даних для навчання моделей ШІ. За кілька тижнів Louw заробив 50 доларів США, завантажуючи фотографії та відео зі свого щоденного життя.

Тисячі миль далі, у Ранчі, Індія, 22-річний студент Сахіл Тігга регулярно заробляє гроші на додатку Silencio — додатку, який збирає аудіодані від користувачів для навчання ШІ, отримуючи доступ до мікрофона його телефону, щоб записувати навколишній шум у ресторанах або на переповнених перехрестях. Він також завантажує свої власні аудіозаписи. Сахіл навмисно їздить до унікальних місць, таких як фойє готелів, які ще не зафіксовані на карті Silencio. За це він заробляє понад 100 доларів США на місяць — достатньо, щоб покрити всі витрати на їжу.

У Чикаго 18-річний учень зварювальника Рамеліо Хілл заробив кілька сотень доларів, продавши Neon Mobile — платформі для навчання діалогових ШІ — приватні повідомлення зі своїх телефонів з друзями та родиною за 0,50 долара за хвилину. Для Хілла це було просто: він вважав, що технологічні компанії й так вже мають велику кількість його приватних даних, тому краще отримати свою частку від цього самому.

Ці «AI-тренувальні фриланс-роботи» — завантаження сцен навколо себе, фотографій, відео та аудіо — стоять на передовій глобальної нової золотої лихоманки даних. Зі зростанням попиту Сіліконової долини на якісні людські дані, що перевищує те, що можна зібрати з відкритого Інтернету, виникла розквітаюча індустрія ринку даних, яка заповнює цей розрив. Від Кейптауна до Чикаго тисячі людей надають мікро-дозвіл на використання своїх біометричних ідентифікаторів та приватних даних для наступного покоління ШІ.

Але ця нова гіг-економіка супроводжується ціною. За кілька доларів тренери живлять галузь, яка в кінцевому підсумку може зробити їхні навички застарілими, одночасно виставляючи себе на ризик майбутніх загроз, таких як глибокі підміни, крадіжка особистих даних та цифрове експлуатація — про які вони лише починають дізнатися.

Не зупиняйте шестерні ІІ

Для постійного вдосконалення мовних моделей ШІ, таких як ChatGPT і Gemini, потрібні величезні обсяги навчальних матеріалів, але зараз вони стикаються з нестачею даних. Найбільш використовувані джерела навчальних даних — C4, RefinedWeb і Dolma — становлять чверть найвищої якості наборів даних у мережі, і зараз вони обмежують використання своїх даних компаніями генеративного ШІ для навчання моделей. Дослідники оцінюють, що компанії ШІ можуть вичерпати доступні нові якісні тексти вже найраніше у 2026 році. Хоча деякі лабораторії вже почали використовувати синтетичні дані, згенеровані самим ШІ, для зворотного зв’язку під час навчання, цей рекурсивний процес призводить до того, що вихідні дані моделей наповнюються помилками та «сміттям», що може спричинити їхнє збої.

зображення

Такі додатки, як Kled AI та Silencio, саме тут і з’являються. На цих ринках даних мільйони людей продаватимуть свої дані про особистість, щоб годувати та навчати ШІ. Крім Kled AI, Silencio та Neon Mobile, у тренувальних програм ШІ є багато інших варіантів: Luel AI, підтримуваний відомим інкубатором Y-Combinator, який отримує багатомовні діалоги за ціною приблизно 0,15 долара за хвилину; ElevenLabs дозволяє вам створити цифрову копію свого голосу та надавати її іншим за базовою ставкою 0,02 долара за хвилину.

Професор економіки Королівського коледжу Лондона Буке Клайн Теселінк сказав, що нульові роботи для навчання ШІ — це нова категорія роботи, яка значно зросте.

Тeeselink каже, що компанії з штучним інтелектом розуміють, що оплата людям за ліцензію на дані допомагає уникнути авторських спорів, які можуть виникнути через повну залежність від збору контенту за допомогою веб-скрейпінгу. Дослідник з штучного інтелекту Веніамін Веселовський стверджує, що цим компаніям також потрібні якісні дані для моделювання нових, покращених поведінок у системах. «На даний момент дані людей є золотим стандартом вибірки поза розподілом моделі», — додав Веселовський.

Люди, які працюють на цих машинах — зокрема з країн з розвитком — часто залежать від цих грошей і майже не мають іншого вибору. Для багатьох фрілансерів, які тренують ШІ, ця робота є практичною відповіддю на економічну нерівність. У країнах з високим рівнем безробіття та девальвацією місцевої валюти заробіток доларів часто є більш стабільним і вигіднішим, ніж місцеві роботи. Деякі люди не можуть знайти початкову роботу і змушені займатися тренуванням ШІ для виживання. Навіть у багатших країнах зростання витрат на життя робить продаж себе логічним фінансовим рішенням.

Лоу, тренер штучного інтелекту з Кейптауна, добре усвідомлює ці ціни на конфіденційність. Незважаючи на нестабільний дохід, який не покриває всіх його щомісячних витрат, він готовий прийняти ці умови, щоб заробити гроші. Багато років він страждав від нейрологічного захворювання і не міг знайти роботу, але гроші, зароблені ним на ринку даних штучного інтелекту (включаючи Kled AI), дозволили йому накопичити 500 доларів США, щоб записатися на курс з масажу і стати масажистом.

Як південноафриканець, отримання доларів коштує більше, ніж люди уявляють, — сказав Лоу.

Професор інтернет-географії Оксфордського університету, автор книги «Харчування машин» Марк Грем погоджується, що для окремих осіб у розвиваючихся країнах ці гроші можуть мати практичне значення в короткостроковій перспективі, але попереджає, що «структурно ця робота є нестабільною, не має перспектив зростання і насправді є мертвою вуличкою».

Грем додав, що ринок даних ШІ залежить від «конкуренції за зниження заробітної плати» та «тимчасового попиту на людські дані». Коли цей попит зміниться, «працівники не матимуть жодних гарантій, непереносних навичок і соціальної захистної мережі».

Грем заявив, що єдиними переможцями є «платформи північної півкулі, які захопили всю тривалу вартість».

зображення

Повноваження

Хілл, тренер штучного інтелекту з Чикаго, відчуває двозначні почуття щодо продажу приватних розмов зі свого телефону Neon Mobile. За 11 годин розмов він заробив 200 доларів, але каже, що додаток часто вимикається і затримує платежі. «Neon завжди здавався мені підозрілим, але я продовжував користуватися ним, щоб заробити трохи додаткових грошей на оплату рахунків», — сказав Хілл.

Зараз він почав переглядати, чи дійсно ці гроші були такими легкими. У вересні минулого року, лише через кілька тижнів після запуску, Neon Mobile було вимкнено, після того як TechCrunch виявив безпекову вразливість, через яку будь-хто міг отримати доступ до номерів телефонів користувачів, аудіозаписів розмов та текстових повідомлень. Хілл сказав, що Neon Mobile ніколи не повідомляв його про це, і зараз він стурбований тим, що його голос може бути зловживаний в інтернеті.

Дженніфер Кінг, дослідниця конфіденційності даних у Інституті штучного інтелекту, спрямованого на людину, Стенфордського університету, висловлює занепокоєння щодо того, що ринок даних ШІ не зрозумілий щодо того, як і де будуть використовуватися дані користувачів. Вона додала, що споживачі піддаються ризику того, що їхні дані будуть повторно використані способами, які їм не подобаються, не зрозумілі або не передбачалися, при цьому майже не маючи жодних засобів виправлення ситуації, оскільки вони не розуміють своїх прав і не здатні вести переговори з цього приводу.

Коли тренери ШІ діляться даними на Neon Mobile та Kled AI, вони надають повноваження (світове, виключне, незворотне, передаване та без виплати роялті), що дозволяє платформі продавати, використовувати, публічно демонструвати та зберігати їх зображення, а також створювати на їх основі похідні твори.

Засновник Kled AI Avi Patel сказав, що протокол даних його компанії буде обмежений лише цілями навчання та досліджень штучного інтелекту. «Вся бізнес-модель ґрунтується на довірі користувачів. Якщо учасники вважатимуть, що їхні дані можуть бути використані зловживально, платформа не зможе функціонувати», — сказав він, додавши, що компанія перевірятиме покупців перед продажем наборів даних, уникатиме співпраці з «підозрілими» організаціями, наприклад індустрією порнографії, а також «урядовими установами», які, на їхню думку, можуть використовувати дані порушуючи цю довіру.

Neon Mobile не відповів на запити з коментарями.

Професор права Лондонського університету Святого Георгія Енріко Бонадіо зазначив, що ці умови угоди дозволяють платформі та її клієнтам «майже довільно використовувати цей матеріал, назавжди, без додаткових платежів, а автори не мають реального способу відкликати згоду або переговорювати знову».

Ще більш тривожними ризиками є використання даних тренувальних наборів для створення глибоких підробок та підробки особистості. Хоча ринки даних стверджують, що видаляють ідентифікуючу інформацію (наприклад, імена та місцезнаходження) перед продажем, біометричні закономірності за своєю природою важко анонімізувати зі значущим ефектом, додав Бонадіо.

Співчуття продавця

Навіть якщо тренувальники ШІ зможуть домовитися про більш детальні умови захисту використання даних, вони все одно можуть пожаліти. У 2024 році актор з Нью-Йорка Адам Кой продав свою зображення компанії Captions — програмі для редагування відео на основі ШІ, яка зараз називається Mirage. У його угоді передбачалося, що його ідентичність не буде використовуватися для політичних цілей, не буде використовуватися для просування алкоголю, тютюну або порнографічного контенту, а також що ліцензія діє протягом одного року.

Підписи не відповіли на запит про коментар.

Не дуже довго після цього друзі Адама почали поширювати відео, які вони знайшли в Інтернеті, де використовували його обличчя та голос, отримавши мільйони переглядів. У одному з відео в Instagram його AI-копія називала себе «лікарем піхви» і просувала непідтверджені медичні додатки для вагітних і післяпологових жінок.

«Було соромно пояснювати це іншим», — сказав Кой.

«Коментарі дивні, бо вони оцінюють мій зовнішній вигляд, але це зовсім не я», — додала Кой. «Коли я прийняла рішення (продати свій портрет), я думала, що більшість моделей і так збирають дані та зображення в інтернеті, тому краще отримати за це гроші».

Кой сказав, що після цього не брав більше жодних AI-фриланс-завдань. Він сказав, що знову розгляне це лише тоді, коли якась компанія запропонує значну винагороду.