Libo-libo sa buong mundo ay nagbebenta ng kanilang personal na data para sa pagtatraining ng AI sa gitna ng mga panganib sa privacy

May-akda: The Guardian

Isinalin: Deep潮 TechFlow

DeepChao Summary: Ipinapakita ng pagsisiyasat na ito ang isang mabilis na umuunlad na gray industry: libu-libong tao sa buong mundo ay kumikita ng bayad para sa pag-train ng AI sa pamamagitan ng pagbebenta ng kanilang boses, mukha, talaan ng tawag, at araw-araw na video.

Hindi ito pangkalahatang diskusyon tungkol sa paglabag sa privacy, kundi isang imbestigasyon na may totoong tao, totoong halaga, at totoong epekto—isang aktor na nagbenta ng kanyang mukha, at pagkatapos ay nakakita sa Instagram ng “sarili” niyang nagpapalaganap ng hindi kilalang medikal na produkto, kung saan may mga komento tungkol sa kanyang “kapalaluan”.

Kapag pinagsasama ng pagkagutom sa data ng mga AI company at ang global economic gap, nabubuo ang isang hindi pantay na transaksyon.

Ang buong teksto ay sumusunod:

Noong isang umaga noong nakaraang taon, si Jacobus Louw, na naninirahan sa Cape Town, Timog Aprika, ay lumabas para maglakad tulad ng karaniwan at nagbigay ng pagkain sa mga kalapati. Ngunit sa pagkakataong ito, isinagawa niya ang ilang video—nag-record siya ng kanyang mga hakbang at pananaw habang naglalakad sa kalye. Ang video na ito ay nagdala sa kanya ng $14, na halos 10 beses ang minimum na sahod ng bansa, at katumbas ng kalahating linggo ng gastusin sa pagkain ng 27-taong-gulang na binata.

Ito ay isang "city navigation" task na natapos ni Louw sa Kled AI. Ang Kled AI ay isang app na nagbabayad sa mga user para mag-upload ng mga larawan, video, at iba pang data para sa pag-train ng AI models. Sa loob ng ilang linggo lamang, kumita si Louw ng $50 sa pamamagitan ng pag-upload ng mga larawan at video mula sa kanyang pang-araw-araw na buhay.

Libo-libo ng milya ang layo, sa Ranchi, India, ang 22-taong-gulang na mag-aaral na si Sahil Tigga ay regular na kikita sa Silencio—isang app na nag-aayos ng audio data para sa pagtuturo ng AI, na nag-a-access sa mikropono ng kanyang telepono upang kumuha ng ingay ng paligid tulad ng loob ng restawran o malalaking krusahan. Pinapadala rin niya ang kanyang sariling recording ng boses. Lumalakad si Sahil patungo sa mga natatanging lugar, tulad ng loby ng hotel na hindi pa nakarehistro sa mapa ng Silencio. Kikita siya ng higit sa $100 bawat buwan, sapat upang takpan ang lahat ng kanyang gastos sa pagkain.

Sa Chicago, ang 18-taong-gulang na apprentice na manggagawa si Ramelio Hill ay nagbenta ng kanyang mga personal na mensahe sa cellphone na may kaibigan at pamilya sa Neon Mobile—isang platform para sa pag-train ng conversational AI—na nagbabayad ng $0.50 bawat minuto, at kumita ng ilang daan-dola. Para kay Hill, simple ang kalkulasyon: naniniwala siya na ang mga kumpanya sa teknolohiya ay nangangalap na ng malaking dami ng kanyang personal na data, kaya mas mabuti na siya ang makakuha ng bahagi nito.

Ang mga "AI training gig" na ito—pag-upload ng paligid na mga eksena, sariling litrato, video, at audio—ay nasa harap ng isang bagong global na gold rush sa data. Habang ang Silicon Valley ay nangangailangan ng mas mataas na kalidad na tao data kaysa sa maaaring ma-scrape mula sa bukas na internet, isang umuunlad na industriya ng data market ang lumikha upang punan ang puwang na ito. Mula sa Cape Town hanggang sa Chicago, libu-libo ang nagpapautang ng kanilang biometrikong identity at pribadong data sa susunod na henerasyon ng AI.

Ngunit kasama ng bagong gig economy na ito ang mga gastos. Sa likod ng ilang dolyar, ang mga tagapag-train ay nagbibigay ng suporta sa isang industriya na maaaring huli’y gawing obsolete ang kanilang kasanayan, habang ipinapakita nila ang sarili sa mga panganib ng hinaharap tulad ng deepfakes, pagkukulang ng identity, at digital na pagmamalabis—na kung saan ay kanilang nagsisimula lang malaman.

Patuloy na pagpapagalaw ng AI gear

Kailangan ng mga modelo ng wika na tulad ng ChatGPT at Gemini ng malaking halaga ng materyales para sa pag-aaral upang patuloy na mapabuti, ngunit naghaharap sila sa kakulangan ng data. Ang pinakakaraniwang mga pinagkukunan ng data para sa pagtuturo—C4, RefinedWeb, at Dolma—na kumakatawan sa isang kuarto ng pinakamataas na kalidad na mga dataset sa web, ay nagsisimulang maglimita sa paggamit ng kanilang data ng mga kumpanya ng generative AI para sa pagtuturo ng mga modelo. Ipinapalagay ng mga siyentipiko na ang mga kumpanya ng AI ay maaaring mawalan ng available, bagong mataas na kalidad na teksto sa pinakamabilis na 2026. Bagaman ang ilang mga laboratorio ay nagsisimula na ring gamitin ang synthetic data na nilikha ng AI mismo para sa pagtuturo, ang rekursibong prosesong ito ay nagdudulot ng pagkakaroon ng "basura" na puno ng mga kamalian, na nagdudulot ng pagbagsak.

larawan

Ang mga app tulad ng Kled AI at Silencio ay tila dumating dito. Sa mga merkado ng data na ito, milyon-milyon ang nagbebenta ng kanilang sariling data ng identity upang pagpapagana at pagsasanay ang AI. Bukod sa Kled AI, Silencio, at Neon Mobile, mayroon pang maraming opsyon para sa mga nagsasanay ng AI: ang Luel AI, na suportado ng kilalang incubator na Y-Combinator, na nag-aabot ng mga materyales sa di-magkakasunod na wika sa halagang humigit-kumulang $0.15 bawat minuto; at ang ElevenLabs na nagpapahintulot sa iyo na gumawa ng digital na kopya ng iyong tinig at ibenta ito sa iba sa base rate na $0.02 bawat minuto.

Sinabi ng propesor ng ekonomiks ng King's College London, Bouke Klein Teeselink, ang AI training gig ay isang bagong kategorya ng trabaho na magkakaroon ng malaking paglago.

Sinabi ni Teeselink na alam ng mga kumpanya ng AI na ang pagbabayad ng bayad para sa pagpapahintulot sa data ay nakakatulong upang iwasan ang mga alitan sa karapatan sa aking maaaring maganap dahil sa pagsasaliksik ng nilalaman mula sa web. Sinabi ni Veniamin Veselovsky, isang mananaliksik sa AI, na kailangan din ng mga kumpanyang ito ng mataas na kalidad na data upang makabuo ng mga modelo para sa mga bagong, pinabuting pag-uugali. "Sa kasalukuyan, ang data ng tao ay ang golden standard para sa pagkuha mula sa labas ng distribution ng modelo," dagdag ni Veselovsky.

Ang mga tao na nagpapagalaw sa mga makina—lalo na sa mga bansang umuunlad—karaniwang kailangan ng perang ito at halos walang ibang pagpipilian. Para sa maraming mga manggagawa sa AI training, ang paggawa nito ay isang praktikal na tugon sa ekonomikong pagkakaiba. Sa mga bansa na mataas ang antas ng kawalan ng trabaho at bumabagsak ang kanilang pambansang pera, ang pagkakaroon ng dolyar ay madalas na mas matatag at mas mabisa kaysa sa lokal na trabaho. May ilan na hindi makakakuha ng mga entry-level na trabaho at kailangang gawin ang AI training para sa kanilang pang-araw-araw na pamumuhay. Kahit sa mas mayayaman mga bansa, ang pagtaas ng gastos sa pamumuhay ay ginawa ring isang lohikal na pagsusuri sa pagsasale ng sarili.

Alam ni Louw, ang AI trainer mula sa Cape Town, ang mga gastos sa privacy nito. Bagaman hindi tiyak ang kanyang kita at hindi sapat upang takpan ang lahat ng kanyang buwanang gastos, handa siyang tanggapin ang mga kondisyon upang kumita. Matagal nang nasasaktan ng isang sakit sa sistema ng mga selula, kaya hindi siya makakahanap ng trabaho, ngunit ang pera na kanyang kinita sa AI data market (kabilang ang Kled AI) ay nagbigay sa kanya ng $500 upang mag-enroll sa isang kurso sa spa at maging isang massage therapist.

“Bilang isang South African, mas halaga ang pagtatanggap ng dolyar kaysa sa inisip ng iba,” sabi ni Louw.

Kinikilala ni Mark Graham, propesor ng Internet Geography sa University of Oxford at may-akda ng aklat na "Feeding the Machine", na ang perang ito ay maaaring may praktikal na kahalagahan sa maikling panahon para sa mga indibidwal sa mga bansang umuunlad, ngunit babalaan niya na "sa structural na pananaw, ang trabahong ito ay hindi matatag, walang posibilidad para sa pag-unlad, at tunay na isang dead end."

Idinagdag ni Graham na ang merkado ng AI data ay nakabatay sa "pagsabak sa sahod" at sa "panahon na pangangailangan sa tao'y data". Kapag lumipas na ang pangangailangang ito, "walang anumang proteksyon, walang makapagpapalit na kasanayan, at walang safety net ang mga manggagawa."

Sinabi ni Graham na ang tanging tagapagpanalo ay "ang mga platform sa hilagang hemisferio, na nagkuha ng lahat ng matatag na halaga."

larawan

Full authorization

Ang AI trainer mula sa Chicago na si Hill ay may magkakasalungat na damdamin tungkol sa pagbebenta ng kanyang pribadong tawag sa Neon Mobile. Ang 11 oras ng mga tawag ay nagdala sa kanya ng $200, ngunit sinabi niya na madalas mawala ang app at nagdudulot ng pagkakabigo sa pagbabayad. "Laging nakakapag-alala si Neon sa aking pananaw, ngunit patuloy akong gumagamit nito para makakuha ng karagdagang pera para sa mga bills," sabi ni Hill.

Ngayon ay nagsisimula siyang muli pang-isipin kung talagang madali ang perang iyon. Noong Setyembre ng nakaraan, wala na agad ang Neon Mobile ilang linggo pagkatapos ng paglunsad, matapos makita ng TechCrunch isang security vulnerability kung saan kayang mag-access sinuman sa mga numero ng telepono, recording ng tawag, at mga mensahe ng mga user. Sabi ni Hill, hindi nag-notify ang Neon Mobile sa kanya tungkol dito, at ngayon ay natakot siya na maaaring mabawasan ang kanyang boses sa internet.

Ang pag-aalala ni Jennifer King, research associate sa Institute for Human-Centered Artificial Intelligence ng Stanford University, ay ang hindi kalinawan sa AI data market kung paano at saan gagamitin ang data ng mga user. Dagdag niya, sa kakulangan ng pag-unawa sa sariling karapatan at kakayahang mangangalakal dito, "ang mga konsyumer ay nasa panganib na muling gamitin ang kanilang data sa paraang hindi nila gusto, hindi nila nauunawaan, o hindi nila inaasahan, at sa ganitong pagkakataon, halos walang maaaring gawin para makatulong."

Kapag ibinabahagi ng mga tagapag-train ng AI ang kanilang data sa Neon Mobile at Kled AI, ibinibigay nila ang isang eksklusibong, walang katapusan, maipapasa at walang royalty na lisensya na nagpapahintulot sa platform na benta, gamitin, ipakita sa publiko at i-store ang kanilang larawan, at kahit maglikha ng mga derivative work batay dito.

Sinabi ni Avi Patel, founder ng Kled AI, na ang kanilang data protocol ay limitado lamang sa layunin ng pag-train at pag-aaral ng AI. "Nakabatay ang buong business model sa tiwala ng mga user. Kung ang mga contributor ay naniniwala na maaaring mabawasan ang kanilang data, hindi makakapagtrabaho ang platform." Sinabi niya na ang kompanya ay susuriin ang mga bilihin bago ibenta ang mga dataset, at iiwasan ang pagtatrabaho kasama ang "mga institusyon na may kakaibang intensyon," tulad ng industriya ng pornography, at ang "mga gobyerno" na kanilang naniniwala ay maaaring gamitin ang data sa paraan na lumalabag sa tiwala na ito.

Hindi nagbigay ng komento ang Neon Mobile.

Ang propesor ng batas sa City, University of London, Enrico Bonadio, ay nagtuturo na ang mga tuntunin ng kasunduang ito ay nagpapahintulot sa platform at sa kanilang mga kliyente na "gawin ang anumang bagay sa materyal na ito, na magpatuloy na walang katapusan, nang walang karagdagang bayad, at walang tunay na paraan para sa mga tagapag-ambag na tarantihan ang pagsang-ayon o mag-negosyo muli."

Mas malalang panganib ay ang paggamit ng data ng mga tagapagturo para sa paggawa ng deepfakes at pagmamalabis ng identity. Bagaman sinasabing tinatanggal ng mga merkado ng data ang mga impormasyon na nakikilala ang identity (tulad ng pangalan at lokasyon) bago ito ibenta, ang mga biometrikong pattern ay likas na mahirap i-anonymize nang may malaking epekto, dagdag ni Bonadio.

Regret ng seller

Kahit na makapag-negosiyasyon ang mga trainer ng AI para sa mas detalyadong mga patakaran sa pagprotekta tungkol sa paggamit ng data, maaari pa ring magsisisi sila. Noong 2024, ang aktor mula sa New York na si Adam Coy ay nagbenta ng kanyang larawan sa Captions—isang AI video editing software na ngayon ay kilala bilang Mirage—for $1,000. Ang kanyang kasunduan ay nagtatadhana na hindi gagamitin ang kanyang identidad para sa anumang politikal na layunin, hindi gagamitin para sa pagpapalaganap ng alak, tabako, o pornograpiya, at ang pahintulot ay may katagalang isang taon.

Hindi nagbigay ng komento sa request para sa pagsusuri.

Sa isang maikling panahon, ang mga kaibigan ni Adam ay nagsimulang magbahagi ng mga video na kanilang nakita online, kung saan ginamit ang kanyang mukha at boses, na nakakakuha ng milyon-milyon na views. Sa isang video sa Instagram, ang AI na kopya ni Adam ay nagmamarka bilang "vaginal doctor" at nagpapromote ng hindi patotohanang medikal na suplemento para sa mga buntis at postpartum na babae.

"Mahirap para sa akin na ipaliwanag ang bagay na ito sa iba," sabi ni Coy.

“Ang komentaryo ay kakaiba, dahil binabale-wala nila ang aking anyo, ngunit hindi naman ako yun,” dagdag ni Coy. “Ang pag-iisip ko nang gumawa ako ng desisyon na ito (pagbebenta ng imahe) ay ang karamihan sa mga model ay kukuha ng data at imahe sa internet naman, kaya mas mabuti na makuha ko ang bayad.”

Sinabi ni Coy na wala siyang kinuha pang anumang AI data gig mula noon. Sinabi niya na kukuha siya ulit kung magkakaroon ng malaking kompensasyon ang isang kumpanya.