वैश्विक हजारों व्यक्ति व्यक्तिगत डेटा AI प्रशिक्षण के लिए बेच रहे हैं, जबकि गोपनीयता जोखिम हैं

लेखक: The Guardian

संपादित: शेनचाओ टेकफ्लो

शेनचाओ का सारांश: यह जांच रिपोर्ट एक त्वरित रूप से विकसित हो रहे ग्रे इंडस्ट्री को उजागर करती है: दुनिया भर के हजारों लोग अपनी आवाज़, चेहरे, कॉल रिकॉर्ड और दैनिक वीडियो को बेचकर AI प्रशिक्षण शुल्क कमा रहे हैं।

यह गोपनीयता के विवाद पर सामान्य चर्चा नहीं है, बल्कि वास्तविक व्यक्तियों, वास्तविक राशियों और वास्तविक परिणामों पर आधारित जांच है—एक अभिनेता ने अपना चेहरा बेच दिया, और बाद में उसने Instagram पर "अपने" आप को किसी अज्ञात चिकित्सा उत्पाद के लिए प्रचार करते हुए देखा, जहां टिप्पणियों में लोग उसकी "बाहरी दिखावट" की समीक्षा कर रहे थे।

जब AI कंपनियों की डेटा की भूख और वैश्विक आर्थिक असमानता एक साथ आ जाती हैं, तो यह एक असमान लेनदेन का निर्माण कर रही हैं।

The full text is as follows:

पिछले साल एक सुबह, दक्षिण अफ्रीका के केप टाउन में रहने वाले जेकोबस लौव ने अपनी आम तौर पर समुद्री चिड़ियों को खिलाने के लिए टहलने निकलने का फैसला किया। लेकिन इस बार उन्होंने कुछ वीडियो रिकॉर्ड किए—जिसमें उनके फुटपाथ पर चलने के कदम और दृश्य शामिल थे। इस वीडियो ने उन्हें 14 डॉलर कमाए, जो देश के न्यूनतम वेतन के लगभग 10 गुना है, और इस 27 साल के युवक के आधे सप्ताह के खाने के खर्च के बराबर है।

यह Louw द्वारा Kled AI पर पूरा किया गया "शहरी नेविगेशन" कार्य है। Kled AI एक ऐप है जो उपयोगकर्ताओं को एआई मॉडल के प्रशिक्षण के लिए फोटो, वीडियो आदि डेटा अपलोड करने के लिए भुगतान करता है। कुछ हफ्तों में, Louw ने अपने दैनिक जीवन की फोटो और वीडियो अपलोड करके 50 डॉलर कमाए।

हजारों मील दूर, भारत के रांची में, 22 वर्षीय छात्र साहिल टिग्गा सिलेंशियो ऐप के माध्यम से नियमित रूप से कमाई करते हैं—यह ऐप AI प्रशिक्षण के लिए ऑडियो डेटा को समूहबद्ध करता है, जो उनके फोन के माइक्रोफोन का उपयोग करके रेस्तरां के अंदर या व्यस्त सड़क के कोने पर वातावरण की आवाज़ें एकत्र करता है। वह अपनी आवाज़ के रिकॉर्डिंग भी अपलोड करते हैं। साहिल विशेष स्थितियों के लिए, जैसे कि सिलेंशियो मानचित्र पर अभी तक दर्ज नहीं हुए होटल लॉब, जाने का विशेष प्रयास करते हैं। वह इससे मासिक 100 डॉलर से अधिक कमाते हैं, जो उनके सभी भोजन खर्चों को कवर करने के लिए पर्याप्त है।

शिकागो में, 18 वर्षीय वेल्डिंग अप्रेंटिस रमेलियो हिल ने अपने दोस्तों और परिवार के साथ अपनी निजी मोबाइल चैट रिकॉर्डिंग्स को Neon Mobile—एक डायलॉगिक एआई ट्रेनिंग प्लेटफॉर्म—को प्रति मिनट 0.50 डॉलर के भुगतान के बदले बेचकर कुछ सौ डॉलर कमाए। हिल के लिए, यह गणना सरल थी: उन्हें लगा कि टेक कंपनियाँ पहले से ही उनके बड़े पैमाने पर निजी डेटा को कब्जे में कर चुकी हैं, इसलिए वह खुद भी इससे लाभ उठाना चाहते थे।

ये "AI प्रशिक्षण के फ्रीलांस काम" — आसपास के दृश्य, अपनी फोटो, वीडियो और ऑडियो अपलोड करना — एक वैश्विक नए डेटा की सोने की खनन की शुरुआत के सबसे आगे हैं। जबकि सिलिकॉन वैली की उच्च गुणवत्ता वाले मानव डेटा की भूख, खुले इंटरनेट से इकट्ठा किए जा सकने वाले डेटा से आगे निकल गई है, इस अंतर को पूरा करने के लिए एक तेजी से विकसित हो रहा डेटा बाजार उद्योग उभरा है। केप टाउन से लेकर शिकागो तक, हजारों लोग अपनी जैविक पहचान और निजी डेटा को अगली पीढ़ी के AI के लिए सूक्ष्म अधिकार प्रदान कर रहे हैं।

लेकिन इस नए ग्रीग अर्थव्यवस्था के साथ कीमत भी जुड़ी हुई है। कुछ डॉलर के बदले, ये प्रशिक्षक एक ऐसे उद्योग को ईंधन दे रहे हैं जो अंततः उनके कौशल को पुराना कर सकता है, और खुद को गहरे झूठे वीडियो, पहचान चोरी और डिजिटल शोषण के भविष्य के जोखिमों के लिए सुलभ कर रहे हैं—जिनके बारे में वे अभी केवल शुरुआत कर रहे हैं।

एआई गियर को लगातार घूमते रहने दें

AI भाषा मॉडल जैसे ChatGPT और Gemini को लगातार सुधारने के लिए विशाल शिक्षण सामग्री की आवश्यकता होती है, लेकिन वे डेटा की कमी का सामना कर रहे हैं। सबसे अधिक उपयोग किए जाने वाले प्रशिक्षण डेटा स्रोत—C4, RefinedWeb और Dolma—जो वेब के सर्वोच्च गुणवत्ता वाले डेटासेट का एक चौथाई हिस्सा बनाते हैं, अब जनरेटिव AI कंपनियों को अपने डेटा का उपयोग मॉडल प्रशिक्षण के लिए करने से रोक रहे हैं। शोधकर्ताओं का अनुमान है कि AI कंपनियाँ सबसे जल्दी 2026 तक उपलब्ध नवीन उच्च गुणवत्ता वाले पाठ का थोक समाप्त कर देंगी। हालाँकि, कुछ प्रयोगशालाएँ AI द्वारा स्वयं उत्पन्न संश्लेषित डेटा का उपयोग प्रतिक्रिया प्रशिक्षण के लिए करना शुरू कर चुकी हैं, लेकिन यह पुनरावर्ती प्रक्रिया मॉडल के उत्पादन में त्रुटियों से भरा "कचरा" उत्पन्न करती है, जिससे विफलता हो सकती है।

चित्र

Kled AI और Silencio जैसे ऐप्स ठीक यहीं पर उभरे हैं। इन डेटा बाजारों में, मिलियनों लोग अपने आईडेंटिटी डेटा को बेचकर AI को पोषित और प्रशिक्षित कर रहे हैं। Kled AI, Silencio और Neon Mobile के अलावा, AI प्रशिक्षकों के लिए कई अन्य विकल्प हैं: प्रसिद्ध इंक्यूबेटर Y-Combinator द्वारा समर्थित Luel AI, जो बहुभाषी संवाद सामग्री प्राप्त करता है, लगभग 0.15 डॉलर प्रति मिनट की दर से; ElevenLabs आपको अपनी आवाज़ का डिजिटल क्लोन बनाने की अनुमति देता है, और अन्य लोगों के लिए 0.02 डॉलर प्रति मिनट की मूल दर पर उपलब्ध कराता है।

लंडन किंग्स कॉलेज के अर्थशास्त्र के प्रोफेसर बूके क्लेन टीसेलिंक का कहना है कि AI प्रशिक्षण के लिए जॉब एक उभरता हुआ कार्य वर्ग है, जो भारी रूप से बढ़ेगा।

Teeselink ने कहा कि AI कंपनियाँ जानती हैं कि लोगों को डेटा अनुमति शुल्क देने से नेटवर्क स्क्रैपिंग द्वारा सामग्री प्राप्त करने पर पूरी तरह निर्भर रहने से होने वाले कॉपीराइट विवादों से बचा जा सकता है। AI शोधकर्ता वेनियमिन वेसेलोवस्की का कहना है कि इन कंपनियों को नए, सुधारे गए व्यवहारों को मॉडल करने के लिए उच्च गुणवत्ता वाले डेटा की आवश्यकता होती है। "वर्तमान में, मानव डेटा मॉडल वितरण के बाहर से नमूना लेने का स्वर्ण मानक है," वेसेलोवस्की ने जोड़ा।

इन मशीनों को चलाने वाले मनुष्य—विशेषकर विकासशील देशों के लोग—अक्सर इस पैसे की आवश्यकता होती है और उनके पास लगभग कोई विकल्प नहीं होता। AI ट्रेनिंग के लिए कई श्रमिकों के लिए, यह काम आर्थिक असमानता के प्रति एक व्यावहारिक प्रतिक्रिया है। उच्च बेरोजगारी और स्थानीय मुद्रा के मूल्यह्रास वाले देशों में, डॉलर कमाना स्थानीय काम की तुलना में अधिक स्थिर और लाभदायक होता है। कुछ लोगों को प्रवेश स्तर की नौकरी नहीं मिल पाती, इसलिए वे जीवनयापन के लिए AI ट्रेनिंग करते हैं। यहां तक कि अधिक समृद्ध देशों में, जीवन निर्वाह की लागत में वृद्धि के कारण, अपने आप को बेचना एक त論्क्षित वित्तीय विकल्प बन गया है।

केप टाउन के AI ट्रेनर लोउ को इसके गोपनीयता के लागत की स्पष्ट जानकारी है। हालाँकि उनकी आय अनिश्चित है और उनके मासिक खर्चों को पूरा नहीं कर पाती, लेकिन वह पैसा कमाने के लिए इन स्थितियों को स्वीकार करते हैं। वर्षों तक उन्हें न्यूरोलॉजिकल बीमारी से पीड़ित रहना पड़ा, जिसके कारण उन्हें नौकरी नहीं मिल सकी, लेकिन AI डेटा मार्केट (जिसमें Kled AI शामिल है) से कमाई करके उन्होंने 500 डॉलर जमा किए और स्पा प्रशिक्षण कोर्स में दाखिला लेकर मसाज थेरेपिस्ट बन गए।

"दक्षिण अफ्रीकी के रूप में, डॉलर प्राप्त करना दूसरों की कल्पना से अधिक मूल्यवान है," लौ ने कहा।

ऑक्सफोर्ड विश्वविद्यालय के इंटरनेट जियोग्राफी के प्रोफेसर और पुस्तक "फीडिंग द मशीन" के लेखक मार्क ग्राहम ने स्वीकार किया कि विकासशील देशों के व्यक्तियों के लिए इस राशि का अल्पकालिक रूप से व्यावहारिक महत्व हो सकता है, लेकिन उन्होंने चेतावनी दी कि "संरचनात्मक रूप से, यह काम अस्थिर है, इसमें ऊपर की ओर कोई संभावना नहीं है, और यह वास्तव में एक मृत मार्ग है।"

ग्राहम ने जोड़ा कि AI डेटा बाजार "वेतन की प्रतिस्पर्धी गिरावट" और "मानव डेटा की अस्थायी मांग" पर निर्भर करता है। जब यह मांग बदल जाएगी, तो "श्रमिकों के पास कोई गारंटी, कोई स्थानांतरणीय कौशल या कोई सुरक्षा जाल नहीं होगा"।

ग्राहम ने कहा कि एकमात्र विजेता "उत्तरी गोलार्ध के प्लेटफॉर्म" हैं, जो सभी स्थायी मूल्य को हथिया रहे हैं।

चित्र

Full authorization

शिकागो के AI ट्रेनर हिल को अपनी निजी मोबाइल बातचीत को Neon Mobile को बेचने के बारे में मिश्रित भावनाएँ हैं। लगभग 11 घंटे की बातचीत से उन्हें 200 डॉलर कमाए, लेकिन उनका कहना है कि यह ऐप अक्सर ऑफलाइन हो जाता है और भुगतान में देरी करता है। "Neon मेरे लिए हमेशा संदिग्ध रही है, लेकिन मैंने बिल चुकाने के लिए थोड़ा अतिरिक्त पैसा कमाने के लिए इसका उपयोग जारी रखा," हिल ने कहा।

अब वह इस धनराशि को वास्तव में इतना आसान मानने की सोच रहा है। पिछले सितंबर में, Neon Mobile के लॉन्च होने के कुछ ही सप्ताह बाद, TechCrunch ने एक सुरक्षा विफलता की खोज की, जिसके कारण कोई भी उपयोगकर्ताओं के फोन नंबर, कॉल रिकॉर्डिंग्स और स्मृति लेखों तक पहुँच सकता था। हिल ने कहा कि Neon Mobile ने कभी उन्हें इसकी सूचना नहीं दी, और अब वह डरते हैं कि उनकी आवाज़ ऑनलाइन दुरुपयोग हो सकती है।

स्टैनफोर्ड विश्वविद्यालय के ह्यूमन-सेंट्रिक आर्टिफिशियल इंटेलिजेंस इंस्टीट्यूट की डेटा प्राइवेसी रिसर्चर जेनिफर किंग को चिंता है कि AI डेटा बाजार में उपयोगकर्ता डेटा का उपयोग कैसे और कहाँ किया जाएगा, यह स्पष्ट नहीं है। वह जोड़ती हैं कि अपने अधिकारों के बारे में अनजान रहने और इसके लिए बातचीत न कर पाने के कारण, "उपभोक्ता इस जोखिम का सामना कर रहे हैं कि उनके डेटा का उपयोग उनकी पसंद के विपरीत, उनके द्वारा समझे न जाने वाले, या अप्रत्याशित तरीकों से किया जाएगा, और उस समय लगभग कोई उपाय उपलब्ध नहीं होगा।"

जब AI ट्रेनर्स Neon Mobile और Kled AI पर डेटा साझा करते हैं, तो वे एक पूर्ण अधिकार (वैश्विक, अनन्य, अपरिवर्तनीय, स्थानांतरणीय और रॉयल्टी-मुक्त) प्रदान करते हैं, जिससे प्लेटफॉर्म को उनकी छवि को बेचने, उपयोग करने, सार्वजनिक रूप से प्रदर्शित करने और संग्रहीत करने की अनुमति मिलती है, और इसके आधार पर अनुवर्ती कृतियाँ बनाने की अनुमति भी मिलती है।

क्लेड एआई के संस्थापक अवि पटेल ने कहा कि उनकी कंपनी का डेटा प्रोटोकॉल केवल एआई प्रशिक्षण और शोध के उद्देश्यों के लिए सीमित होगा। "पूरा व्यावसायिक मॉडल उपयोगकर्ता विश्वास पर निर्भर करता है। यदि योगदानकर्ता महसूस करते हैं कि उनका डेटा दुरुपयोग किया जा सकता है, तो प्लेटफॉर्म काम नहीं कर सकता।" उन्होंने कहा कि कंपनी डेटासेट बेचने से पहले खरीददार की समीक्षा करेगी और "संदिग्ध इरादों" वाले संस्थानों, जैसे पोर्नोग्राफी उद्योग, और उन "सरकारी संस्थानों" के साथ सहयोग नहीं करेगी, जिनका डेटा का उपयोग इस विश्वास के खिलाफ हो सकता है।

Neon Mobile ने टिप्पणी के लिए अनुरोध का जवाब नहीं दिया है।

लंदन के सेंट जॉर्ज, यूनिवर्सिटी ऑफ लंदन के कानून के प्रोफेसर एनरिको बोनाडियो ने बताया कि इन समझौता शर्तों के कारण प्लेटफॉर्म और उनके ग्राहक "इस सामग्री के साथ लगभग कुछ भी कर सकते हैं, स्थायी रूप से, अतिरिक्त भुगतान के बिना, और योगदानकर्ता के पास सहमति वापस लेने या फिर से बातचीत करने का कोई वास्तविक तरीका नहीं है।"

अधिक चिंताजनक जोखिमों में शामिल हैं: ट्रेनर के डेटा का उपयोग डीपफेक और पहचान धोखाधड़ी बनाने के लिए किया जाता है। बोनाडियो ने जोड़ा कि यद्यपि डेटा बाजार दावा करते हैं कि वे डेटा से पहचान संबंधी जानकारी (जैसे नाम और स्थान) को बेचने से पहले हटा देते हैं, लेकिन जैविक विशेषताओं के पैटर्न स्वभावतः वास्तविक अनामिकता प्राप्त करने के लिए कठिन होते हैं।

Seller's regret

हालांकि AI ट्रेनर्स डेटा के उपयोग के तरीके के लिए अधिक विस्तृत सुरक्षा शर्तों पर बातचीत कर सकते हैं, फिर भी वे पछता सकते हैं। 2024 में, न्यूयॉर्क से अभिनेता एडम कॉय ने अपनी छवि को Captions—एक AI वीडियो संपादन सॉफ़्टवेयर, जिसका अब नाम Mirage हो गया है—को 1000 डॉलर में बेच दिया। उनकी समझौते के अनुसार, उनकी पहचान का उपयोग किसी भी राजनीतिक उद्देश्य के लिए नहीं किया जाएगा, न ही शराब, तम्बाकू या पोर्नोग्राफिक सामग्री के प्रचार के लिए, और अधिकार की अवधि एक वर्ष है।

कैप्शन टिप्पणी के लिए अनुरोध का उत्तर नहीं दे रहा है।

जल्द ही, एडम के दोस्तों ने ऑनलाइन पाए गए वीडियो साझा करना शुरू कर दिया, जिनमें उसका चेहरा और आवाज़ इस्तेमाल की गई थी और जिनके मिलियनों व्यूज़ हुए। एक Instagram वीडियो में, एडम का AI प्रतिरूप "वेजाइनल डॉक्टर" के रूप में पेश किया गया, जो गर्भावस्था और प्रसवोत्तर महिलाओं के लिए साबित नहीं हुए चिकित्सा सप्लीमेंट्स को प्रचार कर रहा था।

"इस बात को किसी और को समझाना मुझे शर्मनाक लगा," कॉय ने कहा।

"कमेंट सेक्शन अजीब लग रहा है क्योंकि वे मेरी बाहरी दिखावट की आलोचना कर रहे हैं, लेकिन वह मैं नहीं हूँ," कॉय ने जोड़ा। "जब मैंने (प्रतिबिंब बेचने का) फैसला किया, तो मेरा विचार यह था कि अधिकांश मॉडल फिर भी ऑनलाइन डेटा और प्रतिबिंब खोज लेते हैं, इसलिए बेहतर है कि मुझे पैसे मिलें।"

Coy ने कहा कि उसने उसके बाद कोई भी AI डेटा फ्रीलांस काम नहीं लिया। उसने कहा कि वह केवल तभी फिर से काम करने पर विचार करेगा अगर कोई कंपनी बड़ा प्रतिफल प्रदान करे।