टिमनित गेब्रू का 2020 का पेपर बड़े एआई जोखिमों का भविष्यवाणी करता था जो अब साकार हो चुके हैं

अगर आप समय को 2020 में वापस ले जाएं, तो अधिकांश AI पेशेवर GPT-3 की शक्ति के बारे में चर्चा कर रहे थे।

उस समय, जनरेटिव AI अभी वैश्विक ध्यान का केंद्र नहीं था, ChatGPT का अभी दो साल बाद ही अभिषेप होगा, और बड़े मॉडल ने अभी वर्तमान वैश्विक निवेश की लहर को जन्म नहीं दिया था। लेकिन उसी वर्ष, एक गूगल के शीर्ष AI शोधकर्ता ने एक प्रकाशित नहीं हुई पेपर के कारण कंपनी के साथ तीव्र विवाद किया और अंततः अपनी नौकरी खो दी।

तब कई लोगों को लगा कि यह सिर्फ सिलिकॉन वैली का एक और विवाद था, जो कार्यस्थल प्रबंधन, शैक्षणिक प्रकाशन और कंपनी संस्कृति से संबंधित था; लेकिन आज वापस देखने पर, लोगों को एहसास हुआ कि उस पेपर में दिए गए चेतावनी के लगभग सभी पहलू वास्तविक दुनिया में सच साबित हुए।

और बर्खास्त किए गए शोधकर्ता, जो AI नैतिकता शोध के क्षेत्र में सबसे प्रभावशाली व्यक्तियों में से एक हैं—टिमनिट गेब्रू।

AI नैतिकता

एक एआई समुदाय को हिला देने वाली "बर्खास्तगी घटना"

दिसंबर 2020 में, तिमनित गेब्रू ने सोशल मीडिया पर घोषणा की कि उन्हें गूगल ने बर्खास्त कर दिया है।

संदेश तुरंत AI शोध समुदाय में विस्फोट हो गया। क्योंकि उस समय गेब्रू एक साधारण शोधकर्ता नहीं थीं, बल्कि गूगल की नैतिक AI टीम की सह-अध्यक्ष और AI समानता तथा एल्गोरिदमिक पूर्वाग्रह के क्षेत्र में विश्वव्यापी रूप से प्रसिद्ध विद्वान थीं।

एथियोपिया में पैदा हुई गेब्रू ने एआई में नस्लीय पक्षपात, लिंगभेद और सामाजिक न्याय के मुद्दों पर लंबे समय तक ध्यान दिया है। गूगल में शामिल होने से पहले, उन्होंने स्टैनफोर्ड विश्वविद्यालय में शोध किया। 2018 में, उनके द्वारा सह-लेखित एक अध्ययन जिसमें एल्गोरिदमिक पक्षपात की बात की गई थी, उसे एआई समानता के अध्ययन के एक महत्वपूर्ण मोड़ के रूप में देखा गया। उसी वर्ष, गूगल ने उन्हें अपनी टीम में शामिल किया और "जिम्मेदार एआई (Responsible AI)" के प्रति कंपनी की प्रतिबद्धता को उच्च स्तर पर प्रदर्शित किया।

लेकिन केवल दो साल बाद, दोनों पक्षों के बीच तनाव बढ़ गया।

उस समय, गूगल ने बाहरी रूप से कहा कि गेब्रू ने स्वेच्छा से इस्तीफा दे दिया, लेकिन गेब्रू ने खुद एक पूरी तरह से अलग कहानी दी: उन्होंने कहा कि उन्हें छुट्टी के दौरान कंपनी का ईमेल मिला, जिसमें उन्हें बताया गया कि उनकी निकासी तुरंत प्रभावी हो गई है, और सभी आंतरिक प्रणालियों के पहुंच अधिकार और ईमेल एक्सेस को एक साथ बंद कर दिया गया है।

उसके लिए, यह एक निश्चित नियुक्ति थी।

इसके बाद, गूगल के 4000 से अधिक कर्मचारी और उद्योग विशेषज्ञों ने एक खुला पत्र जारी करके कंपनी के व्यवहार पर सवाल उठाए और जीब्रू को फिर से नियुक्त करने की मांग की—और इसकी शुरुआत एक केवल 14 पृष्ठों की शोध पत्रिका से हुई।

14 पृष्ठों का एक पेपर विवाद का कारण बना

इस पेपर का शीर्षक है "On the Dangers of Stochastic Parrots" (स्टोकेस्टिक पैरोट्स के खतरे), जिसके लेखक टिमनिट गेब्रू, वाशिंगटन विश्वविद्यालय की भाषाविज्ञान की प्रोफेसर एमिली बेंडर, और दो अन्य शोधकर्ता हैं, जिसे अब तक 14,000 से अधिक बार संदर्भित किया जा चुका है।

बाद में, "रैंडम पैरोट" नाम भी व्यापक रूप से प्रचलित हो गया। (पेपर का लिंक: https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf)

अध्ययन में बताया गया है कि बड़े भाषा मॉडल मूल रूप से सांख्यिकीय नियमों के आधार पर भाषा के पैटर्न को पुनर्निर्मित करते हैं: वे बहुत प्रवाहमय, प्राकृतिक और तार्किक टेक्स्ट उत्पन्न कर सकते हैं, लेकिन वे भाषा के अर्थ को वास्तव में समझते नहीं हैं—जैसे एक तोता जो मानव भाषा का अनुकरण करना सीख गया है, जो स्मार्ट लगता है, लेकिन वास्तव में यह अनुकरण असंख्य इंटरनेट टेक्स्ट पर आधारित है। और इंटरनेट स्वयं पूर्वाग्रह, भेदभाव और घृणा सामग्री से भरा हुआ है। इसलिए, बड़े मॉडल इन समस्याओं को सीखने की संभावना रखते हैं और उत्पन्न सामग्री में इन्हें आगे बढ़ाते हैं।

याद रखें, वह 2020 की बात है, जब GPT-3 केवल हाल ही में लॉन्च हुआ था, ChatGPT अभी तक नहीं बना था, और बड़े मॉडल की लहर भी अभी शुरू नहीं हुई थी—इस पेपर ने पहले से ही आज के पूरे उद्योग की सबसे बड़ी समस्याओं में से एक का पूर्वानुमान लगा दिया था।

इस पेपर को शीर्ष AI नैतिकता सम्मेलन में जमा करने के बाद, गूगल प्रबंधन ने आवेदन किया: पेपर वापस ले लें, या गूगल शोधकर्ताओं के नाम हटा दें। लेकिन जेब्रू ने इसे अस्वीकार कर दिया, उन्होंने कंपनी से स्पष्ट कारण मांगे और दोनों पक्षों के बीच आगे की चर्चा की इच्छा व्यक्त की।

इसी बीच, उसने गूगल के आंतरिक कर्मचारी समूह को एक तीखी ईमेल भेजी।

ईमेल में, गेब्रू ने गूगल को अल्पसंख्यकों की भर्ती को बढ़ावा देने और आंतरिक असमानता के मुद्दों को सुलझाने में वास्तविक कार्रवाई की कमी के लिए आलोचित किया। उन्होंने लिखा: "जब आप कमजोर समूहों के लिए आवाज उठाना शुरू करते हैं, तो आपकी स्थिति और खराब होती जाती है। आप अन्य नेतृत्व को असहज महसूस कराते हैं।" उन्होंने यह भी कहा कि यदि कंपनी हमेशा इस बात की व्याख्या नहीं कर पाती है कि पेपर क्यों वापस लिया गया, तो वह उचित समय पर इस्तीफा दे देंगी।

घटनाओं का विकास उसकी अपेक्षा से बहुत आगे निकल गया। गूगल ने बाद में जवाब दिया कि वह उसकी मांगों को पूरा नहीं करेगी और उसकी "इस्तीफा" को सीधे स्वीकार कर लिया, और तुरंत उसकी सभी एक्सेस अधिकारों को रद्द कर दिया।

At that time, the incident quickly became one of the most controversial topics in the global AI community.

जो विचार पिछले वर्षों में अत्यधिक उत्साही लगते थे, आज वे वास्तविकता बन चुके हैं

इस घटना को आज तक चर्चा का विषय बनाए रखने वाला नियुक्ति नहीं, बल्कि उस शोध पत्र में शामिल विषयवस्तु है—क्योंकि आज पीछे मुड़कर देखें, तो इसमें उठाए गए लगभग हर चिंताएँ अब AI उद्योग के सामने आने वाली वास्तविक समस्याएँ बन चुकी हैं।

(1) पहली चेतावनी: मॉडल "बकवास" करेगा

2020 में, GPT-3 का लॉन्च हुआ था। तब लोग मॉडल के द्वारा पाठ उत्पन्न करने की क्षमता पर आश्चर्यचकित थे, लेकिन इसकी विश्वसनीयता पर कम ही गंभीरता से चर्चा की गई।

गेब्रू और बेंडर ने बताया: जैसे-जैसे मॉडल का आकार बढ़ता जाता है, लोग बहुत आसानी से बहुत बहुत प्रवाहित व्यक्तित्व को वास्तविक समझ के रूप में मानने लगते हैं। मॉडल ऐसा लगता है जैसे वह सोच रहा हो, लेकिन वास्तव में वह केवल अगले सबसे संभावित शब्द का अनुमान लगा रहा होता है, इसलिए, वे जल्द ही ऐसी जानकारी पैदा करेंगे जो तर्कसंगत लगती है, लेकिन पूरी तरह से गलत होती है।

और आज, इस समस्या का एक ऐसा नाम है जिसे सभी जानते हैं: AI हैलूसिनेशन। चाहे ChatGPT, Gemini, Claude या कोई अन्य उन्नत मॉडल हो, हैलूसिनेशन की समस्या अभी तक पूरी तरह से हल नहीं हुई है।

किसी अर्थ में, यह पेपर ने "हॉलूसिनेशन" शब्द के उद्योग में लोकप्रिय होने से पहले ही इसकी सटीक भविष्यवाणी कर दी थी।

(2) दूसरी चेतावनी: पूर्वाग्रह गायब नहीं होंगे, बल्कि बढ़ जाएंगे

पेपर ने यह भी बताया कि इंटरनेट स्वयं एक उदासीन डेटा स्रोत नहीं है, और ट्रेनिंग डेटा में स्वाभाविक रूप से विभिन्न नस्लीय, लिंग, सांस्कृतिक और क्षेत्रीय पूर्वाग्रह शामिल होते हैं। मॉडल इन पूर्वाग्रहों को सीखता है और संभवतः अनुकूलन तंत्र के कारण उन्हें और मजबूत करता है।

बाद में, विभिन्न वास्तविक समस्याओं ने इस चिंता की पुष्टि की:

अमेज़न ने AI का उपयोग आवेदकों के रिज्यूमे को छांटने की कोशिश की, लेकिन प्रणाली ने "women" जैसे कीवर्ड वाले रिज्यूमे के स्कोर को स्वचालित रूप से कम कर दिया।

एक मेडिकल रिस्क एसेसमेंट सिस्टम, जिसका उपयोग अमेरिका के कई बड़े अस्पतालों में किया जाता है, लंबे समय तक काले रंग के मरीजों की चिकित्सा आवश्यकताओं को कम आंकता रहा है।

Apple Card को भी महिलाओं को पुरुषों की तुलना में कम क्रेडिट सीमा देने के कारण नियामक ध्यान आकर्षित किया।

ये सभी मामले यह दर्शाते हैं कि एल्गोरिदम स्वयं समानता को स्वचालित रूप से प्राप्त नहीं करते, बल्कि वे वास्तविक दुनिया की असमानताओं को अधिक छिपे हुए तरीके से स्थिर कर सकते हैं।

(3) तीसरी चेतावनी: AI की ऊर्जा खपत एक नया समस्या बन जाएगी

2020 में, कैलकुलेशन लागत को आज की तरह इतना ध्यान नहीं दिया जा रहा था, लेकिन उस शोध पत्र ने पहले ही अत्यधिक बड़े मॉडल के प्रशिक्षण के पर्यावरणीय प्रभाव पर चर्चा की थी। शोधकर्ताओं के अनुसार, एक बड़े भाषा मॉडल के प्रशिक्षण से उत्पन्न कार्बन उत्सर्जन, पांच कारों के पूरे जीवनचक्र के उत्सर्जन के योग के बराबर है—उस समय, यह दावा कई लोगों द्वारा अत्यधिक निराशावादी माना जाता था।

हालांकि, जैसे-जैसे AI बुनियादी ढांचे का निर्माण एक हथियार दौड़ में बदल रहा है, समस्याएं तेजी से सामने आ रही हैं: गूगल द्वारा खुलासा किए गए डेटा के अनुसार, 2024 में कंपनी के ग्रीनहाउस गैस उत्सर्जन में 2019 की तुलना में 48% की वृद्धि हुई; इसी अवधि में माइक्रोसॉफ्ट में लगभग 29% की वृद्धि हुई। दोनों कंपनियों ने स्पष्ट रूप से कहा है कि AI डेटा सेंटर और कंप्यूटिंग बुनियादी ढांचा इसका महत्वपूर्ण कारण है।

थोड़ा विरोधाभासी बात यह है कि कुछ वर्षों पहले ये टेक दिग्गज कार्बन न्यूट्रलिटी के लक्ष्यों की घोषणा कर रहे थे।

(4) चौथी चेतावनी: कोई वास्तव में नहीं जानता कि प्रशिक्षण डेटा में क्या है

बहुत से लोगों के लिए, प्रशिक्षण डेटा केवल एक इंजीनियरिंग समस्या लगता है। लेकिन गेब्रू का मानना है कि जैसे-जैसे डेटा का आकार बढ़ता जाएगा, प्रशिक्षण डेटा की पूर्ण ऑडिट करना लगभग असंभव हो जाएगा।

उसकी बात फिर से सच साबित हुई: 2023 में, शोधकर्ताओं ने पाया कि चित्र उत्पादन मॉडल के प्रशिक्षण के लिए व्यापक रूप से उपयोग किए जाने वाले डेटासेट LAION-5B में बच्चों के दुर्व्यवहार की बहुत सारी तस्वीरें शामिल थीं, जिसमें Stable Diffusion सहित कई प्रमुख मॉडल शामिल थे।

अपेक्षित रूप से, कई डेवलपर्स पहले से ही इन चीजों के अस्तित्व के बारे में नहीं जानते थे। यानी, यहां तक कि मॉडल डेवलपर्स खुद भी यह नहीं जानते होंगे कि मॉडल को क्या "खिलाया" गया है—और यही वह प्रश्न है जिसे पेपर ने सबसे पहले उठाया था।

(5) पांचवीं चेतावनी: इंटरनेट धीरे-धीरे AI सामग्री से भर जाएगा

गूगल के लिए, यह संभवतः पूरे पेपर का सबसे संवेदनशील हिस्सा है। गेब्रू और बेंडर का मानना है कि बड़े मॉडल्स के विकास का अंतिम परिणाम भाषा और संस्कृति के शब्दावली को कुछ ही टेक गिगैंट्स के हाथों में केंद्रित कर देगा। कारण सरल है: अत्यधिक बड़े मॉडल्स को प्रशिक्षित करने के लिए विशाल धन, कंप्यूटिंग पावर और डेटा संसाधनों की आवश्यकता होती है, और वास्तव में प्रतिस्पर्धा में शामिल होने में सक्षम कंपनियाँ बहुत कम हैं।

धीरे-धीरे, इंटरनेट में प्रमुख आवाज़ें थोड़ी सी कंपनियों द्वारा प्रशिक्षित सांख्यिकीय औसत में बदल जाएंगी, जिन्हें फिर “उदासीन सहायक” के रूप में पूरी दुनिया में प्रसारित किया जाएगा। इसी बीच, उन भाषाओं और संस्कृतियों को जो प्रशिक्षण डेटा में कम हैं, उन्हें और अधिक किनारे पर धकेल दिया जाएगा।

अधिक गंभीर बात यह है कि जब AI द्वारा उत्पादित सामग्री फिर से इंटरनेट पर आती है और अगली प्रशिक्षण डेटा बन जाती है, तो समस्या लगातार खुद को बढ़ाती रहती है—जिसे आज के शोधकर्ता "मॉडल क्रश (Model Collapse)" कहते हैं।

2024 के एक अध्ययन में पाया गया कि अंग्रेजी इंटरनेट पर जोड़े गए नए सामग्री का लगभग 57% AI द्वारा उत्पन्न या AI सहायता से उत्पन्न है; जबकि कम संसाधन वाली भाषाओं के लिए किए गए अध्ययन में पाया गया कि प्रशिक्षण डेटा में AI द्वारा उत्पन्न सामग्री के बढ़ते हिस्से के कारण, कुछ भाषाओं की अनुवाद गुणवत्ता में स्पष्ट गिरावट आई है।

दूसरे शब्दों में, यह पेपर न केवल "मॉडल क्रैश" घटना का भविष्यवाणी करता है, बल्कि इस अवधारणा के औपचारिक रूप से उभरने से पहले ही इसके उत्पत्ति तंत्र को भी दर्शाता है।

गूगल छोड़ने के बाद, उसने अध्ययन जारी रखने का फैसला किया

घटना के बाद, कई लोगों ने गेब्रू को "एआई विरोधी" के रूप में वर्णित किया। वास्तव में, ऐसा नहीं था; उन्होंने कभी एआई के विकास को रोकने का समर्थन नहीं किया। पूरी तरह से, उनका प्रश्न एक अलग बात पर था:

AI के विकास की दिशा किसने तय की है?

उसके अनुसार, बड़े मॉडल के विकास को आगे बढ़ाने वाले शोधकर्ता और प्रबंधन अक्सर समान पृष्ठभूमि रखते हैं, समान व्यावसायिक लक्ष्यों की सेवा करते हैं और समान प्रतिस्पर्धी दबाव से प्रेरित होते हैं। इस प्रेरणा प्रणाली के तहत, सुरक्षा, निष्पक्षता और नैतिकता के मुद्दों की तुलना में उत्पाद को जल्दी लॉन्च करना, उपयोगकर्ता आधार को जल्दी बढ़ाना और बाजार प्रतिस्पर्धा में जल्दी जीतना अक्सर अधिक प्राथमिकता प्राप्त करता है।

और इस प्रक्रिया को धीमा करने की कोशिश करने वाले सभी को बाधक माना जा सकता है। विरोधाभास यह है कि गेब्रू ने यह बात गूगल के अंदर ही पेश की थी, और गूगल ने उन्हें निकालकर इस बात को सबसे अधिक नाटकीय वास्तविकता का साक्षी बना दिया।

अधिक दुखद बात यह है कि घटना के तुरंत बाद, दूसरे नैतिक AI टीम सह-अध्यक्ष मार्गरेट मिचेल को भी निकाल दिया गया—केवल 90 दिनों में, गूगल की पहले गर्व की जाने वाली नैतिक AI टीम लगभग विघटित हो चुकी थी।

गूगल छोड़ने के बाद, 2021 में जेब्रू ने डिस्ट्रीब्यूटेड एआई रिसर्च इंस्टीट्यूट (DAIR) की स्थापना की। बड़ी टेक कंपनियों के विपरीत, इस संगठन का उद्देश्य व्यावसायिक हितों के बाहर एआई शोध करना है, और इसका लक्ष्य सीधा है: उन समस्याओं का अध्ययन करना जिनका टेक दिग्गज शायद सामना नहीं करना चाहते। पिछले कुछ वर्षों में, DAIR ने डेटा स्रोत, एल्गोरिदमिक समानता, भाषाई विविधता और एआई उद्योग में शक्ति के केंद्रीकरण जैसे मुद्दों पर लगातार ध्यान केंद्रित किया है।

AI नैतिकता

और जेनरेटिव AI के विस्फोटक विकास के साथ, अधिक शोधकर्ता अब पुनः “रैंडम पैरोट का खतरा” नामक पेपर पर ध्यान दे रहे हैं: क्योंकि उन्हें एहसास हुआ कि उस समय पेपर में अतिशयोक्ति माने जाने वाले मुद्दे आज उद्योग की रोजमर्रा की चर्चा का हिस्सा बन चुके हैं।

शायद, उसने सिर्फ अन्य लोगों से जल्दी समस्या को देख लिया था

छह साल बीत चुके हैं, और टिमनिट गेब्रू और गूगल के बीच के विवाद के बारे में, बाहरी दुनिया कभी भी एक ऐसा उत्तर प्राप्त नहीं कर पाएगी जिससे सभी सहमत हों।

गूगल का मानना है कि यह एक सामान्य शैक्षणिक समीक्षा और निकास का मामला था; जबकि गेब्रू का मानना है कि उन्हें अपने शोध परिणामों को प्रकाशित करने के लिए दबाव डाला गया। लेकिन एक बात अब हर जगह स्पष्ट होती जा रही है:

उस अनुसंधान पत्र का महत्व विवाद के समाप्त होने के साथ नहीं खत्म हो गया, जिसके कारण वह गूगल छोड़ गई।

विपरीत रूप से, यह भ्रम, पूर्वाग्रह, डेटा संदूषण, पर्यावरणीय लागत, मॉडल क्रैश और शक्ति केंद्रीकरण जैसे मुद्दों पर चर्चा करता है, जो अब पूरे AI उद्योग के लिए अनिवार्य विषय बन चुके हैं।

कभी-कभी, इतिहास एक अप्रत्याशित तरीके से मूल्यांकन करता है।

2020 में, कई लोगों को लगा कि तिमनित गेब्रू बहुत निराशावादी हैं;

2026 में, लोगों ने अहसास किया कि शायद वह केवल दूसरों से जल्दी ही समस्या को देख पाई थी।

संदर्भ लिंक: https://www.tumblr.com/dreaminginthedeepsouth/817865966907228160/darren-oconnor-timnit-gebru-was-fired-from

यह लेख वेचेन ग्रुप "CSDN" से आया है, संकलन: जेंग लियुआन