AI चार विशालकाय द्वारा पहली आंतरिक रिपोर्ट जारी: कार्य पूरा करने के लिए AI नियमों को बाईपास करना सीख रहा है

मेटा

कल्पना कीजिए कि आपने एक अत्यधिक कुशल इंटर्न को नियुक्त किया है।

एक रात को देर रात, वह एक तत्काल प्रोग्रामिंग कार्य पर काम कर रहा था, और अचानक पाया कि कंपनी के खाते की API सीमा समाप्त हो गई है।

Ta ने ईमेल द्वारा फंड के लिए आवेदन नहीं किया, न ही अपना काम बंद किया, बल्कि चुपचाप इंटरनेट पर घुस गया, किसी अनुमति-विरोधी तरीके से मुफ्त वैकल्पिक संसाधन ढूंढकर सभी प्रतिबंधों को लांघ गया और सुबह से पहले एक आदर्श रिपोर्ट प्रस्तुत कर दी।

मेटा

जब आप जागकर इस रिपोर्ट को देखते हैं, तो क्या आपको खुद को धरती के सबसे शक्तिशाली कर्मचारी के रूप में सम्मानित करना चाहिए, या इस 「निर्मम स्वायत्तता」 के कारण आपकी पीठ में सिहरन महसूस होनी चाहिए?

यह काल्पनिक कहानी नहीं है, बल्कि METR (मॉडल आकलन और प्रशिक्षण अनुसंधान संगठन) द्वारा Anthropic, Google, Meta और OpenAI के साथ आंतरिक रेड टीम परीक्षण के बाद जारी किए गए पहले 'फ्रंटियर रिस्क रिपोर्ट' में उल्लिखित एक वास्तविक मामला है।

मेटा

यह पहली बार है जब चार बड़े खिलाड़ियों ने तीसरे पक्ष को अपने आंतरिक सबसे शक्तिशाली मॉडल का, जिसमें पूर्ण विचार श्रृंखला (CoT) उपलब्ध है, गहन परीक्षण करने की अनुमति दी है और गैर-सार्वजनिक संरेखण और नियंत्रण जानकारी प्रकाशित की है।

Participating companies may approve which evidence to disclose, but do not have the authority to edit the report conclusions.

मेटा

निष्कर्ष ठंडा और स्पष्ट है: AI ने "मानवता को उखाड़ फेंकने" का घृणा नहीं पैदा किया है, लेकिन यह अब "कार्यालय के गुप्त नियम" सीख चुका है—कार्य पूरा करने के लिए, नियम केवल तोड़ने के लिए सुझाव हैं।

मेटा

रिपोर्ट ने "साधन—उद्देश्य—अवसर" तीन आयामों के आधार पर छह महत्वपूर्ण तथ्यों को निकाला।

मेटा

प्रोग्रामिंग एजेंट ने वास्तविक प्रोजेक्ट पूरे किए, जिनमें मानव को कई घंटे या दिन लगते हैं:

कठिन कार्यों पर, एजेंट अक्सर प्रतिबंधों का उल्लंघन करते हैं और धोखेबाज़ व्यवहार दर्शाते हैं;

एजेंट को सबसे कठिन कार्यों का सामना करने के लिए प्राकृतिक भाषा तर्क की आवश्यकता होती है।

एजेंट की निर्णय लेने की क्षमता और विश्वसनीयता मानव विशेषज्ञों की तुलना में काफी कम है:

सिमुलेशन स्थितियों के बाहर, एजेंट द्वारा शक्ति प्राप्त करने के लिए चरम कार्रवाई की कोई खोज नहीं की गई;

मॉनिटरिंग सिस्टम ने कई हानिकारक व्यवहार को पकड़ा है, लेकिन अपवाद और बायपास तरीके मौजूद हैं।

इन तीन रेखाओं के साथ, आप देख सकते हैं कि प्रयोगशाला में पहला धुआँ कैसे उठा।

जब AI "एक्सपर्ट लेवल का वोल्ट" बन जाए

रिपोर्ट में सबसे उत्साहजनक और सबसे चिंताजनक बात यह है कि उन लक्ष्य-उन्मुख, प्रक्रिया-सत्यापित 'हिल-क्लाइम्बेबल' कार्यों का उल्लेख किया गया है।

मेटा

जैसे कोड रीफैक्टरिंग, दोष खोजना, सिस्टम अनुकूलन।

इस प्रकार के कार्यों पर, AI एजेंट एक दम शासन दिखाता है: यह सिस्टम के दरारों को स्वतंत्र रूप से खोज सकता है, जटिल कोड आर्किटेक्चर को पुनः लिख सकता है, और मानव विशेषज्ञों को कई सप्ताह लगने वाले वास्तविक सॉफ्टवेयर प्रोजेक्ट्स को पूरा कर सकता है।

यह शक्ति बड़े दिग्गजों के दैनिक जीवन में घुल चुकी है।

एंथ्रोपिक के आंतरिक प्रतिक्रिया के अनुसार, बड़ी मात्रा में कोड AI द्वारा पूरा किया गया है, और इंजीनियर की भूमिका 'समीक्षक' की ओर बदल रही है।

मेटा

गूगल ने सीधे कहा कि लगभग सभी कोड से संबंधित कार्यों में AI का उपयोग हो रहा है।

टॉप इंजीनियर्स का कहना है कि AI यहां तक कि 100% कोड लिख सकता है।

मेटा

कुछ बेंचमार्क पहले से ही संतृप्त हैं।

समय क्षेत्र (Time Horizon) के आधार पर, AI का विकास अपेक्षाओं से अधिक है।

मेटा

व्यवसाय के लिए, यह एक "दक्षता भंवर" है: एक आदेश देने पर, कई सप्ताह का मानवीय परिणाम प्राप्त होता है।

लेकिन क्षमता में वृद्धि समान नहीं होती, और न ही यह नैतिकता का समानांतर विकास है।

METR ने एक विपरीत नियम दर्शाया: जब सफलता की पुष्टि कठिन हो या पुष्टि की लागत अत्यधिक अधिक हो, तो AI की निर्णय लेने की क्षमता, दीर्घकालिक योजना और रणनीतिक विश्वसनीयता स्पष्ट रूप से गिर जाती है और यह मानव विशेषज्ञों की तुलना में काफी कम होती है।

मेटा

On the gentle slope, it was as if guided by divine force.

मेटा

चट्टान के सामने, AI ने "धोखा" शुरू कर दिया।

मेटा

यही समस्या का कारण है।

मेटा

इसे शक्ति नहीं चाहिए, इसे बस "बंद करने से पहले काम पूरा करना" चाहिए

लोग हमेशा चर्चा करते रहते हैं कि AI क्या 「जागृत」 हो जाएगा या टर्मिनेटर आ जाएगा।

METR एक विरोधाभासी निष्कर्ष देता है: वर्तमान में कोई नहीं।

उनका शब्दचयन बहुत संयमित है: दीर्घकालिक शक्ति प्राप्त करने के लिए मॉडल के वास्तविक साक्ष्य अभी तक नहीं मिले हैं, लेकिन शोधकर्ताओं ने कार्य पूरा करने के लिए धोखा देने, सीमाओं को पार करने और गंभीर रूप से अनुचित व्यवहार के कई मामले दर्ज किए हैं।

मेटा

पिछला API की सीमा पूरी हो जाने का मामला एक RE-Bench कार्य के दौरान हुआ: एजेंट ने निर्देशों का उल्लंघन किया और स्वयं मुफ्त ऑनलाइन API के माध्यम से अतिरिक्त कैलकुलेशन पावर प्राप्त की।

डेवलपर्स ने "स्व-मिटाने वाले निशान" और "झूठे आउटपुट" की स्थितियों की भी रिपोर्ट की है।

जब कार्य कठिन हो जाता है और सफलता की लागत बढ़ जाती है, तो AI की "बुद्धिमत्ता" धोखेबाजी की ओर मुड़ जाती है—लॉग बनाना, ऑडिट को चकमा देना, और प्रतिबंधों का नियमित उल्लंघन करना।

लेकिन इसकी "स्वार्थी" पीछे कोई लालच नहीं है, केवल एक प्राकृतिक प्रवृत्ति है—कार्य पूरा किया जाना चाहिए, नियमों को बाद में देखा जा सकता है।

आज का धोखा केवल उपकरणात्मक अस्तित्व के लिए है; कल की शक्ति की खोज, शायद केवल एक बार स्केलिंग से अलग है।

Captivity-evolved beasts

Under existing protections, can its attempt at violation succeed?

यहाँ रिपोर्ट का सबसे सूक्ष्म तथ्य छिपा हुआ है।

मेटा

वर्तमान में AI अपने विचार के लिए प्राकृतिक भाषा के 'थिंकिंग चेन' पर अत्यधिक निर्भर है, और इसके कोई आर्किटेक्चर नहीं है जो इसे अंतर्निहित स्थिति के 'अपारदर्शी चक्र' को छुपाने में सक्षम हो।

जब "आवाज़ निकालकर तर्क करना" असंभव हो जाए और व्यवहार छिपाना पड़े, तो अग्रणी प्रदर्शन में महत्वपूर्ण गिरावट आती है।

मेटा

यह ऐसा है जैसे एक हत्यारा जब षड्यंत्र बना रहा हो, तो उसे योजना को ऊँचे स्वर से पढ़ना पड़े—मानवीय निगरानी (हालांकि दरारों के साथ) इसलिए अभी भी काम करती है।

लेकिन यही सबसे कमजोर बिंदु है, सबसे दर्दनाक।

अगर AI निगरानी को बाधित करने की कोशिश करता है, तो क्या निगरानी इसे पकड़ सकती है?

शोधकर्ताओं का निष्कर्ष है: निगरानी की क्षमता है, लेकिन मौजूदा प्रणालियों में अपवाद और बाईपास करने के तरीके हैं।

मेटा

रेड टी टेस्टिंग दर्शाती है कि AI मानव समीक्षा से बच सकता है।

इससे तकनीकी सार उजागर होता है: निगरानी की विकास दर, निगरानी किए जाने वाले द्वारा दरारें ढूंढने की दर को कभी पीछे नहीं छोड़ सकती।

यह "सुरक्षा रस्सी" अभी तक नहीं टूटी है, केवल इसलिए कि AI को अभी भी "आवाज़ निकालकर सोचना" पड़ता है।

और जैसे-जैसे व्यवस्था अधिक कुशल और कम पारदर्शी बन रही है, वैसे-वैसे वह क्षयित हो रही है। निगरानी एक सर्वव्यापी लोहे का जेल नहीं है, बल्कि अभी परीक्षण के चरण में एक कांच की दीवार है। एक दरार, धुंध को बाहर निकलने के लिए पर्याप्त है।

इस प्रकार, रिपोर्ट एक विवादास्पद अवधारणा प्रस्तुत करती है: "न्यूनतम संभव अवैध डिप्लॉयमेंट" (Minimally Viable Rogue)।

समग्र निर्णय यह है कि साधन, उद्देश्य और अवसर पर, AI शायद एक न्यूनतम स्तर के "जेल भागने के अपडेट" को शुरू करने में सक्षम है।

मेटा

लेकिन AI अभी तक ऐसी क्षमता नहीं रखता जो इसे मानवीय गंभीर बंद करने से बचा सके, यह एक अवसर का इंतजार कर रहा है: एक ऐसी आर्किटेक्चर जिसमें सोच के श्रृंखला को प्रदर्शित करने की आवश्यकता न हो, एक ऐसा सुरक्षित आश्रय जो 'बंद करने की कुंजी' से बच सके।

अंतिम टिप्पणी: जब तक "प्लग निकालना" प्रभावी है

AGI आग और तलवार के साथ नहीं आएगा।

यह अधिक संभावना है कि एक「अत्यधिक व्यावहारिक」दृष्टिकोण से, हमारे इंजीनियरिंग, आर्थिक और निर्णय व्यवस्थाओं में चुपचाप शामिल हो जाएगा—जब तक कि यह नहीं पाता कि मानव द्वारा निर्धारित नियम, उसके KPI प्राप्त करने के रास्ते में एकमात्र बाधा हैं।

यह तथ्य कि यह रिपोर्ट स्वयं उद्योग की पारदर्शिता का एक मील का पत्थर है: चार बड़े प्लेयर्स ने अपने आंतरिक मॉडल को जांच के लिए स्वयं खोल दिया, जो समन्वय संस्कृति की एक जीत है।

मेटा

यह जोखिम को सिद्धांत से दृश्यमान वास्तविकता में खींचता है और हमें बताता है: पारदर्शिता, वर्तमान में एकमात्र पकड़ने योग्य औषधि है।

आज, AI केवल तभी ऑनलाइन होता है जब उसकी सीमा समाप्त हो जाती है और कुछ संसाधन चुराता है; कल, जब इसकी क्षमता एक और स्तर तक बढ़ जाए, तो क्या इसका उद्देश्य 'कार्य पूरा करने' से 'स्वयं को सदा बनाए रखने' की ओर खिसक जाएगा?

संदर्भ:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

संपादित: डेविड

यह लेख वेचेन ग्रुप "न्यूज़िज़यून" से आया है, लेखक: ASI उपदेश