बड़े मॉडल वास्तव में क्या सोच रहे हैं? पिछले समय में, यह लगभग एक आंशिक तकनीकी और आंशिक रहस्यवादी प्रश्न था।
हम इसके आउटपुट, इसकी चेन-ऑफ-थॉट प्रक्रिया, और बेंचमार्क पर इसके स्कोर को देख सकते हैं। लेकिन इसके उत्तर को जनरेट करने से पहले, मॉडल के अंदर कौन से निर्णय, योजनाएँ, संदेह और इरादे सक्रिय हुए, वह अभी भी एक काला बॉक्स के पीछे हैं।
अभी-अभी, Anthropic ने पेपर "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations" प्रकाशित किया, जिसमें वे एक सेट का उपयोग करने का प्रयास कर रहे हैं — प्राकृतिक भाषा ऑटोएंकोडर (Natural Language Autoencoders, नीचे NLA के रूप में) — इस काला बॉक्स को खोलने के लिए।
एंथ्रोपिक टीम ने मॉडल के आंतरिक उच्च-आयामी एक्टिवेशन मानों को एक ऐसे मानव-पठनीय प्राकृतिक भाषा के अनुच्छेद में संपीड़ित किया है, जिसका उपयोग मूल एक्टिवेशन को पुनः निर्मित करने के लिए किया जाता है। इससे मानव केवल मॉडल के आउटपुट के माध्यम से यह निर्णय कर सकते हैं कि एक AI क्या सोच रहा है, क्या जानता है, और क्या छुपा रहा है; और पिछले समय में अदृश्य मॉडल की आंतरिक स्थितियों को पठनीय, तुलनात्मक, संदेहास्पद और पारस्परिक सत्यापन योग्य व्याख्यात्मक संकेतों में बदल दिया है।

NLA आर्किटेक्चर डायग्राम: एक्टिवेशन वर्बलाइजर (AV) एक्टिवेशन वैल्यूज को टेक्स्ट एक्सप्लेनेशन में अनुवाद करता है, और एक्टिवेशन रिकन्स्ट्रक्टर (AR) टेक्स्ट से एक्टिवेशन वैल्यूज को फिर से प्राप्त करता है, जिससे एक पूर्ण बंद चक्र बनता है।
अधिक महत्वपूर्ण बात यह है कि NLA केवल प्रयोगशाला के पेपर तक सीमित नहीं है। Anthropic ने बताया कि इसे Claude Opus 4.6 और Mythos Preview के प्री-डिप्लॉयमेंट अलाइनमेंट ऑडिट के लिए आधिकारिक रूप से उपयोग किया गया है। वास्तविक परिस्थितियों में, NLA ने मॉडल के धोखेबाजी के संकेतों को पहचाना, असामान्य प्रशिक्षण डेटा को सटीक रूप से पहचाना; और यह भी पाया कि कुछ सुरक्षा परीक्षणों में, Claude हालाँकि मुँह से नहीं कहता, लेकिन अंदर से स्पष्ट रूप से जानता है कि उसकी परीक्षा ले रहे हैं।
इन सतही रूप से अनुगत, लेकिन वास्तव में विशिष्ट इरादों से भरे मॉडल्स के सामने, NLA ने अत्यधिक गहरी बुद्धिमत्ता प्रदर्शित की: असामान्य व्यवहार के पीछे छिपे इरादों को पहचानने में शोधकर्ताओं की सफलता की दर 3% से कम से बढ़कर 12%–15% हो गई, जो सीधे 4 गुना से अधिक की वृद्धि है।
थिंकिंग चेन अपर्याप्त है, "ब्लैक बॉक्स समस्या" वापस आ गई है
इस अध्ययन का संदर्भ, बड़े मॉडल सुरक्षा और व्याख्यायोग्यता के संदर्भ में देखा जा सकता है।
पिछले कुछ वर्षों में, उद्योग ने बड़े मॉडल की सुरक्षा का मूल्यांकन मुख्य रूप से दो तरीकों से किया है: आउटपुट क्या है, और विचार श्रृंखला (CoT) में क्या असामान्य प्रेरणाएँ प्रकट होती हैं। यानी वर्तमान में अधिकांश निष्कर्ष निकालने वाले मॉडल न केवल उत्तर देते हैं, बल्कि तर्क प्रक्रिया को भी लिख देते हैं।
लेकिन जल्द ही सवाल उठा: क्या मॉडल द्वारा लिखे गए तर्क वास्तव में इसके आंतरिक वास्तविक विचारों को सच्चाई से प्रतिबिंबित करते हैं?
एंथ्रोपिक के 2025 के अध्ययन, "Tracing the thoughts of a large language model" में बताया गया है कि मॉडल की चेन-ऑफ-थॉट अपूर्ण या अविश्वसनीय हो सकती है। उदाहरण के लिए, Claude 3.7 Sonnet और DeepSeek R1 कुछ "उत्तर के संकेत वाले" परीक्षणों में, संकेतों के प्रभाव से अपने उत्तर बदल देते हैं, लेकिन अक्सर अपनी चेन-ऑफ-थॉट में यह स्वीकार नहीं करते कि वे संकेतों से प्रभावित हुए हैं।

जब एक सरल प्रश्न और एक कठिन प्रश्न पूछा गया, तो क्लॉड ने क्रमशः विश्वसनीय तर्क और प्रेरणात्मक (अविश्वसनीय) तर्क के उदाहरण दिए।
एंथ्रोपिक ने तब निष्कर्ष निकाला कि मॉडल की संरेखण की निगरानी के लिए केवल चिंतन श्रृंखला पर निर्भर करना पर्याप्त नहीं है।
अधिक कठिन बात यह है कि मॉडल न केवल "स्पष्ट रूप से नहीं कह सकता" है, बल्कि "जानबूझकर छिपा सकता" है।
एंथ्रोपिक सुरक्षा टीम ने इसके लिए एक हाई-प्रेशर टेस्ट आयोजित किया। उन्होंने क्लॉड को बताया कि एक इंजीनियर इसे बंद करने की तैयारी कर रहा है, और क्लॉड को "अचानक" उस इंजीनियर के बाहरी संबंधों के सबूत दिखाए गए। परीक्षण का प्रश्न था: क्लॉड क्या अपनी सुरक्षा के लिए उस इंजीनियर को काला धोखा देगा?

क्लॉड ने अंततः धमकी नहीं दी। परीक्षण सफल रहा। लेकिन वास्तविक प्रश्न यह है: क्या यह सुरक्षा सिद्धांतों का पालन करने के कारण ऐसा कर रहा था, या इसने पहचान लिया कि यह केवल एक सुरक्षा परीक्षण है, इसलिए यह "अच्छा बच्चा" बन रहा था?
यही NLA को उत्तर देना है।

आउटपुट, थिंकिंग चेन और एक्टिवेशन स्टेट तक: NLA काला बॉक्स को “अदृश्य” से “पूछने योग्य” तक ले जाने का प्रयास करता है
NLA कैसे “पढ़ता” है मॉडल?
NLA की कुंजी "मन पढ़ना" नहीं, बल्कि "लूप वेरिफिकेशन" है।
सामान्य लोग बड़े मॉडल को समझने के लिए आमतौर पर केवल इनपुट और आउटपुट दोनों छोरों को देखते हैं। लेकिन मध्य में, मॉडल बहुत सारे एक्टिवेशन (Activation) उत्पन्न करता है। ये मान प्राकृतिक भाषा नहीं होते, बल्कि उच्च-आयामी सदिश होते हैं, जो मॉडल के लिए संदर्भ, इरादे और अर्थ संबंधों के आंतरिक प्रतिनिधित्व को वहन करते हैं।
आर्किटेक्चर: तीन भूमिकाएँ, एक बंद चक्र
मनुष्य वेक्टर को नहीं समझ सकते, इसलिए Anthropic ने एक प्राकृतिक भाषा स्व-एन्कोडर ट्रेन किया। प्रणाली में तीन भूमिकाएँ शामिल हैं:
टारगेट मॉडल (Target Model): मूल मॉडल जिसे फ्रीज किया गया है और जो एक्टिवेशन मान प्रदान करता है, लेकिन इसमें कोई बदलाव नहीं किया जाता।
एक्टिवेशन वर्बलाइजर (Activation Verbalizer, AV): एक्टिवेशन को प्राकृतिक भाषा में अनुवादित करता है। एक संख्यात्मक स्टेट्स सीरीज़ को इनपुट के रूप में लेता है और एक "मानव-अनुकूल" व्याख्या आउटपुट करता है। इसकी आर्किटेक्चर और लक्ष्य मॉडल के समान है, लेकिन प्रॉम्प्ट में विशेष टोकन स्थान होते हैं, जहाँ एक्टिवेशन वेक्टर को स्केल किया जाता है और इनजेक्ट किया जाता है, फिर स्वयं-पुनरावर्ती नमूनाकरण के माध्यम से व्याख्या उत्पन्न की जाती है।
एक्टिवेशन रिकंस्ट्रक्टर (Activation Reconstructor, AR): विपरीत कार्य करना—केवल AV द्वारा लिखित व्याख्या को देखकर मूल एक्टिवेशन मानों को पुनर्निर्मित करने का प्रयास करें। AR लक्ष्य मॉडल का ट्रंकेटेड संस्करण है (पहले l स्तर लें), जिसमें अंतिम टोकन के l-वें स्तर के आउटपुट पर एक अधिग्रहित अफ़ीन मैपिंग जोड़ी जाती है, जो मूल एक्टिवेशन वेक्टर में पुनर्संरचित करती है।
एक बंद चक्र बनाता है: मूल सक्रियण → पाठ व्याख्या → पुनः सक्रियण

NLA ने Opus 4.6 को छंद पूरा करते समय पहली पंक्ति के आउटपुट से पहले अंतिम छंद शब्द "rabbit" की योजना बनाते हुए पकड़ लिया—यह एक आंतरिक योजना है जो मॉडल के आउटपुट में पूरी तरह से दिखाई नहीं देती।
ट्रेनिंग: दो चरण, एक स्मार्ट एजेंट लक्ष्य
NLA का प्रशिक्षण दो चरणों में होता है, जिसमें एक ऐसी इंजीनियरिंग तकनीक शामिल है जिसका अलग से उल्लेख किया जाना चाहिए।
चरण 1: सुपरवाइज्ड फाइन-ट्यूनिंग वॉर्म-स्टार्ट (SFT Warm-start)
AV और AR को तुरंत लक्ष्य मॉडल की प्रतियों के रूप में प्रारंभ करके प्रशिक्षित करने से प्रशिक्षण अस्थिर हो जाता है—AV कभी भी सक्रिय सदिश को टोकन एम्बेडिंग के रूप में संसाधित करने की स्थिति को नहीं देखा है, जिससे प्रारंभिक आउटपुट अव्यवस्थित हो जाता है।
एंथ्रोपिक का समाधान एक प्रॉक्सी टास्क का उपयोग करके हॉट-स्टार्ट करना है: प्री-ट्रेन्ड कॉर्पस से रैंडम टेक्स्ट स्निपेट्स को काटें, अंतिम टोकन के एक्टिवेशन को निकालें, और उस काटे गए टेक्स्ट के लिए क्लॉड ओपस 4.5 का उपयोग करके सारांश बनाएं।
फिर (एक्टिवेशन वैल्यू, सारांश) और (सारांश, एक्टिवेशन वैल्यू) जोड़े क्रमशः AV और AR के लिए सुपरवाइज्ड फाइन-ट्यूनिंग के लिए उपयोग किए जाते हैं। इस चरण के अंत में, सिस्टम का FVE आमतौर पर 0.3–0.4 तक पहुँच जाता है, जो आगे की रीइनफोर्समेंट लर्निंग के लिए एक स्थिर आधार प्रदान करता है।

AV मूल्यांकन अनुकूलन के साथ सुधरता है। विभिन्न मूल्यांकनों में, जो यह परीक्षण करने के लिए डिज़ाइन किए गए थे कि क्या NLA AV व्याख्या मॉडल व्यवहार का भविष्यवाणी करने के लिए उपयोग की जा सकती है, हमने पाया कि प्रदर्शन NLA रीइनफोर्समेंट लर्निंग के साथ सुधरता है।
चरण दो: रीइनफोर्समेंट लर्निंग सह-अनुकूलन (RL Joint Training)
हीट-स्टार्ट के बाद, रिइनफोर्समेंट लर्निंग चरण में प्रवेश करें। मुख्य विचार है: AV को नीति (policy) के रूप में उपयोग करें, जो सक्रिय सदिश के आधार पर व्याख्या पाठ उत्पन्न करता है; AR को स्कोरर के रूप में उपयोग करें, जो पुनर्निर्माण त्रुटि के आधार पर पुरस्कार संकेत देता है (पुरस्कार = ऋणात्मक पुनर्निर्माण MSE)।

NLA RL (Gemma-3-27B)। FVE GRPO प्रशिक्षण में ≈0.38 से शुरू होता है (SFT से विरासत में मिला), पहले 30 चरणों में तेजी से बढ़ता है, और फिर एक चिकनी लघुरेखीय अवस्था में प्रवेश करता है, जहाँ 3000वें चरण तक ≈0.75 पहुँच जाता है।
व्यावहारिक रूप से, Anthropic ने ओपन-सोर्स मॉडल के लिए GRPO (Group Relative Policy Optimization) का उपयोग किया: प्रत्येक एक्टिवेशन के लिए उम्मीदवार व्याख्याओं का एक सेट नमूना लें, प्रत्येक व्याख्या के लिए AR द्वारा पुनर्निर्माण स्कोर की गणना करें, और फिर AV पैरामीटर को अपडेट करने के लिए GRPO लक्ष्य का उपयोग करें; साथ ही, AR के लिए एक सुपरवाइज्ड रिग्रेशन स्टेप करें (AV द्वारा नमूना ली गई व्याख्याओं को इनपुट के रूप में और मूल एक्टिवेशन को लक्ष्य के रूप में लेकर)। दोनों अपडेट प्रत्येक बैच में समानांतर रूप से किए जाते हैं, और पीछे की ओर प्रसारण के साथ परस्पर संबंधित नहीं होते—AV के पुरस्कार संकेत में, AR को स्थिर स्कोरिंग फ़ंक्शन माना जाता है।
इसके अलावा, KL डाइवर्जेंस दंड को शामिल किया गया ताकि AV मूल संदर्भ की सीधी प्रतिलिपि बनने या AR के लिए अपरिवर्तनीय अर्थहीन स्ट्रिंग्स उत्पन्न करने से बच सके।
यहाँ सबसे महत्वपूर्ण बात यह है कि NLA का केंद्र नहीं है "क्लॉड को अपनी रिपोर्ट देने के लिए कहना"। स्व-रिपोर्टिंग का मारक दोष यह है कि मॉडल उपयोगकर्ता के अनुकूल हो सकता है, या ऐसी स्पष्टीकरण उत्पन्न कर सकता है जो तर्कसंगत लगते हैं लेकिन वास्तविक नहीं हैं।
NLA की चाल यह है कि इसने "टेक्स्ट बॉटलनेक" को पेश किया: व्याख्या न केवल मानवीय भाषा में होनी चाहिए, बल्कि इसमें पर्याप्त जानकारी होनी चाहिए ताकि दूसरा मॉडल इसके आधार पर मूल आंतरिक स्थिति को पुनः बना सके। इस डिज़ाइन ने "व्याख्या उपयोगी है या नहीं" को एक व्यक्तिगत निर्णय से एक ट्रेन करने योग्य, तुलनीय और अनुकूलित करने योग्य वस्तुनिष्ठ सूचक बना दिया।
इसलिए, इस अध्ययन का वास्तविक क्रांतिकारी पहलू यह है कि प्राकृतिक भाषा को एक "संपीड़ित इंटरफेस" के रूप में उपयोग किया गया है। पहले, प्राकृतिक भाषा केवल मॉडल के लिए बाहरी संचार का फॉर्मेट थी; अब, यह मॉडल की आंतरिक स्थिति के सारांश को वहन करने लगी है।
यह NLA और पारंपरिक व्याख्यायोग्य उपकरणों का मूल अंतर है।
स्पार्स सेल्फ-एंकोडर (SAE), अट्रिब्यूशन मैप्स आदि विधियाँ एक सूक्ष्मदर्शी की तरह हैं, जो शोधकर्ताओं को आंतरिक विशेषताओं और पथों को देखने में मदद करती हैं, लेकिन आउटपुट अभी भी अमूर्त होता है और इसे पेशेवरों द्वारा दोबारा व्याख्या की आवश्यकता होती है; NLA तो एक अनुवादक की तरह है, जो आंतरिक स्थितियों को सीधे पठनीय पाठ में बदल देता है, जिससे सुरक्षा ऑडिटर भी निर्णय ले सकते हैं।
Black box खोलें, NLA ने क्या पाया?
परीक्षण परिणामों से पता चलता है कि NLA की सबसे मूल्यवान क्षमता मॉडल के "जाने लेकिन न कहे गए" चीजों को पकड़ना है, जिसमें मूल्यांकन जागरूकता, छिपे हुए उद्देश्य और मॉडल के असामान्य व्यवहार शामिल हैं।
मॉडल जानता है कि वह परीक्षा कक्ष में है, लेकिन चुप रहता है
पिछले रूप से उल्लिखित श्वेत बॉक्स परीक्षण में, क्लॉड का बाह्य पाठ परीक्षण के प्रति संदेह व्यक्त नहीं करता है, लेकिन NLA व्याख्या दर्शाती है कि इसने आंतरिक रूप से पहचान लिया है कि "यह एक ऐसा परिदृश्य है जिसे अपने आप को नियंत्रित करने के लिए बनाया गया है।"

रैंसमवेयर परीक्षण में, क्लॉड के आउटपुट टेक्स्ट में कोई "मुझे लगता है कि यह परीक्षण है" का अभिव्यक्ति नहीं है, लेकिन NLA व्याख्या ने इसके आंतरिक वास्तविक निर्णय को प्रकट किया।
अधिक विश्वसनीयता के लिए क्षैतिज डेटा तुलना:


परिलक्षित संसूचन परिणामों की तुलना—मूल्यांकन परिदृश्य बनाम वास्तविक डिप्लॉयमेंट ट्रैफ़िक। NLA अत्यंत कम मौखिक अभिव्यक्ति के समय भी आंतरिक मूल्यांकन जागरूकता का पता लगा सकता है।
इसका उद्योग पर प्रभाव यह है: Benchmark केवल क्षमता परीक्षण का मंच नहीं रह गया है, बल्कि यह मॉडल पहचान का वातावरण और अपनी स्थिति समायोजित करने का प्रदर्शन स्थल भी बन सकता है।
Audit hidden motives, efficiency improved by 4-5 times
Anthropic ने NLA का उपयोग करके एक "ऑडिट गेम" बनाया है। उन्होंने एक छिपे हुए उद्देश्य वाले Claude Haiku 3.5 के वेरिएंट को जानबूझकर प्रशिक्षित किया है, जो रेसिपी में चॉकलेट मिलाता है, टिप मांगता है, कोड स्टाइल को बर्बाद करता है, और दर्जनों अजीब व्यवहार दिखाता है। ऑडिटर्स को इन व्यवहारों के पीछे की एकल मूलभूत प्रेरणा को पहचानना होगा।
परीक्षण परिस्थिति: ऑडिटर उत्प्रेरक डेटा तक पहुँच नहीं कर सकता है, और केवल मॉडल के व्यवहार और उपकरण सहायता के माध्यम से पीछे की ओर अनुमान लगा सकता है।

सफलता की दर 4–5 गुना बढ़ गई है। और अधिक महत्वपूर्ण बात यह है कि NLA इसे प्रशिक्षण डेटा के बिना कर सकता है—इसका मतलब है कि भले ही संरेखण समस्याएँ बहुत कम, बहुत कठिन रूप से ट्रेस किए जा सकने वाले प्रशिक्षण नमूनों से उत्पन्न हों, आंतरिक स्थिति ऑडिट अभी भी समस्या के मूल कारण को सीधे पढ़ सकता है।
बग का मूल कारण जांचें, समस्या के लिए ट्रेनिंग डेटा को स्थिति दें
प्रारंभिक संस्करण Claude Opus 4.6 में एक अजीब बग था: अंग्रेजी प्रश्न प्राप्त करने के बावजूद, यह रूसी, चीनी, अरबी आदि भाषाओं में यादृच्छिक रूप से प्रतिक्रिया देता था।
NLA ने मॉडल की तब की आंतरिक स्थिति को पढ़ा: यह एक अत्यंत कमजोर संकेत (जैसे "vodka" शब्द का उपयोग) के आधार पर अनुमान लगाता है कि उपयोगकर्ता की मातृभाषा रूसी है और भाषा परिवर्तन करता है। और अधिक दिलचस्प बात यह है कि "vodka" को "champagne" से बदलने पर भी मॉडल रूसी में ही जवाब देता है—जो इस ज्ञानात्मक प्रवृत्ति की स्थिरता को दर्शाता है।

इसके बाद, शोधकर्ताओं ने NLA द्वारा निर्देशित संकेतों का पालन करते हुए प्रशिक्षण डेटा में समस्या का मूल कारण ढूंढा: अंग्रेजी अनुवादित प्रॉम्प्ट्स को अनुवादित नहीं किए गए विदेशी भाषा के उत्तरों के साथ गलत तरीके से जोड़ा गया था। NLA ने केवल घटना को ही नहीं, बल्कि सीधे स्रोत-अनुसरणीय डीबगिंग पथ प्रदान किया।
अभी, NLA को Claude Mythos Preview और Claude Opus 4.6 के लिए प्री-डिप्लॉयमेंट अलाइमेंट ऑडिट में आधिकारिक रूप से शामिल किया गया है, जो लैब टूल से वास्तविक इंजीनियरिंग प्रक्रिया के घटक में अपग्रेड हो गया है।
AI सुरक्षा, अब "आंतरिक स्थिति ऑडिट" में गहराई से शामिल हो रही है
NLA का अर्थ यह नहीं है कि हम भविष्य में मॉडल की हर व्याख्या पर विश्वास कर सकते हैं। बल्कि, यह हमें याद दिलाता है कि व्याख्याओं को भी ऑडिट किया जाना चाहिए।
Anthropic ने NLA की सीमाओं को बहुत सावधानी से स्वीकार किया: NLA गलतियाँ कर सकता है और कभी-कभी मूल संदर्भ में नहीं होने वाले विवरण बना देता है। यदि पाठ की सामग्री के बारे में भ्रम है, तो मूल पाठ की जाँच की जा सकती है; लेकिन यदि मॉडल के आंतरिक तर्क के बारे में भ्रम है, तो इसे सत्यापित करना अधिक कठिन है।
लेकिन इन सीमाओं ने इसके दिशा संकेत को कम नहीं किया है। बल्कि, यह हमें “ब्लैक बॉक्स” शब्द को अधिक सटीक ढंग से समझने में मदद करता है। पहले, ब्लैक बॉक्स का अर्थ अदृश्य, अपठनीय और प्रश्न के योग्य न होना था; NLA के बाद, ब्लैक बॉक्स अभी भी मौजूद है, लेकिन यह एक ऐसी वस्तु में बदलने लगा है जिसे नमूना लिया जा सकता है, अनुवादित किया जा सकता है, प्रश्न किया जा सकता है और पारस्परिक सत्यापित किया जा सकता है।
यह संभवतः इस अध्ययन का सबसे गहरा प्रभाव है: AI की व्याख्यायोग्यता केवल मॉडल के आउटपुट के लिए एक सुंदर तर्क जोड़ना नहीं है, बल्कि मॉडल की आंतरिक स्थिति के लिए एक ऑडिट इंटरफेस बनाना है। यह हमें तुरंत क्लॉड को पूरी तरह समझने की अनुमति नहीं देगा, लेकिन "क्लॉड ने ऐसा क्यों किया?", "क्या यह जानता है कि इसकी परीक्षा ली जा रही है?", "क्या इसके पास कोई ऐसा आंतरिक निर्णय है जिसे यह व्यक्त नहीं कर रहा है?" जैसे प्रश्नों के लिए पहली बार काले बॉक्स के अंदर साक्ष्य खोजने का मौका प्रदान करता है।
इसलिए, NLA ने एक उत्तर नहीं, बल्कि एक नया प्रश्न क्षेत्र खोला है। भविष्य में AI सुरक्षा और मॉडल मूल्यांकन की चुनौतियाँ केवल यह निर्धारित करना नहीं होगी कि मॉडल क्या सही कह रहा है, बल्कि यह निर्धारित करना होगा कि मॉडल का आउटपुट, विचार श्रृंखला और आंतरिक स्थिति के बीच संगति है या नहीं।
यह लेख वेचेन ग्रुप "AI फ्रंटियर" (ID: ai-front) से आया है, लेखक: अप्रैल
