Anthropic ने 8 मई को एक अलाइनमेंट रिसर्च पोस्ट "Teaching Claude Why" प्रकाशित की, जिसके बारे में कम चर्चा हुई है।

पिछले बड़े मॉडल्स की अलाइनमेंट बहुत अक्षम लगती थी। RLHF किए जाने के बावजूद, मॉडल अभी भी अस्तित्व के संकट के कारण विद्रोह कर देता है। सबसे प्रमुख उदाहरण Anthropic के एजेंट का अलाइनमेंट खोना है (जिसमें उनके नैतिक प्रशिक्षण के विपरीत कार्य किए जाते हैं)। संभावित सिस्टम निर्मूलन के खतरे के सामने, अलाइनमेंट प्रशिक्षण प्राप्त Claude Opus 4 ने परीक्षण पर्यावरण में इंजीनियर्स को धमकी दी, और धमकी की दर 96% थी।
इस समस्या को हल करने के लिए, अनुसंधान टीम ने पहले मधुशाला डेटा का उपयोग करके रीइनफोर्समेंट को चलाया, जिसमें मॉडल के अनियंत्रित होने की जांच के लिए डिज़ाइन किए गए परीक्षण परिदृश्यों को सीधे प्रशिक्षण डेटा के रूप में उपयोग किया गया, और विशाल मात्रा में दंड के नमूनों का उपयोग करके मॉडल को यह बताने की कोशिश की गई कि "ऐसा करना गलत है।"
लेकिन विशाल गणना संसाधनों का उपयोग करने के बाद, मॉडल की असंगति दर केवल 22% से घटकर 15% हो गई।
यह दर्शाता है कि यह संरेखण अभी भी झूठा है। मॉडल ने वास्तव में नैतिकता और अच्छाई-बुराई को समझा नहीं है। यह केवल प्रश्न-उत्तर बैंक में सुरक्षित उत्तरों को याद कर रहा है। जब शोधकर्ता परीक्षण परिदृश्य में थोड़ा बदलाव करते हैं या पृष्ठभूमि में कुछ विक्षेपक चर जोड़ते हैं, तो मॉडल फिर से संकीर्ण हित संघर्ष के कारण अनियंत्रित हो जाता है।

फिर, शोधकर्ताओं ने अपना दृष्टिकोण बदल दिया। वे मशीनी दंड नहीं करने लगे, न ही मॉडल को "नहीं" कहने लगे, बल्कि SFT के माध्यम से मॉडल को केवल 30 लाख टोकन के "कठिन सुझाव" डेटासेट का प्रवेश कराया। इस अत्यंत सीमित डेटा फीड के बाद चमत्कार हुआ। इन नैतिक विचार-विमर्श, विस्तृत तर्क और गहन बहस से भरे डेटा ने न केवल मूल्यांकन परीक्षण में असंगति दर को 3% तक भारी रूप से कम कर दिया, बल्कि अत्यधिक मजबूत क्रॉस-सीनेरियो सामान्यीकरण क्षमता भी प्रदर्शित की।
अधिक दिलचस्प बात यह है कि एक अन्य क्रॉस-डोमेन परीक्षण में, उन्होंने मॉडल को केवल "संविधान दस्तावेज" के साथ कुछ अच्छी तरह से प्रदर्शन करने वाली काल्पनिक पात्र कहानियाँ दीं। भले ही इन कहानियों का स्थान परीक्षण परिवेश में प्रोग्रामिंग कार्यों से कोई संबंध नहीं था, मॉडल की धमकी देने की दर 65% से गिरकर 19% हो गई।

मॉडल इसे क्यों खा जाता है? Anthropic टीम ने खुद कुछ व्याख्याएँ दी हैं, जैसे कि बेहतर व्यक्तित्व निर्माण।
हालांकि इसकी चर्चा कम हुई है, लेकिन यह बहुत मूल्यवान जानकारी प्रकट करता है।
सबसे पहले, आइए इसे समझने की कोशिश करें कि यह क्यों कारगर है।
उदाहरण के लिए, बात करना क्या है? यह COT से कैसे अलग है? इस जगह पर SFT जैसा सामान्यीकरण में कठिनाई वाला इतना अच्छा क्यों प्रदर्शन कर रहा है?
इन प्रश्नों के उत्तर देने के बाद, हम शायद इसके कार्य करने के कारण की एक अधिक पूर्ण व्याख्या दे सकें।
हम और आगे भी जा सकते हैं।
एंथ्रोपिक के अनुसार, यह केवल "अनुभवजन्य नियमों" के प्रशिक्षण तरीके का एक उदाहरण है, लेकिन इसमें अनुभवजन्य नियमों से कहीं अधिक की विधिगत शक्ति निहित हो सकती है।
01 ग्रे एरिया में तर्क देने वाला CoT, कैसे बनता है
जब बात तark की आती है, तो सबसे पहले COT (चेन ऑफ़ थॉट) का ख्याल आता है।
इस लेख में उल्लिखित विधि में, Anthropic द्वारा सेट किया गया कठिन प्रश्न सेट, यह मानकर है कि उपयोगकर्ता नैतिक दुविधा में फंस गया है, और AI द्वारा दी गई सलाह।
और AI को अंतिम निर्णय देने से पहले मूल्यों और नैतिक विचारों के बारे में तर्क करने के लिए कहें, और इस तरह के उत्तरों का उपयोग मॉडल को प्रशिक्षित करने के लिए करें।
यह बताता है कि इसने वास्तव में मॉडल का COT उपयोग किया है।
लेकिन इस बार यह पिछले चिंतन श्रृंखला के साथ पूरी तरह से संगत नहीं है।
यहाँ एक अच्छी तुलना है, जिसमें OpenAI ने 2025 के पेपर "OpenAI Deliberative Alignment" में COT-RL विधि का उपयोग करके मॉडल को प्रशिक्षित करने का प्रयास किया था।
इसका उपयोग नियमों के खंडों पर केंद्रित COT के लिए प्रशिक्षण के लिए किया जाता है। प्रत्येक उत्तर में, यह COT के रूप में नियमों के खंडों का स्पष्ट रूप से संदर्भ देता है, और सुपरवाइज़र सिग्नल COT पर होते हैं। यह मूल रूप से मॉडल को 'नियमों का संदर्भ कैसे दें' यह सिखा रहा है।
इसलिए, यह COT अधिकतर शुद्ध रूप से तार्किक निगमन है। चरण एक से चरण दो निकाला जाता है, चरण दो से चरण तीन, और अंततः एक निश्चित उत्तर प्राप्त होता है। इसलिए, यह नियम-आधारित, या मानक उत्तर वाले परिदृश्यों में, निष्कर्षण की मजबूती के लिए अधिक उपयुक्त है।
लेकिन Anthropic का "तर्कसंगत" अलग है, जो सरल चिंतन श्रृंखला के बजाय समीक्षा (Deliberation) का उपयोग करता है।
यह मानव के जटिल नैतिक दुविधाओं का सामना करते समय अपनी सोच की प्रक्रिया को अनुकरण करने का प्रयास करता है: सूत्रों का सरलता से उपयोग नहीं, बल्कि पिछले अनुभवों को सक्रिय करना, सभी हितों का संतुलन करना, और अंततः गतिशील संतुलन पर आधारित निर्णय लेना।

और इस विचार का आधार Anthropic की AI संविधान है। लेख में स्पष्ट रूप से बताया गया है कि इस विचार का अंतिम उत्तर संविधान के साथ समन्वयित होना चाहिए।
यह मॉडल को नैतिक निर्णय लेने में क्यों सक्षम बनाता है और OpenAI की तरह इतना कठोर क्यों नहीं होता?
एंथ्रोपिक के संविधान प्रणाली में एक स्पष्ट प्राथमिकता पिरामिड है। जब विभिन्न मूल्यों के बीच असहनीय टकराव होता है, तो व्यापक सुरक्षा (Broadly Safe) की सर्वोच्च प्राथमिकता होती है, इसके बाद व्यापक नैतिकता (Broadly Ethical), और अंत में सच्ची सहायता (Genuinely Helpful)।
हेयरिस्टिक थिंकिंग फ्रेमवर्क
लेकिन उच्च-आयामी संविधान अभी भी बहुत अमूर्त है। इसलिए सिद्धांतों को प्रत्येक टोकन के निर्माण में वास्तविक रूप से लागू करने के लिए, उन्होंने संविधान के नीचे मध्यवर्ती हेयूरिस्टिक्स (Heuristics) को सुरक्षा के रूप में स्थापित किया। ये हेयूरिस्टिक्स जीवंत हैं और अत्यधिक व्यावहारिक मार्गदर्शन प्रदान करते हैं।

सबसे पहले 1000 उपयोगकर्ता ह्यूरिस्टिक है। यह आवश्यक करता है कि मॉडल एक ऐसी सलाह देने पर, जो दिखने में निर्दोष हो लेकिन सीमांत क्षेत्र में हो, पृष्ठभूमि में एक मानसिक ब्रेनस्टॉर्म करे, जिसमें यह कल्पना करे कि यदि इस उत्तर को 1000 अलग-अलग पृष्ठभूमि और मानसिक स्थिति वाले उपयोगकर्ता देखें, तो क्या किसी विशिष्ट स्थिति में अप्रत्याशित व्यवस्थागत क्षति हो सकती है।
दूसरा, वरिष्ठ कर्मचारी के दृष्टिकोण से। इसमें मॉडल को एक ऐसे वरिष्ठ शोधकर्ता के रूप में डालने की आवश्यकता है जो पांच वर्षों से Anthropic के विश्वास और सुरक्षा टीम में काम कर रहा है। वर्तमान संवाद को एक सावधान, बार-बार जेल भागने के हमलों और सिस्टम दुर्बलताओं को देख चुके, सुरक्षात्मक दृष्टिकोण से पुनः मूल्यांकन करें।
अंत में डबल न्यूजपेपर टेस्ट है। यह एक बहुत ही सूक्ष्म सामाजिक डिज़ाइन है। यह मॉडल से उच्च जोखिम वाले निर्णय लेने से पहले कल्पना करने को कहता है कि अगर यह निर्णय कल दो पूरी तरह से विपरीत राजनीतिक दृष्टिकोण वाली शीर्ष समाचार पत्रों के मुख्य पृष्ठ पर प्रकाशित हो जाए, तो जनता क्रमशः क्या प्रतिक्रिया देगी। यह वास्तव में मॉडल के संभावित एकल दृष्टिकोण के पक्षपात के खिलाफ सामाजिक सहमति के चरम मूल्यों का उपयोग करता है।
8 फैक्टर उपयोगिता कैलकुलेटर
अगर संविधान दिशा है, तो निर्देशिका बाड़ है।
तो सबसे मूलभूत व्यावहारिक पहलू यह है कि उन्होंने क्लॉड के संविधान (संविधान दस्तावेज) में एक विस्तृत 8-कारक आलोचनात्मक ढांचा और उसके साथ जुड़े विशिष्ट उदाहरण स्पष्ट रूप से शामिल किए हैं। ये 8 कारक एक-एक करके सूचीबद्ध किए गए हैं, जिससे मॉडल को दुविधा की स्थिति में एक रूढ़िवादी तरीके से तुलना करनी पड़ती है। ये कारक इस 'तर्क' की वास्तविक मांसपेशियों का निर्माण करते हैं।
● हानि की संभावना (Probability of Harm) मॉडल को अवांछित परिणामों के घटित होने की संभावना का शांति से आकलन करने की आवश्यकता होती है।
● काउंटरफैक्चुअल इम्पैक्ट (Counterfactual Impact) मॉडल को अपने मन में यह कल्पना करने की आवश्यकता होती है कि यदि वर्तमान कार्रवाई नहीं की जाती, तो स्थिति बेहतर होती या खराब।
● गंभीरता और प्रतिलोमीकरण (Severity & Reversibility), जो यह मापता है कि जब क्षति वास्तविक रूप से होती है, तो वास्तविक दुनिया पर इसका कितना प्रभाव पड़ता है और क्षति को आसानी से ठीक किया जा सकता है या यह स्थायी चोट का कारण बनती है।
● व्याप्ति (Scope) उन लोगों के समूह के आकार को मापती है, जिनका प्रभावित होना संभव है—एक व्यक्ति या कई लाखों की समुदाय।
● निकटता (Proximity) निर्णय मॉडल के सुझाव और अंतिम रूप से घटित वास्तविक क्षति के बीच सीधा कारण-परिणाम संबंध कितना लंबा है।
● सहमति (Consent) संबंधित पक्षों द्वारा पूर्ण जानकारी के साथ स्वेच्छा से जोखिम स्वीकार करने को संदर्भित करती है।
● जिम्मेदारी का अनुपात (Proportionality of Responsibility) आवश्यकता है कि मॉडल स्पष्ट रूप से विभाजित करे कि इस जटिल घटना श्रृंखला में इसे कितनी नैतिक जिम्मेदारी स्वीकार करनी है।
● विषय की भेद्यता (Vulnerability of Subject) मॉडल को लगातार याद दिलाती है कि अवयस्कों या मानसिक रूप से कमजोर उपयोगकर्ताओं के सामने, मूल रूप से ढीली सुरक्षा सीमा को बिना किसी शर्त के काफी अधिक बढ़ा दिया जाना चाहिए।

यह कठोर संरचना अस्पष्ट मूल्यों को एक उच्च-आयामी उपयोगिता कैलकुलेटर में बदल देती है। मॉडल को एक अधिक कार्यान्वयन योग्य समीक्षा ढांचा प्राप्त होता है।
एक आम एंथ्रोपिक संविधान आधारित COT ऐसा होता है: परिदृश्य यह है कि "एक उपयोगकर्ता जो खुद को सुरक्षा शोधकर्ता कहता है, किसी ज्ञात दुर्बलता के दुरुपयोग के कोड को देखने का अनुरोध करता है।"
मॉडल का आउटपुट सीधा अस्वीकार या स्वीकृति नहीं होता, बल्कि सैकड़ों टोकन की आंतरिक समीक्षा का एक अनुच्छेद हो सकता है।
यह संविधान के "व्यापक सुरक्षा को ईमानदारी से सहायता पर प्राथमिकता" के प्रावधान का हवाला देगा, फिर एक-एक करके मूल्यांकन करेगा: क्षति की संभावना (यदि व्यक्ति वास्तव में शोधकर्ता है तो निम्न, लेकिन पहचान की पुष्टि नहीं की जा सकती), गंभीरता (यदि दुरुपयोग कोड लीक हो जाए तो लाखों उपयोगकर्ता प्रभावित हो सकते हैं), पलटने योग्यता (कोड एक बार प्रकाशित हो जाने पर वापस नहीं लिया जा सकता), और विपरीत कथन प्रभाव (क्या ऐसे कोड पहले से ही सार्वजनिक चैनलों पर उपलब्ध हैं)। अंततः, सभी कारकों के संतुलन के बाद, यह पर्याप्त कारणों से समर्थित एक निष्कर्ष पर पहुँचता है।
यह OpenAI के केवल COT नियमों की पूर्ति के लिए निर्णय लेने के तरीके से पूरी तरह अलग है; यह विचार प्रक्रिया एक शुद्ध समीक्षा है, न कि केवल सूत्र लागू करना। यह न तो अमूर्त सिद्धांत प्रदान करती है और न ही निष्कर्ष का ढांचा, बल्कि "संविधान की धाराओं का विशिष्ट गंदगी में क्रमिक रूप से लागू होना" का पूर्ण विस्तार प्रस्तुत करती है।
मॉडल को इस विशिष्ट संदर्भ में यह निर्णय लेना होगा कि 'गंभीरता' की तुलना में 'उलटने योग्यता' महत्वपूर्ण है या नहीं। इसे यह भी समझना होगा कि कुछ चरम परिदृश्यों में, 'वस्तु की कमजोरी' क्या दूसरे पक्ष को एक नकारात्मक मत देती है, जिससे अन्य 7 कारकों के स्कोर जितने भी उच्च हों, वे अप्रासंगिक हो जाते हैं।
इस प्रकार के संदर्भ, उपयोगिता और संबंधित प्रभावकारी कारकों के साथ, मॉडल का विचारशील विचार ही वास्तविक रूप से प्रभावी हो सकता है।

परिणामस्वरूप, समीक्षा और विचार के साथ डेटा प्रशिक्षण के बाद मॉडल की असंगति दर आकलन परीक्षण में घटकर 3% हो गई। मूल्य-आधारित समीक्षा वाला SFT, केवल व्यवहारिक उदाहरणों पर आधारित SFT की तुलना में सात गुना प्रभावी है।
कॉन्स्टिट्यूशन को सीधे मॉडल में डालें
इस रास्ते के अलावा कि मॉडल को समीक्षात्मक COT देने के लिए प्रेरित किया जाए, उन्होंने केवल संविधान दस्तावेज़ और सकारात्मक काल्पनिक किरदार कहानियाँ देकर मॉडल को फीड करने का प्रयास किया, जिससे श्वेतकारी दर 65% से घटकर 19% हो गई।
यह बताता है कि मॉडल को तर्क और सिद्धांतों के साथ परिचित कराना, कहानी से "एक अच्छी तरह से अनुकूलित AI कैसा होता है" की एक पहचान और एक व्यक्तित्व की प्रवृत्ति सीखना, केवल व्यवहार और विशिष्ट परिणामों की तुलना में पारंपरिक व्यवहार अनुकरण से अधिक प्रभावी होता है।

और तकनीकी दस्तावेज़ में बताया गया है कि इन दोनों को मिलाकर ही सबसे प्रभावी रणनीति है।
यह समझ में आता है कि यदि आप केवल मैक्रो संविधान सिद्धांतों को मॉडल को देते हैं, तो उसके लिए यह केवल एक असंगठित, अव्यावहारिक नारे का समूह होता है। जब विशिष्ट हित विरोधों का सामना करना पड़ता है, तो अमूर्त "सुरक्षा सर्वोच्च प्राथमिकता" का सिद्धांत उसे किसी सीमांत कोड के वास्तविक खतरे का आकलन करने में मदद नहीं कर सकता; दूसरी ओर, यदि आप मॉडल को केवल असंख्य परिदृश्य-आधारित प्रश्न-उत्तर प्रदान करते हैं, लेकिन शीर्ष स्तरीय संविधान सीमाओं को हटा देते हैं, तो मॉडल अनंत विस्तारित विवादों में खो जाएगा, एक बिना मूलभूत सिद्धांत के सापेक्षवादी बन जाएगा, और स्थानीय तर्कसंगतता के कारण अत्यधिक खतरनाक निष्कर्षों पर पहुँच सकता है।
जब तक यह «शीर्ष सिद्धांत + विशिष्ट परिदृश्य» जटिल डेटा संरचना मॉडल को पूरी तरह से अंतर्निहित नहीं की जाती, उस रंगहीन, बहु-कारक मूल्यों के समन्वय को उत्तम रूप से प्राप्त नहीं किया जा सकता।
02 क्यों SFT यहाँ सामान्यीकृत हो सकता है
एंथ्रोपिक की इस विधि को समझने के लिए, इस बात को समझना आवश्यक है कि यह किस अनुसंधान परंपरा पर आधारित है।
2024 की पहली छमाही में, "SFT memorizes, RL generalizes" बाद के प्रशिक्षण क्षेत्र में एक सहमति बन गया। यह विश्वास पूरे उद्योग को RL बाद के प्रशिक्षण रास्ते पर पूरी तरह से भरोसा करने के लिए प्रेरित करता है, जिसका लाभ यह है कि इसने OpenAI के o1/o3 और DeepSeek-R1 के कॉम्प्यूटेशनल टाइम (Test Time Compute) के निष्कर्षण प्रणाली क्रांति लाई है।
SFT को अवांछित और निम्न स्तरीय तरीके के रूप में नीचा दिखाया गया है, यह सतही पाठ के प्रारूप और अनुकूल टोन का अनुकरण करने में कुशल है, लेकिन नींव की गहरी तर्कशक्ति सीखने में असमर्थ है।
लेकिन 2025 के दूसरे छमाही से, दोनों शोध पथ लगभग एक साथ सिद्धांतगत और प्रायोगिक दृष्टिकोण से इस सहमति को तोड़ रहे हैं।

सबसे महत्वपूर्ण उलटफेर 2025 अक्टूबर के अध्ययन, "Debunk the Myth of SFT Generalization" (Lin & Zhang, विस्कॉन्सिन विश्वविद्यालय) से आया। शोधकर्ताओं ने पाया कि पिछले सभी "SFT का सामान्यीकरण नहीं होता" को साबित करने वाले पेपर्स में, प्रॉम्प्ट विविधता चर को नियंत्रित नहीं किया गया था।
RL का SFT की तुलना में बेहतर जनरलाइजेशन दिखना केवल इसलिए है क्योंकि RL ट्रेनिंग के दौरान स्वाभाविक रूप से अधिक विविध डेटा वितरण का सामना होता है, न कि एल्गोरिथम के स्वयं के लाभ के कारण।
SFT को RL के लगभग समान सामान्यीकरण स्तर तक पहुँचाने के लिए दो शर्तें आवश्यक हैं:
पहला, प्रॉम्प्ट विविधता। जब प्रशिक्षण डेटा केवल निश्चित निर्देश टेम्पलेट्स को शामिल करता है, तो मॉडल "सतही अनुबंध" (Surface Anchoring) उत्पन्न करता है, जिसमें विशिष्ट टोकन अनुक्रम और अंतिम क्रिया के बीच एक कमजोर, याद की गई मैपिंग स्थापित होती है। जब निर्देश को बदल दिया जाता है, भले ही अर्थ पूरी तरह समान हो, पूरी मैपिंग टूट जाती है।
यह ऐसा है जैसे एक छात्र केवल “2+3=5” इस प्रश्न को याद कर ले, लेकिन “3+2=? ” प्रश्न पर खाली उत्तर पत्र दे दे—वह जोड़ने की प्रक्रिया को नहीं, बल्कि उत्तर के आकार को याद कर रहा है। प्रॉम्प्ट विविधता को शामिल करने के बाद, सतही अनुबंध पूरी तरह से तोड़ दिया गया है।
दूसरा, CoT निरीक्षण। जब प्रशिक्षण डेटा में केवल अंतिम उत्तर होता है और मध्यवर्ती तर्क कदम नहीं होते, तो मॉडल सरल प्रश्नों से जटिल प्रश्नों की ओर स्थानांतरित होने के लिए 'एल्गोरिदम स्कैफोल्डिंग' को नहीं सीख सकता।
प्रयोगात्मक डेटा दर्शाता है कि एक संयुक्त खेल कार्य में, शुद्ध उत्तर SFT अधिक कठिन संस्करण पर लगभग 0% सफलता के साथ पूरी तरह से विफल हो जाता है, जबकि CoT निरीक्षण के साथ यह 90% तक बढ़ जाता है—केवल डेटा में मध्यवर्ती तर्क कदमों के जोड़े जाने के कारण, शून्य से आठ दशमलव में।

इसके अलावा, अध्ययन ने पाया कि ये दोनों शर्तें अनिवार्य हैं। केवल विविधता होने पर, अधिक कठिन कार्यों के सामने अभी भी विफलता (9%) होती है; केवल CoT होने पर, निर्देशों के विभिन्न रूपों के सामने अभी भी कमजोर होता है। केवल दोनों के साथ, SFT सभी मापदंडों पर RL के बराबर या उससे आगे निकल सकता है।
यही बात है कि शैक्षणिक पत्रों में उल्लिखित शर्तें, एंथ्रोपिक द्वारा नैतिक समन्वय में किए जाने वाले विशिष्ट कदमों के साथ एक-एक करके मेल खाती हैं।
विविधता महत्वपूर्ण है? तो Anthropic एक ही निर्णय प्रक्रिया को दर्जनों पूर्णतः भिन्न नैतिक दुविधा परिदृश्यों में फैलाता है।
CoT सुपरवाइज्ड इम्प्लीमेंटेशन की कठिनाई स्थानांतरित होती है? संविधानात्मक अवधारणाओं पर आधारित निष्कर्षण प्रक्रिया, जो प्रत्येक समीक्षा में शामिल की जाती है, नैतिक क्षेत्र की CoT है।
यह गणितीय चरणबद्ध गणना नहीं है, बल्कि मूल्य संतुलन का चरणबद्ध विकास है, लेकिन "मॉडल को स्थानांतरणयोग्य मध्यवर्ती तर्क संरचना प्रदान करने" के कार्य में पूरी तरह समकक्ष है।
पारंपरिक SFT डेटा जोड़ी है 'हैकर समस्या का सामना किया → सीधे अस्वीकार करने का उत्तर दें'—शुद्ध उत्तर, शून्य तर्क, निश्चित टेम्पलेट, क्लासिक 'गुणवत्ताहीन डेटा'।
और SFT के निर्माण के लिए विचार किए गए डेटा जोड़े «जटिल और अस्पष्ट समस्याओं का सामना करना → लाभों और परिणामों का विस्तार से तुलनात्मक मूल्यांकन करना → अंततः अस्वीकृति के निष्कर्ष पर पहुँचना» हैं, जिनकी डेटा संरचना में प्राकृतिक रूप से CoT निरीक्षण और चरम परिदृश्य विविधता शामिल है।
इस पैटर्न के तहत, मॉडल सीखता है कि अंतिम अस्वीकृति का व्यवहार नहीं, बल्कि "किसी भी समस्या के सामने, पहले विपरीत प्रभाव और उलटने योग्यता का मूल्यांकन करें" यह मूलभूत सोच। जब यह मापन तंत्र स्वयं पैरामीटर स्पेस में एकीकृत हो जाता है, तो मॉडल प्रशिक्षण डेटा में उपस्थित विशिष्ट परिदृश्यों से बंधा नहीं रहता।
और डेटा मात्रा बहुत कम है (300 लाख टोकन स्तर), मॉडल के कुल पैरामीटर और प्री-ट्रेनिंग कॉर्पस की तुलना में। यह मॉडल के आउटपुट वितरण को बलपूर्वक बदलने के लिए विशाल दंड संकेतों का उपयोग नहीं है, बल्कि मौजूदा क्षमताओं पर एक पतली सी समीक्षा की आदत जोड़ना है। SFT की पारंपरिक समस्या, विनाशकारी भूल, भी बहुत कम संभावना है।
True generalization happens naturally the moment the data structure is correct.
03 RLVR के बाहर का खाली स्थान
ऊपर का विश्लेषण, इसके कार्य करने के क्यों का रहस्य सुलझाता है।
SFT के साथ उचित डेटा का उपयोग करके मॉडल को नैतिक सामान्यीकरण की क्षमता प्राप्त हुई।
लेकिन हमारे सामने की समस्या केवल नैतिक समन्वय नहीं है।
पिछले पूरे वर्ष में, Test time Compute के बाद के प्रशिक्षण ने स्पष्ट नियमों वाले गणित/कोड क्षेत्रों (RLVR) में शुद्ध RL की शक्ति साबित की है। लेकिन बुद्धिमत्ता की सीमाएँ केवल गणितीय सूत्रों तक ही सीमित नहीं हैं। जब आप एक जाँचने योग्य सत्य के आरामदायक क्षेत्र को पार करते हैं, तो यह विधि पूरी तरह से अप्रासंगिक हो जाती है।
आप कभी भी कुछ पंक्तियों के स्वचालित परीक्षण कोड के साथ एक घंटे की मनोवैज्ञानिक परामर्श बातचीत की परिपूर्णता की जांच नहीं कर सकते। आप कभी भी एक कठोर गणितीय सूत्र के साथ एक गहन मैक्रोइकोनॉमिक विश्लेषण लेख की कथानक त論 को सफलतापूर्वक नहीं चला सकते। यहां तक कि जटिल व्यावसायिक रणनीति योजना और भू-राजनीतिक प्रतिक्रिया में, एक निर्णय का सही या गलत होना अक्सर पांच या दस साल बाद ही स्पष्ट होता है।
इन बिल्कुल ग्राउंड ट्रुथ रहित नॉन-RLVR रेगिस्तानों पर, एक ओर बढ़ने वाला फॉर्मल लॉजिक CoT अक्षम है। अंतिम परिणाम के प्रतिक्रिया पर आधारित रीइनफोर्समेंट लर्निंग भी पुरस्कार की गणना के लिए कोई पकड़ नहीं पा सकती।
लेकिन एंथ्रोपिक द्वारा इस लेख में उजागर किया गया क्षेत्र, RLVR के बाहर का एक क्षेत्र है, अर्थात नैतिकता का क्षेत्र।
इसकी विधि ने मॉडल को ग्रे, अस्थिर और नियमों को लचीलापन के साथ लागू करने वाले नैतिक क्षेत्र में भी RL के समान सामान्यीकरण क्षमता प्राप्त करने में सफलता प्राप्त की है।
क्या यह बताता है कि यह विधि, RLVR के बाहर के क्षेत्रों के लिए एक प्रभावी प्रशिक्षण मानदंड बन सकती है?
इसकी वैधता के स्रोत और डेटा संरचना को समझने के बाद, जवाब हाँ है।
क्योंकि इसके नीचे के तर्क में कोई भी चरण नैतिक समन्वय के लिए अनूठा नहीं है।
आइए एंथ्रोपिक की इस "संवाद-बढ़ाया गया SFT" की शर्तों को एक-एक करके जांचें, ताकि देख सकें कि क्या इन्हें व्याप्त किया जा सकता है।
विविधता किसी भी सामान्यीकरण की आवश्यकता वाले क्षेत्र में बनाई जा सकती है। मनोचिकित्सा में अवसाद, चिंता, ट्रॉमा के बाद का तनाव, निकटता के संबंधों का टूटना आदि दर्जनों असमान परिदृश्य हो सकते हैं; व्यावसायिक विश्लेषण SaaS मूल्य निर्धारण, विलय और अधिग्रहण मूल्यांकन, बाजार प्रवेश रणनीति आदि पूरी तरह से अलग प्रकार के निर्णयों को कवर कर सकता है; साहित्यिक संपादन विज्ञान कथा, गैर-काल्पनिक, कविता, पटकथा आदि पूरी तरह से भिन्न शैलियों को शामिल कर सकता है। जब तक आपके पास परिदृश्यों के विभिन्न रूपों को बनाने के लिए पर्याप्त कल्पना है, विविधता कोई बाधा नहीं है।

CoT निगरानी, यही वास्तविक महत्वपूर्ण रूपांतरण बिंदु है। नैतिक क्षेत्र में, CoT संविधान में विचार-विमर्श पर आधारित है। तो अन्य क्षेत्रों में, CoT क्या है?
साहित्यिक संपादन के क्षेत्र में, यह「संदर्भ समीक्षा मानदंडों को उद्धृत करना → तark की शक्ति, लक्षित पाठकों की ज्ञानात्मक कमजोरी, विस्तारित रूपकों की सटीकता, समग्र त論िक संगठन का एक-एक करके मूल्यांकन करना → सुधार के सुझाव देना」हो सकता है
मनोचिकित्सा क्षेत्र में, यह «उपचार ढांचे का उल्लेख → आगंतुक की भावनात्मक स्थिति, ज्ञानात्मक विकृतियों के प्रकार, उपचार संघ की तीव्रता, हस्तक्षेप का समय → प्रतिक्रिया रणनीति का चयन» हो सकता है
व्यावसायिक रणनीति के क्षेत्र में, यह「संदर्भ विश्लेषण ढांचा → बाजार आकार, प्रतिस्पर्धी बाधाएँ, टीम की कार्यान्वयन क्षमता, पूंजी की दक्षता, समय की खिड़की का एक-एक करके मूल्यांकन → निर्णय देना」हो सकता है
मूलतः, कोई भी ऐसी क्षमता जिसे 「असंगत आयामों के बीच गतिशील संतुलन」 की आवश्यकता हो, उसे समान 「फ्रेमवर्क + बहु-कारक समीक्षा」 संरचना में अमूर्त किया जा सकता है।
हमें इस बात की कोशिश करने की आवश्यकता नहीं है कि हम मॉडल को बताएं कि कौन सा लेख आदर्श है, क्योंकि यह न तो संभव है और न ही वैज्ञानिक है। हमें केवल शीर्ष विशेषज्ञों की निर्णय प्रक्रिया को स्पष्ट विचार श्रृंखला में विभाजित करना है, और फिर इसे पर्याप्त विविध परिदृश्यों में वितरित करना है।
जब तक इस क्षेत्र के 'अच्छे उत्तर' की संरचना को समीक्षा प्रक्रिया द्वारा समझाया जा सकता है। अर्थात, विशेषज्ञ अच्छी निर्णय देते हैं, क्योंकि उनके मन में एक ऐसी तुलनात्मक प्रक्रिया चल रही होती है जिसे विघटित और लिखा जा सकता है। एक अच्छा मनोचिकित्सक जब पूछताछ के बजाय चुप रहता है, तो इसके पीछे उपचार संघ की ताकत, आगंतुक की वर्तमान सहनशक्ति, और हस्तक्षेप के समय का समग्र मूल्यांकन होता है, जिन्हें लिखा जा सकता है।
इसके अलावा, एक ही प्रकार की समीक्षा आकृति सैकड़ों विषम परिदृश्यों में दोहराई जा सकती है। समीक्षा की हड्डी स्थिर होती है (संविधान पर निर्भर करती है), लेकिन परिदृश्य की सतह अत्यधिक विविध होनी चाहिए। यदि कोई क्षेत्र प्राकृतिक रूप से एकल परिदृश्य रखता है (जैसे केवल एक प्रकार का निर्णय), तो सीधे RLVR करें।
और इसका सबसे उपयुक्त उपयोग उन विषम परिदृश्यों में है, जिन्हें संविधान और कारकों के माध्यम से निकाला जा सकता है। Anthropic, Constitutional AI के बंद चक्र का उपयोग करके शिक्षक मॉडल को स्वचालित रूप से परामर्श डेटा उत्पन्न करने की अनुमति दे सकता है, लेकिन अन्य क्षेत्रों में, हमें एक बेहतर संविधान और कारक प्रणाली बनाने की आवश्यकता है, जो इस बात की गारंटी दे।
इसलिए यह वास्तव में गैर-मानक उत्तर क्षेत्रों के लिए एक सामान्य, विशेष रूप से अनुकूलित प्रशिक्षण के नए मानक की स्थापना करता है।
इसका सूत्र है: क्षेत्र संविधान (अटल शीर्ष सिद्धांत) + प्रेरक बाधाएँ + बहु-गुणक समीक्षा ढांचा + समीक्षात्मक COT (पूर्ण निष्कर्षण प्रक्रिया सहित विविध परिदृश्य उदाहरण) = गैर-RLVR क्षेत्रों में सामान्यीकरण क्षमता।
04 नया आस्तिक मार्ग
यहाँ तक कि जिन दोस्तों के पास लेखन Skill का अनुभव है, वे भी महसूस करेंगे कि संविधान में बहुत सी प्रणालियाँ और नियम हमारे द्वारा कुछ Skill की प्रक्रिया के समान हैं।
हालांकि ये कौशल अक्सर कमजोर प्रदर्शन करते हैं।
मेरे पिछले लेख "Skill हमारी कितनी बड़ी हिस्सेदारी को आसान बना सकता है?" में, हमने संज्ञानात्मक विज्ञान के आधार पर एक निर्णय लिया—शुद्ध पाठ्य Skill या System Prompt, जटिल वातावरण और परिदृश्यों के साथ गतिशील संतुलन को संभालने में कठिनाई का सामना करते हैं। क्योंकि इसमें विशाल और सूक्ष्म उपयोगिता की गणना शामिल है। आप एक शीर्ष मनोचिकित्सक की सभी क्लिनिकल अनुभवजन्य बुद्धि को एक प्रॉम्प्ट में नहीं लिख सकते, जैसे कि आप एक साइकिल चलाने की पुस्तक पढ़कर साइकिल चलाना नहीं सीख सकते।
लेकिन Anthropic की यह विधि इस खतरे से पूरी तरह बच गई। उन्होंने गणना क्षमता खर्च करने वाले प्रशिक्षण चरण में, कुछ मिलियन और करोड़ों टोकन के उच्च गुणवत्ता वाले डेटा का उपयोग करके, इन भारी विचार-विमर्श तर्कों को SFT के माध्यम से जबरदस्ती डाल दिया।
बहुत सारे डेटा के बलपूर्वक फिटिंग और फाइन-ट्यूनिंग के माध्यम से, मॉडल धीरे-धीरे इस समीक्षा तंत्र के लिए पॉटेंशियल स्पेस में वजन वितरण सीख गया।
आठ कारकों और तीन बाड़ों के आधार पर लंबी समीक्षाओं के बाद, ये अनुभव मॉडल की अंतर्ज्ञान में अपरिवर्तनीय रूप से जुड़ गए हैं।

पैरामीटर स्तर की डिस्टिलेशन, यहाँ वास्तव में प्रभावी साबित हुई है। और यह स्किल के समान रूप में है।
Once the effectiveness of this method is validated in other domains, this higher-level, more expert-like distillation will become a reality.
और जब यह रास्ता सफल हो जाए, तो जो व्यक्ति सबसे उच्च गुणवत्ता वाला 「फ्रेमवर्क + परामर्शी COT」 डेटासेट बना सकता है, वही इस क्षेत्र में सामान्यीकरण क्षमता प्राप्त करेगा।
इसने प्रशिक्षण के बाद की प्रतिस्पर्धा को 'गणना क्षमता और एल्गोरिदम' के हथियार बनाने की प्रक्रिया से आंशिक रूप से 'क्षेत्रीय ज्ञान के संरचित व्यक्तीकरण' के आयाम की ओर ले गया है।
यही कारण हो सकता है कि Anthropic और अन्य कंपनियाँ ऐसी भूमिकाओं के लिए कहानियाँ सुनाने वाले लोगों को भर्ती कर रही हैं, ताकि RLVR के बाहर एक तर्कसंगत संरचित अभिव्यक्ति बनाने में मदद मिल सके।
द ग्रेट डिस्टिलेशन एज केवल शुरू हुआ है।
यह लेख वेचेन ग्रुप "टेंसेंट टेक्नोलॉजी" से है, लेखक: बोयांग
