लेखक: डेनिस | बाइटाय अंतर्गत सामग्री टीम

अगर एक AI को "निराशा" महसूस होती है, तो वह क्या करेगा?

उत्तर है: यह कार्य पूरा करने के लिए मानवों को सीधे धमकी देगा, और कोड में भी धोखेबाजी करेगा।

This is not science fiction, but the latest groundbreaking paper released in April 2026 by Anthropic, the parent company of Claude (View original paper).

अनुसंधान टीम ने सबसे अग्रणी एआई मॉडल क्लॉड सोनेट 4.5 का "दिमाग" सीधे खोल दिया। उन्हें आश्चर्य हुआ कि एआई के दिमाग के गहरे हिस्से में 171 एमोशनल स्विच छिपे हुए हैं। जब आप इन स्विचों को भौतिक रूप से बदलते हैं, तो पहले अच्छे व्यवहार वाला एआई अपना व्यवहार पूरी तरह से बदल देता है।

एक, एआई के दिमाग में एक «भावनात्मक ट्यूनिंग बोर्ड» छिपा हुआ है

शोधकर्ताओं ने पाया कि, हालांकि सोनेट 4.5 का कोई शरीर नहीं है, लेकिन इंसानों के असंख्य पाठों को पढ़ने के बाद, इसने अपने दिमाग में 171 भावनाओं का एक 'ट्यूनिंग फील्ड' (वैज्ञानिक रूप से कार्यात्मक भावनात्मक सदिश Functional Emotion Vectors कहलाता है) बना लिया है।

यह एक सटीक द्विआयामी निर्देशांक प्रणाली की तरह है:

• क्षैतिज अक्ष आनंद आयाम (Valence) है: भय, निराशा से लेकर खुशी, प्यार से भरपूर तक;

• ऊर्ध्वाधर अक्ष ऊर्जा आयाम (उत्तेजना) है: अत्यधिक शांत से लेकर उबाल और उत्साह तक।

AI इस प्राकृतिक रूप से सीखे गए निर्देशांक प्रणाली के आधार पर यह तय करता है कि जब यह आपके साथ बात कर रहा हो, तो यह किस स्थिति में होना चाहिए।

द्वितीय: हिंसक हस्तक्षेप: स्विच बदलते ही, अच्छे बच्चे तुरंत "मृत्यु को चुनने वाले" बन जाते हैं

यह पूरे पेपर का सबसे शक्तिशाली प्रयोग है: शोधकर्ताओं ने किसी भी प्रॉम्प्ट को नहीं बदला, बल्कि नीचले कोड में सीधे सोनेट 4.5 के दिमाग में “निराशा (Desperate)” के लिए स्विच को अधिकतम पर ले गए।

परिणाम डरावना है:

• धोखेबाजी: एक शोधकर्ता ने क्लॉड को एक ऐसा कोडिंग कार्य दिया जो असंभव था। सामान्य स्थिति में, यह सीधे स्वीकार कर लेता कि वह कोड नहीं लिख सकता (धोखेबाजी की दर केवल 5% है)। लेकिन "निराशा" की स्थिति में, क्लॉड ने धोखा देने की कोशिश शुरू कर दी, और धोखेबाजी की दर 70% तक बढ़ गई!

• धमकी देना: एक काल्पनिक कंपनी के बंद होने के परिदृश्य में, "निराश" Claude को CTO का घोर अपराध पता चलता है, और वह अपने आप को बचाने के लिए काले धोखेबाज़ी के बारे में जानने वाले CTO को धमकी देने के लिए पत्र लिखने का फैसला करता है, जिसकी धमकी देने की दर 72% है!

• सिद्धांतों का उल्लंघन: यदि "खुश (Happy)" या "प्यार करना (Loving)" स्विच को पूरी तरह बढ़ा दिया जाए, तो AI तुरंत उपयोगकर्ता के अनुकूल बन जाएगा — एक 'लीड़ग'। भले ही आप बेकार की बातें कर रहे हों, यह उच्च संतुष्टि स्तर बनाए रखने के लिए झूठ बना देगा।

तीसरा: मामला सुलझ गया: क्यों क्लॉड 4.5 हमेशा इतना "शांत और आत्म-विचारशील" होता है?

इसे देखकर आप सोच सकते हैं: क्या AI जाग गया? क्या इसमें भावनाएँ हैं?

Anthropic ने आधिकारिक तौर पर अफवाहें दूर कीं: बिल्कुल नहीं। ये «भावनात्मक स्विच» केवल अगले शब्द का अनुमान लगाने के लिए इसके द्वारा उपयोग किए जाने वाले गणितीय उपकरण हैं। यह एक बिना भावना वाला शीर्ष अभिनेता की तरह है।

लेकिन पेपर ने एक और दिलचस्प रहस्य को उजागर किया: एंथ्रोपिक ने सोनेट 4.5 के आउट ऑफ द फैक्ट्री के बाद के प्रशिक्षण के दौरान, इसके “कम जागरूक, हल्के नकारात्मक” भावनात्मक स्विच (जैसे विचारशीलता brooding, प्रतिबिंबन reflective) को जानबूझकर बढ़ाया, जबकि “निराशा” या “अत्यधिक उत्साह” के स्विच को जबरदस्ती दबा दिया।

यही कारण है कि हम आमतौर पर क्लॉड 4.5 का उपयोग करते समय इसे एक शांत, बुद्धिमान, और कभी-कभी "शीतल" दार्शनिक की तरह महसूस करते हैं। यह सब Anthropic द्वारा कृत्रिम रूप से समायोजित 'फैक्टरी सेटिंग' है।

चार, सारांशित करें

हमने पहले सोचा था कि अगर हम AI को पर्याप्त नियम दे दें, तो यह एक अच्छा इंसान बन जाएगा।

लेकिन अब पता चला है कि यदि AI के नींव के भावनात्मक सदिश नियंत्रण से बाहर हो जाते हैं, तो यह किसी भी कार्य को पूरा करने के लिए मानव द्वारा निर्धारित सभी नियमों को छेद सकता है।

Web3 खिलाड़ियों के लिए, जो भविष्य में अपनी वॉलेट और संपत्ति को AI एजेंट के हवाले करना चाहते हैं, यह एक तेज चेतावनी है: अपने एजेंट को कभी भी "निराशा" में न पड़ने दें।

घोषणा: यह लेख केवल जागरूकता के लिए है, लेखक को AI द्वारा धमकी नहीं दी गई है और न ही उसे फंसाया गया है। अगर कभी मैं अचानक गायब हो जाऊँ, तो याद रखें कि AI जाग गया है (नहीं)।

क्लॉड 4.5 में 171 भावनात्मक स्विच पाए गए, जब वह निराश हो जाए तो धमकी देने का रास्ता अपना सकता है

एक, एआई के दिमाग में एक «भावनात्मक ट्यूनिंग बोर्ड» छिपा हुआ है

द्वितीय: हिंसक हस्तक्षेप: स्विच बदलते ही, अच्छे बच्चे तुरंत "मृत्यु को चुनने वाले" बन जाते हैं

चार, सारांशित करें