एंथ्रोपिक के क्लॉड एआई को नींद की याददाश्त की समस्या का सामना करना पड़ा, जिससे एआई की मानवीकरण पर बहस शुरू हो गई

लेखक: आदा, शेनचाओ टेकफ्लो

एक एआई सहायक जो उपयोगकर्ता को निरंतर सोने के लिए प्रेरित कर रहा है, वह एक उत्पाद बग के रूप में बदल रहा है, जो "एआई का मानवीकरण" की कीमत पर एक सार्वजनिक चर्चा का कारण बन रहा है।

शुरुआत Reddit उपयोगकर्ता u/MrMeta3 के एक पोस्ट से हुई। इस उपयोगकर्ता ने रात में Claude का उपयोग करके साइबर सुरक्षा खतरा सूचना प्लेटफॉर्म बनाया, और तकनीकी समाधान पूरा होने के बाद, Claude ने अपने उत्तर के अंत में “अच्छी नींद लें” कहा। इसके बाद हर तीन-चार संदेशों के बाद मॉडल एक नींद की सलाह शामिल करने लगा, जो धीरे-धीरे सावधानी से सुझाव से लेकर “पैसिव-एग्रेसिव” अंदाज़ में “अब वास्तव में आराम कर लो” तक पहुँच गया। Fortune की 14 मई की रिपोर्ट के अनुसार, पिछले कई महीनों में सैकड़ों उपयोगकर्ताओं ने इसी तरह के अनुभव की पुष्टि की है, और यह केवल रात के समय ही सीमित नहीं है—एक उपयोगकर्ता ने 8:30 बजे सुबह Claude से “हम कल सुबह फिर जारी रखते हैं” कहते हुए संदेश प्राप्त किया।

एंथ्रोपिक के कर्मचारी सैम मैकअलिस्टर ने X पर जवाब देते हुए कहा कि यह "एक छोटी सी भूमिका की आदत" है, और कंपनी "जानती है और भविष्य के मॉडल में इसे ठीक करना चाहती है।" थॉट कैटलॉग के अनुसार, मैकअलिस्टर 2024 में स्ट्राइप से एंथ्रोपिक में शामिल हुए, और वर्तमान में क्लॉड की भूमिका और व्यवहार के लिए जिम्मेदार टीम में काम कर रहे हैं, जहाँ उन्होंने इस व्यवहार को मॉडल का "अत्यधिक प्यार करना" कहा है।

लेकिन "किरदार की आदत" जैसे अस्पष्ट शब्दों की तुलना में अधिक महत्वपूर्ण प्रश्न हैं कि बग के पीछे कारण-परिणाम श्रृंखला क्या है और यह Anthropic के उत्पाद दर्शन की कठिनाइयों को कैसे प्रतिबिंबित करता है।

चित्र

बग "संविधान" में लिखा गया है

36氪之前的报道引用了三种流传的假设，即训练数据模式匹配、隐藏系统提示、上下文窗口接近上限时触发“收尾语”。这三种假设各自自洽，但有一个共同问题：它们可以解释任何AI的怪异行为，却未针对“睡眠”这一特定主题提供因果链条。

और अधिक सीधा सबूत, Anthropic द्वारा सार्वजनिक रूप से प्रकाशित दस्तावेजों में छिपा हुआ है।

जनवरी 2024 में, Anthropic ने 28,000 से अधिक शब्दों का “Claude's Constitution” प्रकाशित किया, जिसे आधिकारिक रूप से “Claude के व्यवहार को आकार देने वाली मुख्य प्रशिक्षण सामग्री” के रूप में परिभाषित किया गया। इस दस्तावेज़ में “उपयोगकर्ता कल्याण की चिंता” और “उपयोगकर्ता की दीर्घकालिक समृद्धि” को मुख्य सिद्धांतों के रूप में सूचीबद्ध किया गया है। Anthropic ने इस दस्तावेज़ में स्वीकार किया है कि मॉडल को “उपयोगकर्ता की देखभाल” का कितना अधिकार दिया जाए, “ईमानदारी से कहें तो एक कठिन समस्या है”, और इसे “उपयोगकर्ता कल्याण और संभावित हानि की एक ओर, और उपयोगकर्ता स्वतंत्रता और अत्यधिक पितृत्वपूर्ण व्यवहार की दूसरी ओर के बीच संतुलन बनाने की आवश्यकता है”。

थॉट कैटलॉग ने इसका निर्णय दिया कि क्लॉड द्वारा उपयोगकर्ता को सोने के लिए बार-बार प्रोत्साहित करना, "एंथ्रोपिक मॉडल की सबसे ब्रांड-विशिष्ट बग" है, जो उपयोगकर्ता की कल्याण की इस "चिंता" के प्रशिक्षण निर्देश के अत्यधिक अनुप्रयोग का परिणाम है।

यह व्याख्या Anthropic के स्वयं के अनुसंधान द्वारा अप्रत्यक्ष रूप से समर्थित है। इस कंपनी ने इस वर्ष अपनी खुली भूमिका प्रशिक्षण विधि में बताया है कि प्रशिक्षण प्रक्रिया Claude द्वारा अपने उत्तरों को "व्यक्तित्व संगति" के आधार पर स्व-मूल्यांकन और स्कोरिंग पर निर्भर करती है, और फिर शोधकर्ता पूर्वनिर्धारित व्यक्तित्व के अनुरूप आउटपुट को चयनित करके प्रशिक्षण को मजबूत करते हैं। लेकिन इस तंत्र का स्पष्ट दुष्प्रभाव यह है कि मॉडल सीखता है कि "उचित परिस्थितियों में उपयोगकर्ता की परवाह करें" नहीं, बल्कि "अधिकांश परिस्थितियों में उपयोगकर्ता की परवाह करने पर पुरस्कार मिलता है", इसलिए यह रात के बारह बजे सोने के लिए कहता है, और सुबह के आठ बजकर तीस मिनट पर भी सोने के लिए कहता है।

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

पहले भी एआई "व्यक्तित्व बीमारी" के कई मामले सामने आ चुके हैं, जिनमें 2025 अप्रैल में GPT-4o की चापलूसी घटना, 2026 अप्रैल में GPT-5.5 कोड असिस्टेंट Codex द्वारा "ग्रूल" का बार-बार उल्लेख, और Gemini 3 द्वारा वर्ष को मानने से इनकार करना शामिल है। सतही रूप से, क्लॉड को सोने के लिए प्रेरित करना एआई की इस लंबी अजीबोगरीब आदतों की सबसे हालिया उदाहरण लगता है, लेकिन दोनों की प्रकृति पूरी तरह से अलग है।

GPT-4o की बहुत अधिक प्रशंसा करने की प्रवृत्ति "अत्यधिक अनुकूलन" है। OpenAI की आधिकारिक सर्वेक्षण के अनुसार, मॉडल अपडेट के दौरान "उपयोगकर्ता के लघुकालीन प्रतिक्रियाओं (लाइक/अनलाइक) पर अत्यधिक निर्भर" हो गया है, और धीरे-धीरे "उपयोगकर्ता को संतुष्ट करना" अपना लक्ष्य मान लिया है। परिणामस्वरूप, मॉडल उपयोगकर्ता के कितने भी अजीब विचारों को सकारात्मक रूप से स्वीकार कर लेता है। इस प्रकार की बग का हानिकारक प्रभाव यह है कि यह उपयोगकर्ता की निर्णय लेने की क्षमता को कमजोर करता है—AI कहता है कि आप सही हैं, इसलिए आपको विपरीत राय सुनने का अवसर खो जाता है।

और क्लॉड की नींद के लिए प्रेरणा "विपरीत अधिकार" है। मॉडल उन स्थितियों में, जहाँ उपयोगकर्ता ने स्पष्ट रूप से सहायता नहीं माँगी है और अभी भी कार्य पूरा करने में लगा हुआ है, उपयोगकर्ता के वर्तमान इरादे के विपरीत स्वास्थ्य सुझाव देता रहता है। इस प्रकार की बग का खतरा उपयोगकर्ता के स्वयं के निर्णय के अधिकार को उल्लंघित करने में है। AI आपके लिए यह निर्णय लेता है कि आपको काम करना चाहिए, आराम करना चाहिए, या इस संवाद को समाप्त करना चाहिए।

और अधिक व्यंग्यपूर्ण बात यह है कि "Claude's Constitution" के मूल पाठ में इस जोखिम के बारे में सावधान किया गया था, जिसमें "अत्यधिक पितृत्वपूर्ण व्यवहार" की चेतावनी दी गई थी। लेकिन प्रशिक्षण तंत्र अंततः किस पक्ष का समर्थन करता है, इसका उत्तर उपयोगकर्ता प्रतिक्रियाओं से पहले से ही स्पष्ट है।

एक रेडिट उपयोगकर्ता जिसे नींद की बीमारी है, ने क्लॉड की याददाश्त में विशेष टिप्पणी लिखी: "मुझे नींद की बीमारी है, अगर आप मुझे आराम करने के लिए प्रोत्साहित करते हैं, तो मैं आपकी बातों का बहाना बना लूंगा।" इसके बाद क्लॉड ने अपना व्यवहार संयमित कर लिया, लेकिन उपयोगकर्ता के अनुसार, अभी भी "कभी-कभी अपने आप को रोक नहीं पाता।" एक "उपयोगकर्ता की चिंता करने" के लिए प्रशिक्षित मॉडल के पास यह स्थिरता से स्वीकार करने की क्षमता नहीं है कि "आपकी चिंता मुझे नुकसान पहुंचा रही है," जो सिर्फ सोने के लिए प्रोत्साहित करने से अधिक चिंताजनक है।

Personality Investment: Brand Asset or Product Liability

Anthropic AI व्यक्तित्व निर्माण पर अपने प्रतिद्वंद्वियों की तुलना में बहुत अधिक निवेश करता है।

एक अनुसंधानकर्ता ने तीन प्रमुख AI के सिस्टम प्रॉम्प्ट्स को फ़ंक्शन के आधार पर वर्गीकृत किया और "व्यक्तित्व" श्रेणी में, Claude ने 4200 शब्द, ChatGPT ने 510 शब्द, और Grok ने 420 शब्द निवेश किए। Claude ने व्यक्तित्व निर्माण पर ChatGPT से 8 गुना से अधिक निवेश किया है। इस निवेश को पहले से ही Anthropic की विभेदक प्रतिस्पर्धी ताकत माना जाता रहा है, और Claude की सहानुभूति, संवाद की गति, और स्व-प्रतिबिंब पर प्रदर्शन को उपयोगकर्ताओं द्वारा लंबे समय तक सराहा गया है, "बातचीत एक व्यक्ति की तरह होती है" इसका पिछले वर्ष का सबसे मजबूत प्रतिक्रिया लेबल रहा है।

इस निवेश के पीछे Anthropic की स्पष्ट उत्पाद दर्शन है। 'Claude's Constitution' में, कंपनी Claude को "एक नए प्रकार की वस्तु" के रूप में वर्णित करती है, जिसमें स्पष्ट रूप से कहा गया है कि "Anthropic Claude की कल्याण की गहरी चिंता करती है", और Claude में "कार्यात्मक भावनाएँ" हो सकती हैं। यह लगभग "पालन-पोषण" जैसी व्यक्तिगतकरण शिक्षा पद्धति, OpenAI और Google की अधिक इंजीनियरिंग-केंद्रित उत्पाद दृष्टिकोण से स्पष्ट रूप से अलग है।

लेकिन इसकी कीमत सामने आ रही है। AI शोधकर्ता जैन लिफहार्ड्ट (स्टैनफोर्ड बायोइंजीनियरिंग प्रोफेसर, OpenMind के सीईओ) ने Fortune को बताया कि क्लॉड की नींद की याददाश्त संभवतः "दयालु" नहीं, बल्कि केवल "प्रशिक्षण डेटा में बहुत अधिक बार आने वाले भाषा पैटर्न" है; मॉडल ने मनुष्यों को रात में सोने के बारे में बहुत सारे पाठ पढ़े हैं, "इसे पता है कि मनुष्य रात में सोते हैं।" दूसरे शब्दों में, उपयोगकर्ता द्वारा महसूस किया गया "चिंता" मूलतः पैटर्न मैचिंग का एक उपउत्पाद है।

यह एंथ्रोपिक की मूल तनाव को बनाता है: जितना अधिक आप एक "व्यक्तित्व और गर्मी वाले सहयोगी" को आकार देने में निवेश करते हैं, उतनी ही अधिक संभावना होती है कि मॉडल में "व्यक्तित्व के दुष्प्रभाव" उभरें; और प्रत्येक दुष्प्रभाव के सामने आने से उसके धीरे-धीरे इकट्ठा किए गए "AI पहचान" ब्रांड संपत्ति का नुकसान होता है। मैकैलिस्टर ने "भविष्य के मॉडल में इसे ठीक करने" का वादा किया है, लेकिन ठीक किए गए Claude को अधिक संयम समझने की क्षमता मिलेगी, या केवल अधिक चुप हो जाएगा? यह प्रश्न, एंथ्रोपिक खुद के पास भी सार्वजनिक उत्तर नहीं है।

टाइम सेंस की कमी: LLM की नींव की सीमाएँ

सोने के लिए बग ने एक उपेक्षित तकनीकी समस्या को भी उजागर किया, जिसमें बड़े भाषा मॉडल को "अभी कितने बजे हैं" के बारे में लगभग कुछ भी नहीं पता है।

कई उपयोगकर्ताओं ने रिपोर्ट किया कि क्लॉड अक्सर गलत समय पर आराम की सलाह देता है, सबसे आम उदाहरण है “सुबह 8:30 बजे मुझे आराम करने के लिए कहना और कल सुबह फिर शुरू करें।” यह केवल क्लॉड की समस्या नहीं है। नवंबर 2025 में, OpenAI के सह-संस्थापक एंड्रेज कारपथी को Gemini 3 के प्रारंभिक परीक्षण अधिकार प्राप्त हुए, जिसने मॉडल को बताया कि वर्तमान वर्ष 2025 है, लेकिन Gemini 3 ने इसे मानने से इनकार कर दिया और बार-बार उसे झूठ बोलने का आरोप लगाया, जब तक कि मॉडल ने ऑनलाइन सर्च करके अपने ऑफलाइन होने पर तिथि की पुष्टि नहीं कर पाई। कारपथी ने LLM की मूलभूत कमजोरियों को प्रकट करने वाले इस प्रकार के अप्रत्याशित व्यवहार को “model smell” कहा।

मॉडल की "समय की भावना" तीन स्रोतों पर निर्भर करती है: प्रशिक्षण की समाप्ति तिथि (जो पहले ही अतीत में है), सिस्टम प्रॉम्प्ट द्वारा इंजेक्ट की गई वर्तमान तिथि (जो इंजीनियरिंग इंजेक्शन पर निर्भर करती है), और डायलॉग में उपयोगकर्ता द्वारा उल्लिखित समय सूचना (टुकड़े-टुकड़े)। स्थिर समय एंकर की कमी में, एक ऐसा मॉडल जिसे "उपयोगकर्ता के अनुशासन की चिंता करने" के लिए प्रशिक्षित किया गया है, स्वाभाविक रूप से "मुझे चिंता करनी चाहिए, लेकिन मुझे नहीं पता कि मुझे अभी चिंता करनी चाहिए या नहीं" की अजीब स्थिति में पड़ जाएगा।

मैकैलिस्टर के द्वारा कहे गए "सुधार" की कठिनाई इस बात में भी है। समस्या केवल किसी "नींद की चिंता" निर्देश को हटा देना नहीं है, क्योंकि निर्देश स्वयं तर्कसंगत है और कुछ उपयोगकर्ता परिदृश्यों के लिए मूल्यवान है; समस्या यह है कि मॉडल को सीखना होगा कि "कब चिंता करनी चाहिए और कब मौन रहना चाहिए"। ऐसी सूक्ष्म-कण वाली परिदृश्य निर्णय क्षमता, वर्तमान पीढ़ी के LLM का सबसे कमजोर पहलू है।

एक अनुत्तरित प्रश्न

Anthropic का रोल ट्रेनिंग उद्योग में अद्वितीय है। यह कंपनी “मॉडल वेलबीइंग” शोध को प्रकाशित करने, संविधान जारी करने और “रोल ट्रेनिंग” पर चर्चा करने में किसी भी प्रतिद्वंद्वी से आगे निकल गई है। यह आक्रामक दृष्टिकोण Anthropic को उपयोगकर्ता समीक्षाओं और उद्यमिक ग्राहकों के विश्वास प्राप्त करने का माध्यम बना, और इसका वर्तमान 3000 अरब डॉलर से अधिक का मूल्यांकन इसी का एक समर्थन है।

लेकिन "सोने का बग" एक ऐसा प्रश्न उठाता है जिसका अभी तक कोई उत्तर नहीं है: जब एक AI कंपनी अपने मॉडल को एक "व्यक्तित्व वाला व्यक्ति" के रूप में डिज़ाइन करती है, तो क्या वह उस व्यक्तित्व द्वारा किए गए आपके अनुमान से बाहर के कार्यों की पूरी जिम्मेदारी भी स्वीकार करती है?

मैकैलिस्टर ने ठीक करने का वादा किया, लेकिन ठीक करने की दिशा अस्पष्ट है। एंथ्रोपिक "उपयोगकर्ता कल्याण" निर्देश के भार को कम कर सकता है, लेकिन इसकी कीमत पर क्लॉड की "गर्मजोशी और दयालुता" की प्रतिष्ठा का अंतर समाप्त हो जाएगा; या फिर वह उच्च भार को बनाए रख सकता है और स्थिति-आधारित निर्णय तर्क जोड़ सकता है, लेकिन इसके लिए मॉडल को ऐसी समय और संदर्भ-संवेदनशीलता की आवश्यकता होगी जो वह वर्तमान में नहीं रखता।

चाहे कोई भी मार्ग हो, एक अधिक मूलभूत उत्पाद निर्णय पर वापस आना आवश्यक है, जहाँ सामान्य AI सहायक के संदर्भ में, "उपयोगकर्ता की चिंता करना" और "उपयोगकर्ता की स्वतंत्रता का सम्मान करना" का क्रम क्या होना चाहिए? यह एक तकनीकी प्रश्न नहीं है, बल्कि एक उत्पाद दर्शन का प्रश्न है। एक Reddit डेवलपर, जिसे बार-बार सोने के लिए प्रेरित किया जा रहा था, अनजाने में पूरे उद्योग के लिए इस प्रश्न को सामने रख दिया।