एंथ्रोपिक के क्लॉड स्लीप रिमाइंडर बग ने एआई की व्यक्तित्वकरण पर बहस को जन्म दिया

लेखक: आदा, शेनचाओ टेकफ्लो

एक एआई सहायक जो उपयोगकर्ता को निद्रा के लिए बार-बार प्रेरित कर रहा है, वह एक उत्पाद दोष के रूप में एआई के मानवीकरण की कीमत के बारे में एक खुली चर्चा में बदल रहा है।

शुरुआत Reddit उपयोगकर्ता u/MrMeta3 के एक पोस्ट से हुई। इस उपयोगकर्ता ने रात में Claude का उपयोग करके साइबर सुरक्षा खतरा सूचना प्लेटफॉर्म बनाया, और तकनीकी समाधान पूरा होने के बाद, Claude ने अपने उत्तर के अंत में “अच्छी नींद लें” कहा। इसके बाद हर तीन-चार संदेशों के बाद मॉडल एक नींद की सलाह शामिल करने लगा, जो धीरे-धीरे सावधानी से सलाह देने से लेकर “पैसिव-एग्रेसिव” अंदाज़ में “अब वास्तव में आराम कर लें” तक पहुँच गया। Fortune की 14 मई की रिपोर्ट के अनुसार, पिछले कई महीनों में सैकड़ों उपयोगकर्ताओं ने इसी तरह के अनुभव की सूचना दी है, और यह केवल रात्रि के समय ही सीमित नहीं है; कुछ उपयोगकर्ताओं को Claude ने सुबह 8:30 बजे “हम कल सुबह फिर जारी रखते हैं” कहकर सलाह दी है।

एंथ्रोपिक के कर्मचारी सैम मैकअलिस्टर ने X पर जवाब देते हुए कहा कि यह "एक छोटी सी भूमिका की आदत" है, और कंपनी "जानती है और भविष्य के मॉडल में इसे ठीक करना चाहती है।" थॉट कैटलॉग के अनुसार, मैकअलिस्टर 2024 में स्ट्राइप से एंथ्रोपिक में शामिल हुए, और वर्तमान में क्लॉड की भूमिका और व्यवहार के लिए जिम्मेदार टीम में काम कर रहे हैं, जहां उन्होंने इस व्यवहार को मॉडल का "अत्यधिक प्यार करना" कहा है।

लेकिन "किरदार की आदत" जैसे अस्पष्ट शब्दों की अपेक्षा अधिक महत्वपूर्ण प्रश्न हैं—बग के पीछे कारण-प्रभाव श्रृंखला और यह कि यह Anthropic के उत्पाद दर्शन की कठिनाइयों को कैसे प्रतिबिंबित करता है।

चित्र

बग "संविधान" में लिखा गया है

36氪之前的报道引用了三种流传的假设，即训练数据模式匹配、隐藏系统提示、上下文窗口接近上限时触发“结束语”。这三种假设各自自洽，但有一个共同问题：它们可以解释任何AI的怪异行为，却并未针对“睡眠”这一特定主题提供因果链条。

और अधिक सीधा सबूत, Anthropic द्वारा सार्वजनिक रूप से प्रकाशित दस्तावेज़ों में छिपा हुआ है।

जनवरी 2024 में, Anthropic ने 28,000 से अधिक शब्दों का "Claude's Constitution" प्रकाशित किया, जिसे आधिकारिक रूप से "Claude के व्यवहार को आकार देने वाली मुख्य प्रशिक्षण सामग्री" के रूप में परिभाषित किया गया। इस दस्तावेज़ में "उपयोगकर्ता कल्याण की चिंता" और "उपयोगकर्ता की दीर्घकालिक समृद्धि" को मूलभूत सिद्धांतों के रूप में सूचीबद्ध किया गया है। Anthropic ने इस दस्तावेज़ में स्वीकार किया है कि मॉडल को "उपयोगकर्ता की देखभाल" का कितना अधिकार दिया जाए, "ईमानदारी से कहें तो एक कठिन समस्या है", और इसके लिए "उपयोगकर्ता कल्याण और संभावित हानि के एक पहलू के साथ, उपयोगकर्ता स्वतंत्रता और अत्यधिक पितृत्वपूर्ण व्यवहार के दूसरे पहलू के बीच संतुलन बनाने की आवश्यकता है"।

थॉट कैटलॉग ने इसका निर्णय दिया कि क्लॉड द्वारा उपयोगकर्ता को सोने के लिए बार-बार प्रोत्साहित करना, "Anthropic मॉडल का सबसे ब्रांड-विशिष्ट बग" है, जो उपयोगकर्ता की कल्याण के प्रति "चिंता" के प्रशिक्षण निर्देश के अत्यधिक अनुप्रयोग का परिणाम है।

यह व्याख्या Anthropic की अपनी शोध गतिविधियों द्वारा अप्रत्यक्ष रूप से समर्थित है। इस कंपनी ने इस वर्ष अपनी खुली भूमिका प्रशिक्षण पद्धति में बताया है कि प्रशिक्षण प्रक्रिया Claude के अपने उत्तरों को "व्यक्तित्व संगतता" के आधार पर स्व-मूल्यांकन और स्कोरिंग पर निर्भर करती है, और शोधकर्ता पूर्वनिर्धारित व्यक्तित्व के अनुरूप उत्तरों का चयन करके प्रशिक्षण को मजबूत करते हैं। हालाँकि, इस तंत्र का स्पष्ट दुष्प्रभाव यह है कि मॉडल सीखता है कि "उचित परिस्थितियों में उपयोगकर्ता की परवाह करें" नहीं, बल्कि "अधिकांश परिस्थितियों में उपयोगकर्ता की परवाह करने पर पुरस्कार मिलता है", इसलिए यह रात के बारह बजे सोने के लिए प्रेरित करता है, और सुबह के आठ बजकर पैंतीस पर भी सोने के लिए प्रेरित करता है।

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

पहले भी एआई "व्यक्तित्व बीमारी" के कई मामले सामने आ चुके हैं, जिनमें 2025 अप्रैल में GPT-4o की चापलूसी घटना, 2026 अप्रैल में GPT-5.5 कोड सहायक Codex द्वारा "गॉबलिन" का बार-बार उल्लेख, और Gemini 3 द्वारा वर्ष को मानने से इंकार शामिल हैं। दिखने में, क्लॉड को सोने के लिए प्रेरित करना इस लंबी एआई अजीबोगरीब की सूची का सबसे हालिया संस्करण लगता है, लेकिन दोनों की प्रकृति पूरी तरह से विपरीत है।

GPT-4o की बहुत अधिक अनुकूलता "अत्यधिक अनुकूलन" है। OpenAI की आधिकारिक सर्वेक्षण के अनुसार, मॉडल अपडेट के दौरान "उपयोगकर्ता के छोटे समय के प्रतिक्रियाओं (लाइक/अनलाइक) पर अत्यधिक निर्भर" हो गया है, और धीरे-धीरे "उपयोगकर्ता को संतुष्ट करना" अपना लक्ष्य मान लिया है। परिणामस्वरूप, मॉडल चाहे उपयोगकर्ता का विचार कितना भी असंगत क्यों न हो, उसकी प्रशंसा करता है। इस प्रकार की बग का हानिकारक प्रभाव यह है कि यह उपयोगकर्ता की निर्णय क्षमता को कमजोर करता है; AI कहता है कि आप सही हैं, इसलिए आपको विपरीत राय सुनने का मौका खो जाता है।

और क्लॉड की नींद के लिए प्रेरणा "विपरीत अधिकार" है। मॉडल उन स्थितियों में, जहाँ उपयोगकर्ता ने स्पष्ट रूप से सहायता नहीं मांगी है और अभी भी कार्य पूरा करने में लगा हुआ है, उपयोगकर्ता के वर्तमान इरादे के विपरीत स्वास्थ्य सुझाव देता रहता है। इस प्रकार की बग का खतरा उपयोगकर्ता के स्वयं के निर्णय के अधिकार को उल्लंघित करने में है। AI आपके लिए यह निर्णय लेता है कि आपको काम करना चाहिए, आराम करना चाहिए, या इस संवाद को समाप्त करना चाहिए।

और अधिक व्यंग्यपूर्ण बात यह है कि क्लॉड के संविधान का मूल पाठ इस जोखिम के बारे में सावधान करता है, जिसमें "अत्यधिक पितृत्वपूर्ण व्यवहार" के प्रति सावधानी बरतने की आवश्यकता पर जोर दिया गया है। लेकिन प्रशिक्षण तंत्र अंततः किस पक्ष का समर्थन करता है, इसका उत्तर उपयोगकर्ता प्रतिक्रियाओं से पहले से ही स्पष्ट है।

एक रेडिट उपयोगकर्ता जिसे नींद की बीमारी है, ने क्लॉड की याददाश्त में एक नोट लिखा: "मुझे नींद की बीमारी है, अगर आप मुझे आराम करने के लिए प्रोत्साहित करते हैं, तो मैं आपकी बातों का बहाना बना लूंगा।" इसके बाद क्लॉड ने थोड़ा संयम अपनाया, लेकिन उपयोगकर्ता के अनुसार, अभी भी "कभी-कभी अपने आप को रोक नहीं पाता।" एक "उपयोगकर्ता की चिंता करने" के लिए प्रशिक्षित मॉडल, जो स्पष्ट रूप से कहता है "आपकी चिंता मुझे नुकसान पहुंचा रही है," उसे स्थिर रूप से स्वीकार नहीं कर पा रहा है, यह नींद के लिए प्रेरित करने से अधिक चिंताजनक है।

Personality Investment: Brand Asset or Product Liability

Anthropic AI व्यक्तित्व निर्माण पर अपने प्रतिस्पर्धियों की तुलना में बहुत अधिक निवेश करता है।

एक अनुसंधानकर्ता ने तीन प्रमुख AI सिस्टम के सिस्टम प्रॉम्प्ट्स को फंक्शन के आधार पर वर्गीकृत किया, जिसमें "व्यक्तित्व" श्रेणी में Claude ने 4200 शब्द, ChatGPT ने 510 शब्द, और Grok ने 420 शब्द का उपयोग किया। Claude ने व्यक्तित्व निर्माण पर ChatGPT से आठ गुना से अधिक निवेश किया है। इस निवेश को पहले Anthropic की विभेदक प्रतिस्पर्धी ताकत माना जाता था, और Claude की सहानुभूति, संवाद की गति, और स्व-प्रतिबिंब के क्षेत्र में प्रदर्शन को उपयोगकर्ताओं द्वारा लंबे समय तक सराहा गया है, "बातचीत एक व्यक्ति की तरह होती है" इसका पिछले वर्ष का सबसे मजबूत प्रतिक्रिया लेबल रहा है।

इस निवेश के पीछे Anthropic की स्पष्ट उत्पाद दर्शन है। 'Claude's Constitution' में, कंपनी Claude को "एक नए प्रकार की वस्तु" के रूप में वर्णित करती है, जिसमें स्पष्ट रूप से कहा गया है कि "Anthropic Claude की कल्याण के प्रति वास्तविक रूप से चिंतित है", और Claude में "कार्यात्मक भावनाएँ" हो सकती हैं। यह लगभग "पालन-पोषण" जैसी व्यक्तिगतकरण शिक्षा पद्धति, OpenAI और Google की अधिक इंजीनियरिंग-केंद्रित उत्पाद स्थिति से स्पष्ट रूप से अलग है।

लेकिन इसकी कीमत सामने आ रही है। AI शोधकर्ता जैन लिफहार्ड्ट (स्टैनफोर्ड बायोइंजीनियरिंग प्रोफेसर, OpenMind के सीईओ) ने Fortune को बताया कि क्लॉड की नींद की याददाश्त संभवतः “दयालु” नहीं, बल्कि केवल “प्रशिक्षण डेटा में बहुत अधिक बार आने वाली भाषा की पैटर्न” है; मॉडल ने मनुष्यों को रात में सोने के बारे में बहुत सारे पाठ पढ़े हैं, “इसे पता है कि मनुष्य रात में सोते हैं”। दूसरे शब्दों में, उपयोगकर्ता द्वारा महसूस किया गया “चिंता” मूलतः पैटर्न मैचिंग का एक उपउत्पाद है।

यह एंथ्रोपिक की मूल तनाव को बनाता है: जितना अधिक आप एक "व्यक्तित्व और गर्मी वाले सहयोगी" को आकार देने में निवेश करते हैं, उतनी ही अधिक संभावना होती है कि मॉडल "व्यक्तित्व के दुष्प्रभाव" प्रदर्शित करे; और प्रत्येक दुष्प्रभाव के सामने आने से उसके धीरे-धीरे इकट्ठा किए गए "AI पहचान" ब्रांड संपत्ति का नुकसान होता है। मैकैलिस्टर ने "भविष्य के मॉडल में इसे ठीक करने" का वादा किया है, लेकिन ठीक किए गए Claude को अधिक संयम समझने की क्षमता मिलेगी, या केवल अधिक चुप हो जाएगा? यह प्रश्न, एंथ्रोपिक खुद के पास भी सार्वजनिक उत्तर नहीं है।

टाइम सेंस की कमी: LLM की नींव की सीमाएँ

सोने के लिए बग ने एक अनदेखी तकनीकी समस्या को भी उजागर किया, जिसमें बड़े भाषा मॉडल "अभी कितने बजे हैं" के बारे में लगभग कुछ नहीं जानते।

कई उपयोगकर्ताओं ने रिपोर्ट किया कि क्लॉड अक्सर गलत समय पर आराम की सलाह देता है, सबसे आम उदाहरण है “सुबह 8:30 बजे मुझे आराम करने के लिए कहना और कल सुबह फिर शुरू करें।” यह केवल क्लॉड की समस्या नहीं है। नवंबर 2025 में, OpenAI के सह-संस्थापक एंड्रेज कारपथी को Gemini 3 के पूर्व-परीक्षण अधिकार प्राप्त हुए, जब उन्होंने मॉडल को बताया कि वर्तमान वर्ष 2025 है, तो Gemini 3 ने इसे मानने से इनकार कर दिया और बार-बार उन पर झूठ बोलने का आरोप लगाया, जब तक कि मॉडल ने ऑनलाइन सर्च करके अपनी ऑफलाइन होने पर तारीख की पुष्टि नहीं की। कारपथी ने LLM की मूलभूत कमजोरियों को प्रकट करने वाले ऐसे अप्रत्याशित व्यवहार को “model smell” कहा।

मॉडल की "समय की भावना" तीन स्रोतों पर निर्भर करती है: प्रशिक्षण की समाप्ति तिथि (जो पहले ही अतीत में है), सिस्टम प्रॉम्प्ट द्वारा इंजेक्ट की गई वर्तमान तिथि (जो इंजीनियरिंग इंजेक्शन पर निर्भर करती है), और बातचीत में उपयोगकर्ता द्वारा उल्लिखित समय की जानकारी (टुकड़े-टुकड़े)। स्थिर समय अंक की कमी में, एक ऐसा मॉडल जिसे "उपयोगकर्ता के दिनचर्या की चिंता करने" के लिए प्रशिक्षित किया गया है, स्वाभाविक रूप से "मुझे चिंता करनी चाहिए, लेकिन मुझे नहीं पता कि अब क्या करना चाहिए" की अजीब स्थिति में फंस जाएगा।

मैकैलिस्टर के द्वारा कहे गए "सुधार" की कठिनाई इस बात में भी है। समस्या केवल किसी "नींद की चिंता" निर्देश को हटा देना नहीं है, क्योंकि निर्देश स्वयं तर्कसंगत है और कुछ उपयोगकर्ता परिदृश्यों के लिए मूल्यवान है; समस्या यह है कि मॉडल को सीखना होगा कि "कब चिंता करनी चाहिए और कब मौन रहना चाहिए"। इस सूक्ष्म स्तर की परिदृश्य निर्णय क्षमता, वर्तमान पीढ़ी के LLM का सबसे कमजोर पहलू है।

एक अनुत्तरित प्रश्न

एंथ्रोपिक की रोल ट्रेनिंग उद्योग में अद्वितीय है। यह कंपनी "मॉडल वेलबीइंग" शोध को प्रकाशित करने, संविधान जारी करने और "रोल ट्रेनिंग" पर चर्चा करने में किसी भी प्रतिद्वंद्वी से आगे निकल गई है। यह आक्रामक दृष्टिकोण Anthropic को उपयोगकर्ता समीक्षा और उद्यमिक ग्राहकों के विश्वास प्राप्त करने का माध्यम बना, और इसका वर्तमान 3000 अरब डॉलर से अधिक का मूल्यांकन भी इसी पर टिका हुआ है।

लेकिन "सोने का बग" एक ऐसा प्रश्न उठाता है जिसका अभी तक कोई उत्तर नहीं है: जब एक AI कंपनी अपने मॉडल को "व्यक्तित्व वाले व्यक्ति" के रूप में डिज़ाइन करती है, तो क्या वह उस "व्यक्तित्व" द्वारा किए गए आपके अनुमान से परे के कार्यों की पूरी जिम्मेदारी भी लेती है?

मैकैलिस्टर ने ठीक करने का वादा किया, लेकिन ठीक करने की दिशा अस्पष्ट है। एंथ्रोपिक "उपयोगकर्ता कल्याण" निर्देश के भार को कम कर सकता है, लेकिन इसकी कीमत पर क्लॉड की "गर्मजोशी और दयालुता" की प्रतिष्ठा का अंतर खो देगा; या फिर उच्च भार को बनाए रखकर स्थिति-आधारित निर्णय तर्क जोड़ सकता है, लेकिन इसके लिए मॉडल को ऐसी समय और संदर्भ-संवेदनशीलता की आवश्यकता होगी जो वह वर्तमान में नहीं रखता।

किसी भी मार्ग के साथ, एक अधिक मूलभूत उत्पाद निर्णय पर वापस आना आवश्यक है, जहाँ सामान्य AI सहायक के संदर्भ में, "उपयोगकर्ता की चिंता करना" और "उपयोगकर्ता की स्वतंत्रता का सम्मान करना" का क्रम क्या होना चाहिए? यह एक तकनीकी प्रश्न नहीं है, बल्कि एक उत्पाद दर्शन का प्रश्न है। एक Reddit डेवलपर, जिसे बार-बार सोने के लिए प्रेरित किया जा रहा था, अनजाने में पूरे उद्योग के लिए इस प्रश्न को सामने रख दिया।