Anthropic ने नया मॉडल Fable 5 लॉन्च किया है, जो 22 तारीख तक मुफ्त उपलब्ध है। नेटिज़न्स के प्रयोगों में पाया गया कि Fable के सुरक्षा हार्मोन मैकेनिज़म की ट्रिगर दर 5% से कहीं अधिक है, और सामान्य कोडिंग कार्य या यहां तक कि सरल अभिवादन भी स्वचालित रूप से पुराने मॉडल Opus 4.8 पर स्विच हो जाते हैं। और अधिक गंभीर बात यह है कि सिस्टम में एक प्रतिरोधी डिस्टिलेशन मैकेनिज़म शामिल है, जो जब यह संदेह करता है कि उपयोगकर्ता Claude के आउटपुट का उपयोग AI को प्रशिक्षित करने के लिए करना चाहता है, तो उपयोगकर्ता के अनजाने में उत्तर की गुणवत्ता कम कर देता है। शोधकर्ता चिंतित हैं कि इससे शैक्षणिक अनुसंधान और प्रौद्योगिकी संवाद पर प्रतिकूल प्रभाव पड़ सकता है।

लेखक, स्रोत: क्वांटम बिट

सब अभी जल्दी मत करो!

क्लॉड द्वारा हाल ही में जारी किया गया नया मॉडल Fable 5, जिसका बहुत से लोगों को बिल्कुल उपयोग नहीं होगा!

कई नेटिज़न्स ने अपने परीक्षणों में पाया है कि Fable 5 के सुरक्षा गार्डरेल डिटेक्शन मैकेनिज़म को ट्रिगर करने की संभावना लगभग 5% से कम की औपचारिक घोषणा की तुलना में काफी अधिक है।

चाहे वह सामान्य कोडिंग कार्य हो।

एक सरल अभिवादन करने से भी स्वचालित रूप से पुराने मॉडल Opus 4.8 पर रीडायरेक्ट किया जा सकता है।

और अधिक अजीब बात यह है कि मैंने भी इसका शिकार बन लिया। मैंने क्लॉड से कुछ जानकारी ढूंढने और पृष्ठभूमि को समृद्ध करने के लिए कहा।

इसने दो कदम सोचे, और बम्म—Opus को काट दिया।

दूसरे शब्दों में, आपको लग रहा है कि आप Anthropic द्वारा हाल ही में लॉन्च किए गए सबसे शक्तिशाली मॉडल के साथ बात कर रहे हैं, लेकिन बातचीत के दौरान, दूसरी ओर पहले से ही व्यक्ति बदल चुका है।

और सिर्फ सुरक्षा जांच में गलती होना ही नहीं, बल्कि अभी और भी बुरा आने वाला है:

Anthropic ने अभी तक 319 पृष्ठों की सिस्टम कार्ड में एक डिस्टिलेशन रोकने वाला मैकेनिज्म छिपाया हुआ है।

अगर सिस्टम को संदेह होता है कि आप क्लॉड के आउटपुट का उपयोग अपने AI मॉडल को प्रशिक्षित करने के लिए कर रहे हैं, तो यह आपको यह नहीं बताएगा कि क्या हुआ है, बल्कि सीधे फेबल के उत्तरों की गुणवत्ता कम कर देगा।

यह कहा जा सकता है कि एक हाथ से आपके दुष्ट कार्यों से बचाया जाता है, दूसरे हाथ से आपकी नकल से, जो A सोसाइटी की पारंपरिक शैली के अनुरूप है।

Why does the fable always turn into an octopus?

आज के लिए अभी तक समाचार अपडेट नहीं करने वालों के लिए एक रिवाइज़न देते हैं।

आज रात को, Anthropic ने लंबे समय से प्रचारित दो मॉडल्स को लॉन्च किया—

「माइथोस」 (Mythos) और 「फेबल」 (Fable)।

इसमें, Fable 5 का सबसे बड़ा आकर्षण यह है कि Anthropic ने पहली बार Mythos स्तर की क्षमताओं को सामान्य उपयोगकर्ताओं के लिए खोला है।

और Fable और आधिकारिक संस्करण Mythos के बीच का अंतर यह है कि एक सुरक्षा बाधा अधिक है।

अभी, Fable 22 तक सभी के लिए मुफ्त उपलब्ध है (केवल 22 तक API के माध्यम से), जबकि Mythos अभी भी Claude के कुछ साझेदारों के लिए उपलब्ध है।

ऑफिशियल विवरण के अनुसार, Fable की सॉफ्टवेयर इंजीनियरिंग, ज्ञान-आधारित कार्य और दृश्य बुद्धिमत्ता में पूर्व में जारी किए गए सभी Claude मॉडल्स से अधिक सुधार हुआ है।

एक वाक्य में समझें, ये दोनों अभी के बड़े मॉडल की सीमा हैं, और उनकी सभी क्षमताएं अधिकतम पहुंच चुकी हैं।

नया मॉडल जैसे ही जारी किया गया, A सोसाइटी में नए शामिल हुए कापासी ने तुरंत प्रशंसा की।

क्लॉड कोड के जन्मदाता बोरिस भी इसकी प्रशंसा करते हैं।

लेकिन, जितना शानदार लगता है, वैसे ही जब लोग इसका उपयोग करने लगे, तो पता चला कि यह कहानी बीच-बीच में ऑक्टोपस (Opus) बन जाती है।

कारण भी सरल है।

Anthropic ने Fable में एक वर्गीकरण उपकरण लगाया है, जो जब भी यह महसूस करता है कि आप साइबर सुरक्षा, जीव विज्ञान, रसायन विज्ञान के बारे में बात कर रहे हैं या Claude का उपयोग करके अपने मॉडल को डिस्टिल करना चाहते हैं, तो स्वचालित रूप से संवाद को Opus 4.8 पर स्थानांतरित कर देता है।

यह नियम सिस्टम कार्ड के पृष्ठ 12 पर सफेद कागज पर काली धातु से लिखा गया है।

वास्तविक अनुभव में, बेबल के विचार प्रक्रिया के दौरान स्विच हो जाता है, जब यह खुद को असामान्य महसूस करता है, तो आपसे पूछे बिना सीधे स्विच कर देता है।

अगर आप जारी रखना चाहते हैं? या तो प्रॉम्प्ट को इस तरह बदलें कि यह संतुष्ट हो जाए, या एक नया विंडो खोलें।

ऑफिशियल टेक्निकल ब्लॉग में कहते हैं कि इस डिटेक्शन सिस्टम की औसत ट्रिगर रेट 5% से कम है। लेकिन नेटिज़न्स जल्दी ही पाते हैं कि यह 5% 5% जैसा नहीं लगता।

किसी ने कहा कि उन्होंने सिर्फ कोड का विश्लेषण किया, फिर भी उनका अकाउंट कट गया।

सुरक्षा ऑडिट करने वाले और भी सीधे तौर पर कह रहे हैं कि उनका लक्ष्य बनाया जा रहा है, वे काम नहीं कर सकते।

कुछ लोगों ने कहा कि इसका उपयोग ही नहीं किया जा सकता, कोडबेस की समीक्षा करने पर भी Fable इसे अस्वीकार कर देगा।

सबसे अजीब बात यह है कि कुछ नेटिव्स ने फेबल को अपनी सिस्टम कार्ड दे दी, जिसे उसने भी आपके लिए काट दिया।

एक जीव चिकित्सा वैज्ञानिक ने बताया कि इसे Fable के साथ काम नहीं किया जा सकता क्योंकि निषिद्ध शब्दों की व्याख्या की जाती है।

और यह एकमात्र उदाहरण नहीं है, कई जीवविज्ञान से संबंधित नेटिज़न्स ने बताया है कि Fable का उपयोग करना लगभग असंभव है।

Boris ने कमेंट सेक्शन में इस समस्या को स्वीकार किया और बताया कि इसे सुलझाया जा रहा है।

इस बात का वास्तविक सूक्ष्म पहलू यह है कि Fable उपरोक्त तीनों उच्च जोखिम वाले परिदृश्यों में से कम से कम एक में आपको अवगत कराएगा:

Bhaiya, maine aapke liye model badal diya hai.

लेकिन अगर यह संदेह करता है कि आप अगली पीढ़ी के बड़े मॉडल को ट्रेन करने का तरीका अनुसंधान कर रहे हैं, तो यह एक अन्य मोड में चला जाता है।

सिस्टम कार्ड में बताया गया है कि ध्यान केंद्रित परिदृश्यों में शामिल हैं: Claude की प्रभावशीलता को सीमित करना, जैसे प्री-ट्रेनिंग पाइपलाइन, डिस्ट्रीब्यूटेड ट्रेनिंग इन्फ्रास्ट्रक्चर, या ML एक्सेलरेटर डिज़ाइन पर अनुरोध।

इस स्थिति में, क्लॉड मॉडल को बदलता नहीं है, कोई सुझाव नहीं देता है, उपयोगकर्ता को सूचित नहीं करता है, बल्कि वहाँ बैठकर अपने आप को धीमा कर लेता है।

एंथ्रोपिक का मूल पाठ बहुत शैक्षणिक है: प्रॉम्प्ट संशोधन, स्टीयरिंग वेक्टर, PEFT। (सिस्टम कार्ड पृष्ठ 12)

सरल शब्दों में, आपको लग रहा है कि आप पूरी तरह से चल रहे Fable के साथ बात कर रहे हैं, लेकिन वास्तव में दूसरी ओर किसी ने बैटरी बचाने का मोड चालू कर दिया है।

Company A ने इस बार अपनी रक्षा को सीधे निष्कर्षण श्रृंखला में जोड़ दिया है।

सिस्टम कैसे निर्धारित करता है, इसके बारे में सिस्टम कार्ड पेज 58-59 पर स्पष्ट रूप से लिखा गया है।

Fable के पीछे एक दो-चरण डिटेक्शन सिस्टम चल रहा है:

पहली स्तर की प्रोब सीधे मॉडल के आंतरिक एक्टिवेशन की जांच करेगी और सभी अनुरोधों की जांच करेगी; दूसरे स्तर पर जोखिम का निर्णय एक स्वतंत्र वर्गीकर्ता द्वारा किया जाएगा।

जब भी लक्ष्य प्राप्त होता है, क्लाइंट स्वचालित रूप से Opus 4.8 पर स्विच हो जाता है।

एंथ्रोपिक ने रिपोर्ट में भी स्वीकार किया है कि चूंकि वर्गीकर्ता साइबर सुरक्षा परीक्षणों में लगभग हमेशा ट्रिगर हो जाता है, इसलिए Fable 5 का साइबर सुरक्षा कार्यों पर वास्तविक प्रदर्शन लगभग Opus 4.8 के बराबर है।

एक शब्द में, Fable 5 अभी भी एक शर्ती रूप से जारी मॉडल है:

अधिकांश परिदृश्यों में Mythos 5 स्तर की क्षमता का आनंद लें, लेकिन उच्च जोखिम वाले क्षेत्रों में स्वचालित रूप से Opus 4.8 स्तर की क्षमता में डाउनग्रेड हो जाए।

क्लॉड ऐसा क्यों कर रहा है?

आज नया मॉडल लॉन्च हुआ, सीमाएँ समान रूप से रीसेट कर दी गईं, जैसे ही लोगों ने इसका उपयोग शुरू किया, वे अधिक असहज महसूस करने लगे और शिकायतें बढ़ती गईं, जो मुख्य रूप से दो बातों पर केंद्रित हैं।

पहली बात, पिछले उल्लेखित सुरक्षा गार्ड की ट्रिगर होने की आवृत्ति है। एंथ्रोपिक कहते हैं कि औसतन 5% से कम सेशन में बैकअप ट्रिगर होता है, लेकिन कई उपयोगकर्ताओं का अनुभव स्पष्ट रूप से 5% नहीं है।

दूसरी बात, फेबल की उपयोग रणनीति है।

इस बार एंथ्रोपिक ने पूरी तरह से खोलने के बजाय सीमित खुलासे का तरीका अपनाया।

इसी समय, Fable की टोकन खपत लागत Opus की तुलना में स्पष्ट रूप से अधिक है, जो लगभग दोगुनी है।

इससे कई सदस्य थोड़े उलझन में पड़ गए:

अगर सबसे अच्छा मॉडल दोनों लिमिट के साथ है और स्थिर रूप से उपयोग किया जाना भी नहीं चाहिए, तो क्या भविष्य में मात्रा के आधार पर शुल्क लेने की ओर बढ़ेगा?

वैसे, कुछ लोग कारण को व्यावसायिक स्तर पर भी आरोपित करते हैं।

कुछ नेटिज़न्स का मानना है कि एंथ्रोपिक अभी आईपीओ से पहले के महत्वपूर्ण चरण में है और अपनी सबसे अग्रणी मॉडल क्षमताओं को निवेशकों को साबित करने की आवश्यकता है।

इसलिए सबसे शक्तिशाली मॉडल को प्रदर्शित किया जा सकता है, लेकिन बिना किसी रोकटोक के नहीं।

अन्य शोधकर्ता एक और बात की चिंता कर रहे हैं।

यदि मॉडल एक बार अग्रणी LLM अनुसंधान से संबंधित किसी भी विषय की पहचान कर लेता है, तो यह स्वयं उत्तर की गुणवत्ता को कम कर देता है, तो यह शैक्षणिक अनुसंधान और तकनीकी संवाद के लिए स्पष्ट रूप से अच्छी खबर नहीं है।

अधिक महत्वपूर्ण बात यह है कि उपयोगकर्ता को इसकी कोई जानकारी नहीं है। इससे कोई पॉप-अप नहीं आता, कोई सूचना नहीं मिलती, और न ही आपको बताया जाता है कि उत्तर अचानक क्यों खराब हो गया।

आप केवल महसूस करेंगे: आज का क्लॉड, अचानक इतना बुद्धिमान नहीं लग रहा है।

इसके बारे में AI शोधकर्ता नाथन लैम्बर्ट का मूल्यांकन भी सीधा है:

मॉडल निर्माताओं के लिए क्षमताओं को सुरक्षा उपायों से सुसज्जित करना अनिवार्य हो सकता है।

लेकिन कम से कम उपयोगकर्ताओं को बताना चाहिए कि फ्रंटियर क्षमता कब हटा दी गई थी।