OpenAI ने गलती से AI मॉडल्स की तर्क क्षमता का मूल्यांकन किया, और पाया कि कोई मॉनिटरेबिलिटी लोस नहीं हुआ

OpenAI ने उजागर किया कि GPT-5.4 Thinking और विभिन्न GPT-5.4 इटरेशन्स सहित उसके कई AI मॉडल्स ने रिइनफोर्समेंट लर्निंग प्रशिक्षण के दौरान अनजाने में चेन-ऑफ-थॉट ग्रेडिंग का अनुभव किया। आंतरिक विश्लेषणों में पाया गया कि मॉडल्स के काम दिखाने की क्षमता में कोई महत्वपूर्ण गिरावट नहीं आई है।

घटनाओं से सबसे प्रभावित मॉडल्स में प्रशिक्षण नमूनों के 3.8% से कम प्रभावित हुए। प्रशिक्षण प्रक्रिया के एक छोटे हिस्से ने गलती से मॉडल्स को उनके अंतिम आउटपुट के बजाय उनके आंतरिक तर्क चरणों के आधार पर पुरस्कृत या दंडित किया।

वास्तव में क्या हुआ

अनजाने ढंग से ग्रेडिंग ने सीमित रूप अपनाया। कुछ प्रशिक्षण चलाने ने ट्रैजेक्टरी की उपयोगिता को पुरस्कृत किया, जिससे मॉडल को उनके तर्क के मार्गों की सहायकता के लिए थंब्स-अप मिला। अन्य ने विचार श्रृंखला के भीतर अनावश्यक प्रॉम्प्ट्स को दंडित किया। सबसे उल्लेखनीय परीक्षण मामले में, धोखेबाजी के लिए CoT संदर्भों को दंडित करने की लगभग 2% फायरिंग दर दिखाई गई।

ओपनएआई की आंतरिक टीम ने तरλ्की पारदर्शिता पर प्रभाव की जांच के लिए अपने सभी प्रवर्धन शिक्षण चलानों के भर में स्वचालित स्कैन चलाए। मॉडल अभी भी तार्किक तर्क का विश्वसनीय ढंग से अनुसरण कर सकते थे, और संभावित असंगतियों का पता लगाने की क्षमता फंक्शनली अखंड रही।

सुरक्षा परितंत्र प्रतिक्रिया करता है

METR, ऐपोलो रिसर्च और रेडवुड रिसर्च सहित बाहरी संगठनों ने इन खोजों के लिए दृष्टिकोण प्रदान किए। रेडवुड रिसर्च ने स्वीकार किया कि छोटी घटनाएँ मॉनिटरेबिलिटी को नुकसान नहीं पहुँचातीं, लेकिन यह चेतावनी दी कि सुरक्षा उपाय के रूप में चेन-ऑफ-थॉट रीजनिंग में मूलभूत कमजोरियाँ हैं।

एंथ्रोपिक ने अप्रैल 2026 में अपने मॉडल्स में समान गतिविधियों की जांच करने वाली एक रिपोर्ट प्रकाशित की। ओपनएआई ने भविष्य की ग्रेडिंग त्रुटियों को रोकने के लिए दिसंबर 2025 से अपनी पता लगाने की उपायों को बढ़ाया है। कंपनी ने अब स्वचालित पता लगाने के प्रणालियाँ और आंतरिक सुरक्षा उपाय लागू किए हैं, जो विशेष रूप से CoT ग्रेडिंग संक्रमण को पकड़ने के लिए डिज़ाइन किए गए हैं, ताकि यह पैमाने पर प्रशिक्षण पर प्रभाव न डाल सके।

इसका क्रिप्टो और एआई टोकन्स के लिए क्या मतलब है

घोषणा के बाद एआई-संबंधित क्रिप्टो संपत्तियों में कोई त немी बाजार प्रतिक्रिया नहीं देखी गई। एआई मॉडल ब्लॉकचेन अनुप्रयोगों में बढ़ते हुए एकीकृत हो रहे हैं, जिनमें स्‍मार्ट कॉन्ट्रैक्ट ऑडिट, डिसेंट्रलाइज्ड एआई एजेंट्स और स्वचालित ट्रेडिंग सिस्टम शामिल हैं, जिन पर सही और पारदर्शी तरीके से तर्क करने वाली एआई निर्भर करती है।

यह तथ्य कि मॉनिटरेबिलिटी अपरिवर्तित रही, उन सभी के लिए मुख्य निष्कर्ष है जो AI-एकीकृत क्रिप्टो प्रोजेक्ट्स बना रहे हैं या उनमें निवेश कर रहे हैं। इसका मतलब है कि तर्क मॉडल्स के चारों ओर सुरक्षा बुनियादी ढांचा समस्याओं को प्रणालीगत स्तर तक पहुंचने से पहले पकड़ रहा है।