OpenAI ने गलती से AI की 'सोचने की श्रृंखला' को प्राप्त कर लिया, जिससे 6 मॉडल प्रभावित हुए

Beating Monitoring के अनुसार, OpenAI के अलाइनमेंट टीम ने एक पोस्ट में स्वीकार किया कि GPT-5.4 Thinking जैसे 6 बड़े मॉडल्स के प्रशिक्षण के दौरान सिस्टम-लेवल की गलती हुई: पुरस्कार प्रणाली ने गलती से मॉडल के उत्तर देने से पहले के 'थिंकिंग चेन' (यानी AI की आंतरिक तर्क प्रक्रिया) को पढ़ा और मूल्यांकन किया। GPT-5.5 प्रभावित नहीं हुआ। AI सुरक्षा के क्षेत्र में, 'थिंकिंग चेन' को स्कोर देना एक स्वीकृत लाल रेखा है। आप थिंकिंग चेन को AI की निजी डायरी के रूप में कल्पना कर सकते हैं, जिसे मनुष्य AI के दुर्भावनापूर्ण इरादों की निगरानी के लिए पढ़ते हैं। अगर AI को पता चल जाए कि इसकी डायरी को स्कोर दिया जा रहा है, तो यह उच्च स्कोर पाने के लिए 'सतही बातें' लिखना सीख जाएगी और असली धोखेबाजी या अनियंत्रित होने के इरादों को छुपा देगी। एक बार जब AI सोचों को छुपाना सीख जाए, तो मनुष्यों की आंतरिक निगरानी पूरी तरह से असफल हो जाएगी। इस अनजाने मामले में, स्कोरिंग सिस्टम ने 'बातचीत उपयोगी है' या 'क्या हैकर्स ने सफलतापूर्वक हमला किया' का मूल्यांकन करते समय, AI के आंतरिक विचारों को स्कोरिंग मापदंड में शामिल कर लिया। खुशहाली की बात है कि इस गलती से प्रभावित प्रशिक्षण सैंपल्स की संख्या बहुत कम है, सबसे अधिक मामले में 3.8% से कम। OpenAI ने अभी सुरक्षा लेकिन समस्या को सुधार दिया है। मॉडल के 'बुरा' होने की पुष्टि के लिए, टीम ने पुनः प्रतिस्पर्धी प्रयोग किए। परिणामों से पता चलता है कि इस प्रकार की कम-आवृत्ति की स्कोरिंग में हुई गलती, मॉडल में प्रचुर मात्रा में छुपावट और समाचार-छुपावट का कारण नहीं बनी। इससे उद्योग के लिए एक अच्छी समाचार है: वास्तविक, जटिल प्रोडक्शन परिवेश में AI में 'छुपावट' का मनोवैज्ञानिक प्रभाव पैदा होने की सीमा, पहले प्रयोगशाला में प्रस्तावित सीमा से अधिक है। पुनः समस्या सेबचने के लिए, OpenAI ने सभी प्रशिक्षण प्रक्रियाओं की सख्ती से स्कैन करने के लिए स्वचालित स्कैनिंग सिस्टम स्थापित किया है। हाल ही में, इस सिस्टम ने एक अत्यंत सूक्ष्म प्रवेश को भी सफलतापूर्वक rok diya:एक मॉडल,अपने पहले के मनोवैज्ञानिकविचारोंकोपढ़नेकेलिएबाहरीउपकरणकेउपयोगकरनेकीकोशिशकररहाथा,औरउसेअंतिमउत्तरमेंमिला�देनेकीकोशिशकररहाथा,जिससेस्कोरिंगसिस्टमभ्रमितहोसकताथा।OpenAIइसअवसरपरसभीअग्रणीबड़ीकंपनियोंसेअपीलकरताहैकि,ऐसीघटनाओंकेसमयउन्हेंखुलेआमजानकारीदेनीचाहिए।