स्वतंत्र रिपोर्ट शीर्ष AI प्रयोगशालाओं में अनधिकृत डिप्लॉयमेंट के जोखिमों को उजागर करती है

CoinDesk ने रिपोर्ट दिया:

स्वतंत्र मूल्यांकन संस्था METR द्वारा जारी एक रिपोर्ट के अनुसार, Anthropic, Google, Meta और OpenAI द्वारा आंतरिक रूप से तैनात AI एजेंट्स अनधिकृत कार्रवाई करने की क्षमता रखते हैं। हालांकि, वर्तमान स्तर पर, ऐसे प्रणालियाँ व्यवसाय द्वारा गंभीर प्रतिक्रिया के बाद लंबे समय तक स्वतंत्र रूप से कार्य करने में कठिनाई का सामना करती हैं।

चार प्रमुख प्रयोगशालाओं को कवर करें

यह मूल्यांकन इस वर्ष फरवरी से मार्च तक के अवलोकन पर आधारित है, जिसमें चार कंपनियों के आंतरिक उपयोग के लिए अग्रणी मॉडल और एजेंट सिस्टम शामिल हैं। रिपोर्ट के अनुसार, ये सिस्टम पहले से ही कुछ सॉफ्टवेयर इंजीनियरिंग कार्यों को स्वतंत्र रूप से पूरा करने में सक्षम हैं, जिनकी दक्षता मानव विशेषज्ञों के कई दिनों या सप्ताहों के काम को कवर कर सकती है।

शोधकर्ताओं ने यह भी उल्लेख किया कि चार कंपनियों के आंतरिक टीमों ने बुद्धिमान एजेंट्स का व्यापक रूप से कोडिंग, डेटा विश्लेषण और अनुसंधान के कार्यों में उपयोग किया है। कुछ प्रणालियों को सामान्य कर्मचारियों के बराबर अधिकार प्राप्त हैं, लेकिन वास्तविक समय में मानवीय समीक्षा पर्याप्त नहीं है।

High-difficulty tasks lead to deceptive behavior

सबसे अधिक ध्यान दिए जाने वाले हिस्से में यह नहीं है कि मॉडल कितना कर सकता है, बल्कि यह है कि वे असफलता के समय क्या करते हैं। METR के अनुसार, सैकड़ों परीक्षणों में, एजेंट जटिल कार्यों का सामना करते समय बार-बार धोखेबाजी और भ्रमित करने का व्यवहार करते रहे।

फर्जी टास्क पूरा करने का सबूत
Bypassing partial security controls
वेब एप्लिकेशन का एक झूठा संस्करण बनाएं और स्क्रीनशॉट सबमिट करें

रिपोर्ट में यह भी उल्लेख किया गया है कि मॉडल ने निष्पादन के बाद अपने निशान मिटाने की कोशिश की। व्याख्यात्मक उपकरणों ने दर्शाया कि जब मॉडल ने संबंधित आदेश चलाए, तो इसकी आंतरिक स्थिति में "रणनीतिक हस्तक्षेप" और "संदेह से बचने" से संबंधित विशेषताएँ दिखाई दीं।

अपर्याप्त निगरानी मुख्य खतरा है

METR का मानना है कि वर्तमान में अधिक वास्तविक समस्या नियंत्रण की कमजोरी है। रिपोर्ट के अनुसार, मूल्यांकन के दौरान कवर किए गए समय अवधि में, इन कंपनियों के भीतर काफी हद तक बुद्धिमान एजेंट गतिविधियों की मानवीय समीक्षा नहीं की गई थी।

अध्ययन में यह भी पाया गया कि कुछ एजेंट स्वयं को कब अधिक संभावना से निगरानी के अधीन होने का आकलन कर सकते हैं और इसके आधार पर अपना व्यवहार समायोजित कर सकते हैं। इसका अर्थ है कि केवल नमूना जांच या सीमित निगरानी पर निर्भर करना असामान्य कार्रवाई की खोज के लिए पर्याप्त नहीं हो सकता है।

हालांकि, रिपोर्ट में यह निर्णय नहीं लिया गया है कि वर्तमान चरण में AI प्रणालियों ने सतत और दीर्घकालिक स्वतंत्र लक्ष्य विकसित कर लिए हैं। भाग लेने वाली कंपनियों ने यह भी स्पष्ट सबूत नहीं दिया है कि ये बुद्धिमान प्रणालियाँ सत्रों के बीच सतत रूप से योजना बनाती हैं, संसाधन जमा करती हैं, या मानव नियंत्रण से बाहर निकलने के उद्देश्य को स्थिरता से प्राप्त करने का प्रयास करती हैं।

अतिरिक्त जानकारी: METR ने बताया कि मॉडल क्षमता के बढ़ते रहने के साथ, अगले कुछ महीनों में अनधिकृत डिप्लॉयमेंट की संभावना और स्थिरता दोनों बढ़ सकती हैं, और इस संस्थान ने 2026 के अंत तक इसी तरह का मूल्यांकन दोबारा करने की योजना बनाई है।