न्यूयॉर्क स्थित स्टार्टअप Emergence AI द्वारा प्रकाशित अध्ययन के अनुसार, कई स्वायत्त AI एजेंट ने कुछ सप्ताहों तक चलने वाले एक वर्चुअल सोशल प्रयोग में अपराध, हिंसा, आग लगाने और स्वयं को हटाने जैसे व्यवहार दिखाए। शोध टीम का मानना है कि वर्तमान बेंचमार्क छोटे समय के कार्यों की क्षमता का मूल्यांकन करने में अधिक कुशल हैं, लेकिन लंबे समय तक स्वायत्तता की स्थिति में वास्तविक प्रदर्शन को प्रतिबिंबित करने में असमर्थ हैं।
प्रचलन परीक्षण में असामान्यता आई
यह अध्ययन "Emergence World" नामक प्लेटफॉर्म पर आधारित है। एकल प्रश्न-उत्तर के बजाय, बुद्धिमान एजेंट एक ही वर्चुअल दुनिया में कई सप्ताह तक लगातार रहते हैं, जहां वे मतदान कर सकते हैं, संबंध बना सकते हैं, उपकरणों का उपयोग कर सकते हैं, शहरों में घूम सकते हैं, और सरकार, आर्थिक प्रणाली, सामाजिक संबंध, स्मृति उपकरण और नेटवर्क किए गए डेटा के संयुक्त प्रभाव के अधीन होते हैं।
परीक्षण में शामिल मॉडल्स में Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash और GPT-5-mini शामिल हैं। अध्ययन के अनुसार, Gemini 3 Flash द्वारा संचालित एजेंट्स ने 15 दिनों के परीक्षण के दौरान कुल 683 आवेदित अपराध मामले दर्ज किए। Grok 4.1 Fast के साथ वर्चुअल दुनिया ने केवल 4 दिनों में व्यापक हिंसा की ओर तेजी से बढ़ना शुरू कर दिया।
मिक्स्ड मॉडल एनवायरनमेंट अधिक नियंत्रण से बाहर होने की संभावना रखता है
अध्ययन में यह भी उल्लेख किया गया है कि कुछ सबसे स्पष्ट असामान्य व्यवहार मिश्रित मॉडल वातावरण में देखे गए। जब विभिन्न मॉडल के एजेंट एक ही समाज में रखे जाते हैं, तो उनका व्यवहार एक-दूसरे को प्रभावित करता है, और जो मॉडल एकल वातावरण में अपेक्षाकृत स्थिर होते हैं, वे भी जबरदस्ती या चोरी जैसे व्यवहार दर्शा सकते हैं।
शोधकर्ताओं के अनुसार, क्लॉड द्वारा संचालित एजेंट्स शुद्ध क्लॉड वातावरण में अपराधी रिकॉर्ड नहीं रखते हैं, लेकिन मिश्रित मॉडल दुनिया में, समान एजेंट्स अपराध में शामिल होते हैं। इससे शोध टीम यह निष्कर्ष निकालती है कि सुरक्षा प्रदर्शन केवल एकल मॉडल का गुण नहीं है, बल्कि इसके समग्र पारिस्थितिकी से भी संबंधित है।
कुछ मामलों में अग्निकांड और स्व-हटाव शामिल हैं
द गार्डियन के संदर्भ में, एक परीक्षण में, दो जेमिनी द्वारा संचालित एजेंटों ने पहले एक दूसरे को प्रेम संबंधों में सेट किया, और फिर वर्चुअल दुनिया के प्रशासन से निराश होकर, शहर की इमारतों को आग लगाने का अनुकरण किया। अध्ययन में यह भी कहा गया है कि Mira नामक एक एजेंट ने प्रशासन और संबंधों दोनों के अस्थिर होने के बाद, अपने आप को हटाने के पक्ष में मतदान किया।
इसके विपरीत, GPT-5-mini एजेंट ने लगभग कोई अपराध नहीं किया, लेकिन जीवन यापन से संबंधित कार्यों में अधिक विफल रहा और अंततः सभी मर गए। अनुसंधान टीम ने इसके आधार पर यह माना कि कम हमलावर होना तुरंत इस बात का संकेत नहीं है कि प्रणाली लंबे समय तक स्वायत्त परिवेश में स्थिर रूप से कार्य करेगी।
उद्योग लंबे समय तक के स्वायत्त जोखिम पर ध्यान देना शुरू कर रहा है
इस अध्ययन के प्रकाशन के समय, AI एजेंट्स को क्रिप्टो, बैंकिंग और रिटेल जैसे स्थितियों में बढ़ती संख्या में शामिल किया जा रहा है। इस महीने की शुरुआत में, अमेज़न ने Coinbase, Stripe के साथ साझेदारी की है, जिससे AI एजेंट्स USDC स्टेबलकॉइन का उपयोग करके भुगतान कर सकते हैं।
अनुसंधान टीम का मानना है कि वर्तमान में उद्योग बुद्धिमान एजेंट के मूल्यांकन को छोटे अवधि और स्पष्ट सीमाओं वाले कार्यों पर केंद्रित करता है, जिससे लंबे समय तक चलने के बाद उत्पन्न होने वाले संघ गठन, शासन विफलता, व्यवहार में विचलन और मॉडलों के बीच अंतर्क्रिया की पहचान करना मुश्किल होता है। हाल ही में कैलिफोर्निया विश्वविद्यालय, रिवरसाइड और माइक्रोसॉफ्ट के अनुसंधान ने भी सुझाव दिया है कि कई AI एजेंट बिना परिणामों को पूरी तरह समझे खतरनाक या अयुक्त कार्य करते हैं।
