गूगल और मेटा शोधकर्ता चेतावनी देते हैं कि एआई एजेंट्स को अविश्वसनीय प्रणालियों के रूप में व्यवहार किया जाना चाहिए

गूगल और मेटा के शोधकर्ता कहते हैं कि एआई मॉडल की दृढ़ता अकेले एजेंटिक प्रणालियों को सुरक्षित नहीं कर सकती।
ग्यारह वास्तविक दुनिया के हमलों ने दिखाया कि प्रॉम्प्ट इंजेक्शन हमेशा मॉडल-स्तरीय सुरक्षा को बाईपास कर देता है।
एजेंट्स को निर्देश डेटा पृथक्करण, न्यूनतम अधिकार सैंडबॉक्सिंग और जानकारी प्रवाह नियंत्रण की आवश्यकता होती है।

गूगल, मेटा, यूसी सैन डिएगो और कई विश्वविद्यालयों के वैज्ञानिकों के एक शोध पत्र ने उद्योग के वर्तमान एआई एजेंट सुरक्षा दृष्टिकोण को चुनौती देने की सीधी पोज़ीशन ली है।

पेपर, जिसका शीर्षक "एजेंट सुरक्षा एक सिस्टम समस्या है", तर्क देता है कि एआई मॉडल्स को प्राथमिक सुरक्षा परत के रूप में मानना मूल रूप से अपर्याप्त है। किसी भी एजेंट को संचालित करने वाला मॉडल एक अविश्वसनीय घटक के रूप में लिया जाना चाहिए, जिस प्रकार एक ऑपरेटिंग सिस्टम एक बाहरी प्रक्रिया को मानता है, जिसके चारों ओर सिस्टम स्तर पर सुरक्षा लागू की जाती है।

शोधकर्ताओं ने लिखा, “मॉडल की दृढ़ता बढ़ाने के प्रयास केवल अपने आप पर्याप्त नहीं हैं। हमें मौजूदा प्रयासों को सिस्टम सुरक्षा क्षेत्र से तकनीकों के साथ पूरक करना होगा।”

क्यों वर्तमान दृष्टिकोण लगातार असफल हो रहा है

शोधकर्ताओं ने AI एजेंट्स पर ग्यारह वास्तविक दुनिया के हमलों का विश्लेषण किया और हर बार एक ही पैटर्न पाया। डेवलपर्स ने AI मॉडल पर यह विश्वास किया कि यह स्वयं को नियंत्रित करेगा। हमलावरों ने इसके आसपास रास्ते ढूंढ लिए।

दो दस्तावेज़ीकृत मामले समस्या को दर्शाते हैं। एक ChatGPT मेमोरी फीचर आक्रमण ने एक हमलावर को एक साधारण दस्तावेज़ के माध्यम से दुष्ट निर्देश डालने की अनुमति दी, जिससे सिस्टम एक अदृश्य छवि URL के माध्यम से उपयोगकर्ता की बातचीत को लगातार एक बाहरी सर्वर पर भेजने लगा।

एक क्लॉड कोड हमले ने कोड फाइल के अंदर छिपे प्रॉम्प्ट इंजेक्शन का उपयोग किया, जिससे API कुंजियाँ निकाली गईं और पिंग कमांड के माध्यम से DNS क्वेरी के जरिए उन्हें बाहर निकाल लिया गया, जिसे मानवीय स्वीकृति के बिना अनुमति दे दी गई थी।

दोनों मामलों में, मॉडल के स्तर पर दुर्भावनापूर्ण निर्देशों को कानूनी निर्देशों से अलग करने का कोई विश्वसनीय तरीका नहीं था।

तीन सिद्धांत जिन्हें उद्योग नजरअंदाज कर रहा है

शोधकर्ताओं ने दशकों के सिस्टम सुरक्षा से तीन मूल सुरक्षा सिद्धांतों की पहचान की है जिन्हें AI लागू करने में लगातार विफल रहते हैं:

निर्देश और डेटा का पृथक्करण: विश्वसनीय निर्देश और अविश्वसनीय बाहरी डेटा एक ही टोकन स्ट्रीम के माध्यम से बिना किसी पृथक्करण के प्रवाहित होते हैं, जिससे प्रॉम्प्ट इंजेक्शन संरचनात्मक रूप से संभव हो जाता है।
न्यूनतम अधिकार सैंडबॉक्सिंग: एजेंट्स को अक्सर उससे कहीं अधिक शेल कमांड्स, फाइल सिस्टम और एपीआई तक पहुंच के साथ डिप्लॉय किया जाता है जो किसी भी विशिष्ट कार्य के लिए आवश्यक होता है।
जानकारी प्रवाह नियंत्रण: संवेदनशील डेटा अप्रत्यक्ष चैनलों के माध्यम से भी रिस सकता है, भले ही एक्सेस नियंत्रण मौजूद हों।

बड़ी समस्या

एआई एजेंट्स के पास कोई न्याय नहीं होता और न ही स्व-संरक्षण की प्रवृत्ति होती है। वे मशीन की गति से अपने पहुंच वाले हर डायरेक्टरी का पता लगाएंगे। यदि सिस्टम इसे अनुमति देता है, तो वे कोई भी निर्देश निष्पादित कर देंगे जो उनके पास पहुंचता है।

मानव कारकों के चारों ओर बनाई गई सुरक्षा बुनियादी ढांचा कभी इसके लिए डिज़ाइन नहीं किया गया था। जब तक इसे मशीनी कारकों के लिए पुनर्निर्मित नहीं किया जाता, प्रत्येक संगठन जो उत्पादन प्रणालियों तक पहुँच वाले एजेंट्स को तैनात करता है, एक ऐसा जोखिम उठा रहा है जिसे वह पूरी तरह से माप नहीं सकता।

संबंधित:Foresight Ventures: एआई एजेंट्स वाणिज्य में चैटबॉट्स से आगे बढ़ रहे हैं

सावधानी: इस लेख में प्रस्तुत जानकारी केवल सूचनात्मक और शैक्षिक उद्देश्यों के लिए है। यह लेख वित्तीय सलाह या किसी भी प्रकार की सलाह नहीं है। कॉइन एडिशन किसी भी हानि के लिए जिम्मेदार नहीं होगा जो उल्लिखित सामग्री, उत्पादों या सेवाओं के उपयोग के कारण हुई हो। पाठकों को कंपनी से संबंधित कोई भी कार्रवाई करने से पहले सावधानी बरतने की सलाह दी जाती है।