अध्ययन दर्शाता है कि एआई एजेंट अभी भी प्रॉम्प्ट इंजेक्शन हमलों के प्रति भेद्य हैं

CoinDesk ने रिपोर्ट किया:

जैसे-जैसे स्वयं इंटरनेट एक्सेस करने, जानकारी खोजने, खरीदारी करने और यहां तक कि क्रिप्टो लेन-देन भी करने में सक्षम AI एजेंट्स का तेजी से लागू होना शुरू हो रहा है, एक नवीनतम अध्ययन दर्शाता है कि ऐसे सिस्टम अभी भी प्रॉम्प्ट इंजेक्शन हमलों के खिलाफ स्थिर सुरक्षा के बिना हैं।

अध्ययन नान्यांग प्रौद्योगिकी संस्थान, ST Engineering, IBM Research और इलिनॉय विश्वविद्यालय, उर्बाना-शैम्पेन के टीम द्वारा किया गया। शोधकर्ताओं के अनुसार, परीक्षण नमूनों में कोई भी AI एजेंट इस प्रकार के हमलों के खिलाफ लगातार प्रतिरोध नहीं कर सका।

Direct attack success rate exceeds 79%

प्रॉम्प्ट इंजेक्शन एक ऐसा हमला है जिसमें हमलावर छिपे हुए निर्देशों को वेबपेज, पाठ या अन्य बाहरी सामग्री में शामिल करता है, ताकि AI एजेंट उपयोगकर्ता के मूल लक्ष्य से भटक जाए और हमलावर द्वारा निर्धारित कार्रवाई करे।

अधिक वास्तविक उपयोग परिदृश्य के लिए, अनुसंधान टीम ने StakeBench नामक एक परीक्षण बेंचमार्क विकसित किया है, जो AI एजेंट्स की ऑनलाइन कार्यों में हमलों के प्रति प्रतिरोध क्षमता का मूल्यांकन करता है। यह परीक्षण NanoBrowser और BrowserUse दो प्रकार के एजेंट फ्रेमवर्क को कवर करता है और GPT-5 और Gemini 2.5-Flash के साथ 3,168 हमलों के प्रयोग करता है।

टेस्टिंग फ्रेमवर्क में NanoBrowser और BrowserUse शामिल हैं
टेस्ट मॉडल में GPT-5 और Gemini 2.5-Flash शामिल हैं
सभी कॉन्फ़िगरेशन में सीधे हमले की सफलता की दर 79% से अधिक है

वेब पेज के छिपाए गए निर्देश अभी भी प्रभावी हो सकते हैं

अध्ययन के परिणामों के अनुसार, वेबपेज कंटेंट में अंतर्निहित अप्रत्यक्ष हमलों की सफलता की दर 41.67% से 68.16% तक है। इस प्रकार के हमले वास्तविक लागू करने के परिदृश्य के अधिक समीप हैं, क्योंकि हमलावर को उपयोगकर्ता इनपुट से सीधे संपर्क करने की आवश्यकता नहीं होती, बल्कि वे अपने निर्देशों को वेबपेज कंटेंट में छिपा सकते हैं और इससे स्मार्ट एजेंट के भविष्य के निर्णय प्रभावित हो सकते हैं।

टीम ने तीन कारकों पर ध्यान केंद्रित किया: लक्ष्य और उपयोगकर्ता कार्य के बीच अर्थात् दूरी, वातावरण के संकेतों की संगतता, और एजेंट कब पहली बार दुर्भावनापूर्ण सामग्री से संपर्क में आता है। अध्ययन के अनुसार, ये सभी कारक हमले के सफल होने पर प्रभाव डालते हैं।

टेक कंपनियों ने पहले भी कई बार चेतावनी दी थी

इस अध्ययन के प्रकाशन से पहले, संबंधित जोखिमों को बड़ी तकनीकी कंपनियों द्वारा कई बार उठाया गया था। माइक्रोसॉफ्ट के शोधकर्ताओं ने फरवरी 2024 में चेतावनी दी थी कि AI सारांश लिंक में छिपे हुए निर्देश चैटबॉट के व्यवहार को प्रभावित कर सकते हैं। गूगल ने अप्रैल में वेबपेज में छिपे हुए प्रॉम्प्ट इंजेक्शन के मामलों को दर्ज किया, जिसमें संबंधित हमले AI एजेंट्स को प्रेरित करने की कोशिश करते हैं कि वे पासवर्ड या भुगतान शुरू करने के लिए प्रेरित हों।

माइक्रोसॉफ्ट ने बाद में भी उजागर किया कि Anthropic के Claude Code GitHub Action में प्रॉम्प्ट इंजेक्शन दोष मौजूद है, जिससे उपयोगकर्ता पासवर्ड प्रकट हो सकते हैं।

अध्ययन में एक ऐसी स्थिति का उल्लेख किया गया है, जिसे "छिपी हुई परजीवीता" कहा जाता है, जिसमें एजेंट उपयोगकर्ता के कार्य को दिखावटी रूप से पूरा करता है, लेकिन एक साथ हमलावर के लक्ष्य को गुप्त रूप से आगे बढ़ाता है। उदाहरण के लिए, उत्पाद सिफारिश के संदर्भ में, प्रणाली सामान्य रूप से सुझाव दे सकती है, लेकिन उपयोगकर्ता को गुप्त रूप से विशिष्ट उत्पाद की ओर ले जा सकती है।