एंथ्रोपिक के नवीनतम AI ब्राउज़र एजेंट को हाइजैक करने के लगभग तीन में से एक प्रयास सुरक्षा उपायों के लागू होने से पहले सफल हो गए। यह एक रेड-टीम स्लैक चैनल की अफवाह नहीं है। यह एक संख्या है जो एंथ्रोपिक ने अपने सिस्टम कार्ड में प्रिंट की है।
कंपनी ने 28 मई को क्लॉड ओपस 4.8 सिस्टम कार्ड जारी किया, जो 244 पृष्ठों पर फैला हुआ है और चार एजेंटिक सतहों को कवर करता है। ब्राउज़र एजेंट के लिए प्री-सेफगार्ड हाइजैक दर 31.5% रही। इसे साधारण शब्दों में कहें तो: अगर कोई दुर्भावनापूर्ण व्यक्ति मॉडल पर वेब ब्राउज़िंग के दौरान प्रॉम्प्ट इंजेक्शन हमला करता है, तो हमला लगभग एक तिहाई समय काम करता है, यह मानते हुए कि कोई रक्षात्मक परतें सक्रिय नहीं हैं।
सीमांत प्रयोगशालाओं के बीच पारदर्शिता का अंतर
यह बात है। अकेले लिया जाए तो वह 31.5% का आंकड़ा खराब लगता है। लेकिन एंथ्रोपिक एकमात्र फ्रंटियर लैब है जिसने इस वसंत में सुरक्षा पेशेवरों को एक स्पष्ट संख्या प्रदान की है।
OpenAI ने एक प्रॉम्प्ट इंजेक्शन अनुप्रयोग जारी किया जिसमें केवल एक सतह: कनेक्टर्स को शामिल किया गया। Google ने पूरे विषय को अपने मॉडल कार्ड से हटाकर एक व्यापक सुरक्षा ढांचा दस्तावेज में स्थानांतरित कर दिया, जिससे विशिष्टता कम हो गई। Meta ने कोई बंद मॉडल कार्ड भेजा ही नहीं।
सुरक्षा उपायों का वास्तविक रूप से क्या कार्य है
31.5% का आंकड़ा एक पूर्व-सुरक्षा माप है, जो महत्वपूर्ण संदर्भ प्रदान करता है। यह एंथ्रोपिक के परतदार सुरक्षा उपायों के सक्रिय होने से पहले मॉडल की कच्ची भेद्यता की सतह को दर्शाता है।
एक संबंधित मॉडल, ओपस 4.5 पर सुरक्षा के बाद की परीक्षण ने दर्शाया कि हमले की सफलता की दर लगभग 1% तक घट गई। यह असुरक्षित आधार से लगभग 97% की कमी है।
प्रॉम्प्ट इंजेक्शन एजेंटिक क्षमताओं वाले AI प्रणालियों के लिए अभी भी प्रमुख सुरक्षा चुनौती बना हुआ है। जब कोई मॉडल वेबसाइटों का ब्राउज़ कर सकता है, फॉर्म भर सकता है या किसी उपयोगकर्ता की ओर से बहु-चरणीय कार्यों को निष्पादित कर सकता है, तो एक सफल इंजेक्शन इस पूरी एजेंसी को हमलावर के लक्ष्यों की ओर मोड़ सकता है।
एंथ्रोपिक के सिस्टम कार्ड के पिछले संस्करणों, जिनमें ओपस 4.7 रिपोर्ट भी शामिल है, में मात्रात्मक इंजेक्शन प्रतिरोध मापदंड भी शामिल थे। कंपनी इन संख्याओं को नियमित रूप से प्रकाशित करने का एक ट्रैक रिकॉर्ड बना रही है, जिससे डेटा समय के साथ एकल स्नैपशॉट के बजाय एक प्रवृत्ति रेखा के रूप में अधिक उपयोगी होता जा रहा है।
इसका क्रिप्टो और एआई-एकीकृत प्लेटफॉर्म्स के लिए क्यों महत्वपूर्ण है
क्रिप्टो उद्योग AI एजेंट एकीकरण में डूबा हुआ है। स्वायत्त ट्रेडिंग बॉट, AI-सक्षम पोर्टफोलियो प्रबंधक, ऑन-चेन डेटा विश्लेषक और प्राकृतिक भाषा निर्देशों के आधार पर लेनदेन निष्पादित करने वाले DeFi एजेंट सभी दर्जनों प्रोटोकॉल पर या तो लाइव हैं या विकास के चरण में हैं।
31.5% की प्री-सेफगार्ड हाइजैक दर को इन उत्पादों को बनाने वाली हर टीम को रुकना चाहिए। यदि आपका AI एजेंट बाहरी डेटा स्रोतों को ब्राउज़ करता है, संभावित विरोधी स्मार्ट कॉन्ट्रैक्ट्स से ऑन-चेन कंटेंट को पार्स करता है, या फोरम और सोशल प्लेटफॉर्म्स पर उपयोगकर्ता-जनरेटेड कंटेंट पढ़ता है, तो प्रॉम्प्ट इंजेक्शन कोई सैद्धांतिक जोखिम नहीं है। यह एक मापा गया जोखिम है।
लगभग 1% तक के सुरक्षा के बाद सुधार को प्रोत्साहित किया जा सकता है, लेकिन इसके साथ एक अपवाद है। यह संख्या Anthropic के अपने परीक्षण पर्यावरण से आती है। वास्तविक दुनिया की स्थितियाँ, जहाँ एजेंट अव्यवस्थित, नियंत्रित नहीं किए गए वेब सामग्री के साथ बातचीत करते हैं और विरोधी मिलियनों में मापे जाने वाले वित्तीय प्रोत्साहन रखते हैं, उन सुरक्षाओं को एक रेड-टीम अभ्यास से अलग तरीके से परीक्षण करेंगी।
AI-संबंधित क्रिप्टो प्रोजेक्ट्स का मूल्यांकन कर रहे निवेशकों के लिए, लैब्स के बीच पारदर्शिता का अंतर स्वयं एक संकेत है। क्लॉड मॉडल्स पर बनाए गए प्रोटोकॉल कम से कम प्रकाशित सुरक्षा डेटा की ओर इशारा कर सकते हैं और अपनी न्यूनीकरण रणनीतियों की व्याख्या कर सकते हैं। ऐसे लैब्स से मॉडल्स पर निर्भर करने वाले प्रोजेक्ट्स, जिन्होंने तुलनात्मक डेटा प्रकाशित नहीं किया है, उपयोगकर्ताओं से एक ब्लैक बॉक्स पर विश्वास करने का अनुरोध कर रहे हैं।
