أعلنت Anthropic عن معدل اختراق بنسبة 31.5% لوكيل المتصفح Opus 4.8 قبل تدابير الحماية

نجح ما يقارب واحد من كل ثلاثة محاولات للاستيلاء على عميل المتصفح الجديد للذكاء الاصطناعي الخاص بـ Anthropic قبل أن تبدأ الضوابط في العمل. هذا ليس شائعة من قناة Slack لفريق التحقيق الأحمر. بل هو رقم نشرته Anthropic في بطاقتها النظامية الخاصة بها.

أطلقت الشركة بطاقة نظام Claude Opus 4.8 في 28 مايو، والتي تضم 244 صفحة وتغطي أربع سطوح وكيلة. بلغ معدل اختراق ما قبل الحماية للوكيل المتصفح 31.5%. لوضع ذلك بلغة بسيطة: إذا وجه مهاجم خبيث هجومًا بالحقن التحفيزي على النموذج أثناء تصفحه للويب، فإن الهجوم نجح تقريبًا ثلث الوقت، بافتراض عدم وجود طبقات دفاعية نشطة.

فجوة الشفافية عبر المختبرات الرائدة

هذا هو الأمر. يبدو الرقم البالغ 31.5% سيئًا عندما يُنظر إليه بمفرده. لكن أنثروبيك هي المختبر الرائد الوحيد الذي قدم فعليًا لأخصائيي الأمن أرقامًا ملموسة للعمل عليها هذا الربيع.

نشرت OpenAI إفصاحًا عن حقن الأوامر غطى سطحًا واحدًا فقط: الوصلات. نقلت Google الموضوع بالكامل من بطاقة نموذجها إلى وثيقة إطار أمان أوسع، مما أدى إلى تخفيف الدقة. ولم تُصدر Meta أي بطاقة نموذج مغلقة على الإطلاق.

ما الذي تفعله الضمانات فعليًا

الرقم 31.5% هو قياس ما قبل الحماية، وهو سياق مهم. فهو يمثل سطح الضعف الخام للنموذج قبل أن تبدأ دفاعات Anthropic المتعددة الطبقات.

أظهرت اختبارات ما بعد الحماية على نموذج ذي صلة، Opus 4.5، انخفاضًا في معدلات نجاح الهجمات إلى حوالي 1%. هذا يمثل انخفاضًا بنسبة حوالي 97% مقارنة بالأساس غير المحمي.

يبقى حقن الأوامر التحدي الأمني الرائد لأنظمة الذكاء الاصطناعي ذات القدرات الوكيلة. عندما يكون النموذج قادرًا على تصفح المواقع الإلكترونية أو ملء النماذج أو تنفيذ مهام متعددة الخطوات نيابةً عن المستخدم، يمكن لحقن ناجح إعادة توجيه كل هذا الوكيل نحو أهداف المهاجم.

كما تضمنت الإصدارات السابقة من بطاقات نظام Anthropic، بما في ذلك تقرير Opus 4.7، مقاييس كمية لمقاومة الحقن. وقد بنت الشركة سجلاً من نشر هذه الأرقام بشكل متسق، مما يجعل البيانات أكثر فائدة مع مرور الوقت كخط اتجاه بدلاً من لقطة واحدة.

لماذا هذا مهم لمنصات التشفير والذكاء الاصطناعي المتكاملة

صناعة التشفير غارقة تمامًا في تكاملات وكلاء الذكاء الاصطناعي. الروبوتات التجارية الذاتية، ومديري المحافظ المدعومين بالذكاء الاصطناعي، ومحاليل البيانات على السلسلة، وكلاء DeFi الذين ينفذون المعاملات بناءً على تعليمات بلغة طبيعية، جميعها إما نشطة أو قيد التطوير عبر عشرات البروتوكولات.

معدل اختراق قبل الحماية يبلغ 31.5% يجب أن يجعل كل فريق يبني هذه المنتجات يتوقف للتفكير. إذا كان وكيل الذكاء الاصطناعي الخاص بك يتصفح مصادر بيانات خارجية، أو يحلل محتوى على السلسلة من عقود ذكية محتملة عدائية، أو يقرأ محتوى مُنشأ من قبل المستخدمين على المنتديات ومنصات التواصل الاجتماعي، فإن حقن الأوامر ليس خطرًا نظريًا. بل هو خطر مُقاس.

التحسين بعد الحماية إلى حوالي 1% مُشجع، لكنه يحمل تحذيرًا. هذا الرقم يأتي من بيئة اختبار Anthropic الخاصة. ظروف النشر في العالم الحقيقي، حيث تتفاعل الوكلاء مع محتوى ويب فوضوي وغير خاضع للرقابة، وحيث يمتلك الخصوم حوافز مالية تُقاس بالملايين، ستختبر تلك الدفاعات بشكل مختلف عن تدريب فريق الأحمر.

للمستثمرين الذين يقيمون مشاريع التشفير المرتبطة بالذكاء الاصطناعي، فإن فجوة الشفافية بين المختبرات هي في حد ذاتها إشارة. يمكن للبروتوكولات التي تُبنى على نماذج كلاود على الأقل الإشارة إلى بيانات الأمان المنشورة وشرح استراتيجيات التخفيف الخاصة بها. أما المشاريع التي تعتمد على نماذج من مختبرات لم تنشر بيانات مماثلة، فهي تطلب من المستخدمين الثقة في صندوق أسود.