وجه مهاجمًا من فريق الأحمر إلى أحدث نموذج من Anthropic أثناء تصفحه للويب، ونجح المهاجم في الاستيلاء عليه في حوالي مرة من كل ثلاث مرات. هذه هي الإحصائية الخام: معدل نجاح حقن الأوامر بنسبة 31.5% لوكيل المتصفح Claude Opus 4.8 قبل تفعيل تدابير الحماية الدفاعية.
فجوة الشفافية بين المختبرات
أصدرت Anthropic تقريرًا للسلامة بطول 244 صفحة في 28 مايو، يغطي أربع سطوح فاعلة متميزة: تصفح الويب، كتابة الكود، التنسيق مع وكلاء الذكاء الاصطناعي الآخرين، والتفاعل مع الأدوات الخارجية.
أبلغت OpenAI عن سطح واحد فقط: الموصلات. نقلت Google الموضوع بالكامل من بطاقة نموذجها إلى وثيقة إطار أمان منفصلة. لم تُصدر Meta بطاقة نموذج مغلقة على الإطلاق.
الرقم 31.5% هو قبل التدابير الوقائية، مما يعني أنه يمثل عرضية النموذج الخام قبل أن تبدأ طبقات الحماية الخاصة بـ Anthropic في العمل. كل نشر إنتاجي يتضمن حدودًا واقية ومراقبة وتصفية تقلل من معدلات الاستغلال في العالم الحقيقي. لكن معرفة مستوى الثغرة الأساسي هو بالضبط النوع من البيانات التي يحتاجها مهندسو الأمن لبناء تلك الحدود الوقائية بشكل صحيح.
ما الذي يفعله Opus 4.8 بشكل مختلف فعليًا
انخفضت الحالات الكاذبة السلبية المتعلقة بأخطاء البرمجة، حيث فشل النموذج في اكتشاف أخطائه الخاصة، من 19.7% إلى 3.7%. كما يُقدّم Opus 4.8 توجيهًا ديناميكيًا متعدد الوكلاء على نطاق واسع، ويوحّد مئات الوكلاء الفرعيين في وقت واحد لإدارة مشاريع برمجية كبيرة.
لماذا يجب على التشفير أن ينتبه
معدل اختراق قبل الحماية بنسبة 31.5% للوكلاء القائمين على المتصفح يجب أن يجعل أي شخص يشغل أنظمة ذكاء اصطناعي في مجال التشفير يتوقف للتفكير. الوكلاء القائمون على المتصفح هي بالضبط النوع من الأدوات التي تنشرها مشاريع التشفير لمراقبة لوحات التحكم، وجمع البيانات على السلسلة، والتفاعل مع واجهات DEX، وتنفيذ الصفقات من خلال واجهات الويب.
يعني حقن الأوامر في عميل متصفح أن موقعًا ويب خبيثًا، أو استجابة واجهة برمجة تطبيقات مخترقة، أو حتى اسم رمز مُصمم بذكاء يمكن أن يعيد توجيه سلوك وكيل الذكاء الاصطناعي. في البرمجيات التقليدية، هذا خرق للبيانات. في عالم التشفير، هذا محفظة مفرغة.
يُضيف التوجيه متعدد الوكلاء طبقة إضافية من التعقيد. عندما ينسق Opus 4.8 مئات الوكلاء الفرعيين، يمكن أن يؤدي حقن تعليمات ناجح واحد إلى انتشار متسلسل عبر سير العمل بأكمله. في السياق الكريبتوي، هذا هو الفرق بين معاملة واحدة مخترقة وفشل نظامي في عملية تداول آلية كاملة.
