การชี้ให้ผู้โจมตีแบบเรดทีมไปที่รุ่นล่าสุดของ Anthropic ขณะที่มันกำลังท่องเว็บ ผู้โจมตีสามารถยึดครองมันได้เกือบหนึ่งในสามครั้ง นั่นคือสถิติดิบ: อัตราความสำเร็จในการฉีดคำสั่ง 31.5% สำหรับตัวแทนเบราว์เซอร์ของ Claude Opus 4.8 ก่อนที่มาตรการป้องกันจะเริ่มทำงาน
ช่องว่างด้านความโปร่งใสระหว่างห้องปฏิบัติการ
Anthropic เปิดตัวรายงานความปลอดภัยขนาด 244 หน้าเมื่อวันที่ 28 พฤษภาคม ซึ่งครอบคลุมพื้นที่การใช้งานของเอเจนต์สี่ด้าน ได้แก่ การท่องเว็บ การเขียนโค้ด การประสานงานกับเอเจนต์ AI อื่นๆ และการโต้ตอบกับเครื่องมือภายนอก
OpenAI รายงานเฉพาะบนพื้นผิวเดียว: ตัวเชื่อมต่อ Google ย้ายหัวข้อทั้งหมดออกจากใบข้อมูลโมเดลไปยังเอกสารกรอบความปลอดภัยแยกต่างหาก Meta ไม่ได้เปิดตัวใบข้อมูลโมเดลแบบปิดเลย
ตัวเลข 31.5% เป็นค่าก่อนการป้องกัน หมายความว่าเป็นความอ่อนไหวของโมเดลดิบก่อนที่ชั้นป้องกันของ Anthropic จะเริ่มทำงาน การปรับใช้งานในผลิตภัณฑ์จริงทุกครั้งจะมีการควบคุม การตรวจสอบ และการกรองที่ช่วยลดอัตราการถูกโจมตีในโลกจริง แต่การรู้ถึงระดับความอ่อนแอพื้นฐานเป็นข้อมูลประเภทเดียวกันที่สถาปนิกด้านความปลอดภัยต้องการเพื่อสร้างการควบคุมเหล่านี้ให้ถูกต้อง
Opus 4.8 ทำอะไรต่างออกไปจริงๆ
ข้อผิดพลาดที่ไม่ถูกตรวจจับในการเขียนโค้ด ซึ่งโมเดลไม่สามารถจับข้อผิดพลาดของตัวเองได้ ลดลงจาก 19.7% เป็น 3.7% Opus 4.8 ยังแนะนำการประสานงานแบบไดนามิกของตัวแทนหลายตัวในขนาดใหญ่ ซึ่งสามารถประสานงานตัวแทนย่อยนับร้อยตัวพร้อมกันเพื่อจัดการโครงการซอฟต์แวร์ขนาดใหญ่
ทำไมคริปโตควรให้ความสนใจ
อัตราการถูกโจมตีก่อนการป้องกัน 31.5% สำหรับตัวแทนที่ทำงานผ่านเบราว์เซอร์ควรทำให้ผู้ที่ใช้งานระบบ AI ในวงการคริปโตหยุดคิดทบทวน ตัวแทนที่ทำงานผ่านเบราว์เซอร์เป็นเครื่องมือประเภทที่โครงการคริปโตใช้สำหรับติดตามแดชบอร์ด ดึงข้อมูลบนโซ่ การโต้ตอบกับอินเตอร์เฟซของ DEX และดำเนินการซื้อขายผ่านอินเตอร์เฟซเว็บ
การฉีดคำสั่งในเบราว์เซอร์เอเจนต์หมายถึงเว็บไซต์ที่เป็นอันตราย คำตอบจาก API ที่ถูกโจมตี หรือแม้แต่ชื่อโทเค็นที่ถูกสร้างขึ้นอย่างชาญฉลาด อาจทำให้พฤติกรรมของเอเจนต์ปัญญาประดิษฐ์ถูกเปลี่ยนทิศทางได้ ในซอฟต์แวร์แบบดั้งเดิม นี่คือการรั่วไหลของข้อมูล ในโลกคริปโต นี่คือวอลเล็ตที่ถูกปล้นหมด
การประสานงานแบบหลายเอเจนต์เพิ่มความซับซ้อนอีกระดับหนึ่ง เมื่อ Opus 4.8 ประสานงานกับเอเจนต์ย่อยนับร้อย การโจมตีด้วยการฉีดคำสั่งเพียงครั้งเดียวที่ประสบความสำเร็จอาจลุกลามไปทั่วทั้งกระบวนการทำงาน ในบริบทของคริปโต นี่คือความแตกต่างระหว่างการทำธุรกรรมหนึ่งรายการที่ถูกโจมตีกับความล้มเหลวแบบระบบตลอดทั้งการซื้อขายอัตโนมัติ
