เกือบหนึ่งในสามของการพยายามยึดครองตัวแทนเบราว์เซอร์ AI รุ่นล่าสุดของ Anthropic ประสบความสำเร็จก่อนที่มาตรการป้องกันจะเริ่มทำงาน นี่ไม่ใช่ข่าวลือจากช่อง Slack ของทีมแดง แต่เป็นตัวเลขที่ Anthropic ระบุไว้ในระบบการ์ดของตนเอง
บริษัทเปิดตัวบัตรระบบ Claude Opus 4.8 เมื่อวันที่ 28 พฤษภาคม ซึ่งมีความยาว 244 หน้าและครอบคลุมสี่พื้นผิวเชิงตัวแทน อัตราการถูกยึดก่อนการป้องกันของตัวแทนเบราว์เซอร์อยู่ที่ 31.5% เพื่อให้เข้าใจง่ายๆ: หากผู้โจมตีที่มีเจตนาไม่ดีใช้การโจมตีแบบ prompt injection กับโมเดลขณะที่มันกำลังเรียกดูเว็บ โจมตีจะประสบความสำเร็จประมาณหนึ่งในสามของเวลา โดยสมมติว่าไม่มีชั้นป้องกันใดๆ ทำงาน
ช่องว่างด้านความโปร่งใสในห้องปฏิบัติการชั้นนำ
นี่คือสิ่งที่ต้องรู้ ตัวเลข 31.5% ดูไม่ดีเมื่อพิจารณาแบบเดี่ยวๆ แต่ Anthropic เป็นห้องปฏิบัติการชั้นนำเพียงแห่งเดียวที่ให้ตัวเลขที่ชัดเจนแก่มืออาชีพด้านความปลอดภัยในฤดูใบไม้ผลิปีนี้
OpenAI ได้เผยแพร่การเปิดเผยการโจมตีแบบ prompt injection ซึ่งครอบคลุมเพียงพื้นผิวเดียว: ตัวเชื่อมต่อ Google ได้ย้ายหัวข้อทั้งหมดออกจากใบข้อมูลโมเดลไปยังเอกสารกรอบความปลอดภัยที่กว้างขึ้น ซึ่งทำให้ความเฉพาะเจาะจงลดลง Meta ไม่ได้ส่งใบข้อมูลโมเดลแบบปิดเลย
สิ่งที่มาตรการป้องกันเหล่านี้ทำ
ตัวเลข 31.5% เป็นการวัดก่อนการป้องกัน ซึ่งเป็นบริบทที่สำคัญ มันแสดงพื้นที่ความเสี่ยงดิบของโมเดลก่อนที่การป้องกันแบบหลายชั้นของ Anthropic จะเริ่มทำงาน
การทดสอบหลังการป้องกันบนโมเดลที่เกี่ยวข้องคือ Opus 4.5 แสดงให้เห็นว่าอัตราความสำเร็จของการโจมตีลดลงเหลือประมาณ 1% ซึ่งเป็นการลดลงประมาณ 97% จากฐานข้อมูลที่ไม่มีการป้องกัน
การฉีดคำสั่งยังคงเป็นความท้าทายด้านความปลอดภัยที่สำคัญที่สุดสำหรับระบบปัญญาประดิษฐ์ที่มีความสามารถแบบเอเจนต์ เมื่อโมเดลสามารถท่องเว็บไซต์ กรอกแบบฟอร์ม หรือดำเนินการหลายขั้นตอนแทนผู้ใช้ การฉีดคำสั่งที่ประสบความสำเร็จสามารถเปลี่ยนการกระทำทั้งหมดเหล่านั้นให้สนับสนุนเป้าหมายของผู้โจมตี
เวอร์ชันก่อนหน้าของระบบการ์ดของ Anthropic รวมถึงรายงาน Opus 4.7 ยังมีตัวชี้วัดความต้านทานต่อการฉีดข้อมูลแบบวัดได้ บริษัทได้สร้างประวัติการเผยแพร่ตัวเลขเหล่านี้อย่างสม่ำเสมอ ทำให้ข้อมูลมีประโยชน์มากขึ้นตามเวลาในรูปแบบแนวโน้มแทนที่จะเป็นภาพนิ่งเพียงครั้งเดียว
เหตุผลที่สิ่งนี้มีความสำคัญต่อแพลตฟอร์มที่รวมคริปโตและปัญญาประดิษฐ์
อุตสาหกรรมคริปโตกำลังลึกเข้าไปกับการบูรณาการเอเจนต์ปัญญาประดิษฐ์ เทรดดิ้งบอทอัตโนมัติ ผู้จัดการพอร์ตโฟลิโอที่ขับเคลื่อนด้วยปัญญาประดิษฐ์ ผู้วิเคราะห์ข้อมูลบนโซ่ และเอเจนต์ดีไฟที่ดำเนินการธุรกรรมตามคำสั่งภาษาธรรมชาติ ล้วนอยู่ในขั้นตอนการใช้งานจริงหรืออยู่ระหว่างการพัฒนาในหลายสิบโปรโตคอล
อัตราการโจมตีก่อนการป้องกันที่ 31.5% ควรทำให้ทีมที่พัฒนาผลิตภัณฑ์เหล่านี้ต้องหยุดคิดทบทวน หากตัวแทน AI ของคุณเข้าถึงแหล่งข้อมูลภายนอก วิเคราะห์เนื้อหาบนโซ่จากสัญญาอัจฉริยะที่อาจเป็นศัตรู หรืออ่านเนื้อหาที่ผู้ใช้สร้างขึ้นบนฟอรัมและแพลตฟอร์มโซเชียล การฉีดคำสั่งไม่ใช่ความเสี่ยงเชิงทฤษฎี แต่เป็นความเสี่ยงที่วัดได้
การปรับปรุงหลังการป้องกันให้เหลือประมาณ 1% เป็นเรื่องที่น่าส่งเสริม แต่มีข้อแม้ ตัวเลขนี้มาจากสภาพแวดล้อมการทดสอบของ Anthropic เอง เงื่อนไขการใช้งานจริง ซึ่งตัวแทนจะโต้ตอบกับเนื้อหาเว็บที่ยุ่งเหยิงและไม่ควบคุม โดยผู้โจมตีมีแรงจูงใจทางการเงินที่วัดได้เป็นล้านๆ จะทดสอบการป้องกันเหล่านี้ต่างจากกิจกรรม red-team
สำหรับนักลงทุนที่ประเมินโครงการคริปโตที่เกี่ยวข้องกับปัญญาประดิษฐ์ ช่องว่างด้านความโปร่งใสระหว่างห้องปฏิบัติการต่างๆ ก็เป็นสัญญาณเอง โปรโตคอลที่สร้างขึ้นบนโมเดล Claude อย่างน้อยก็สามารถชี้ไปที่ข้อมูลด้านความปลอดภัยที่เผยแพร่แล้วและอธิบายกลยุทธ์การลดความเสี่ยงของตนได้ โครงการที่พึ่งพาโมเดลจากห้องปฏิบัติการที่ไม่ได้เผยแพร่ข้อมูลที่เทียบเคียงได้ กำลังขอให้ผู้ใช้เชื่อถือกล่องดำ
