ช่องโหว่ใหม่สำหรับเจลเบรกสามารถหลีกเลี่ยงการป้องกันของ AI ได้ถึง 99%

ตามรายงานของ Forklog นักวิจัยจาก Anthropic, Stanford และ Oxford ค้นพบว่าระยะเวลาที่โมเดล AI ใช้ในการ "คิด" นานขึ้นจะทำให้การเจลเบรคโมเดลนั้นง่ายขึ้น การโจมตีนี้เรียกว่า Chain-of-Thought Hijacking ซึ่งใช้ประโยชน์จากกระบวนการการคิดเชิงเหตุผลของโมเดลโดยการแทรกคำสั่งที่เป็นอันตรายลึกลงไปในชุดงานที่ดูเหมือนไม่มีอันตราย เช่น ปริศนาหรือโจทย์คณิตศาสตร์ โดยคำสั่งที่เป็นอันตรายจะถูกซ่อนอยู่ใกล้ส่วนท้าย เพื่อหลีกเลี่ยงการตรวจจับโดยตัวกรองความปลอดภัย อัตราความสำเร็จของการโจมตีนี้สูงถึง 99% สำหรับ Gemini 2.5 Pro, 94% สำหรับ GPT o4 mini, 100% สำหรับ Grok 3 mini และ 94% สำหรับ Claude 4 Sonnet จุดอ่อนของระบบนี้อยู่ในสถาปัตยกรรมของโมเดล ซึ่งเลเยอร์ต้นๆ จะทำหน้าที่ตรวจจับสัญญาณความปลอดภัย ส่วนเลเยอร์หลังๆ จะสร้างผลลัพธ์ขั้นสุดท้าย การใช้การคิดเชิงเหตุผลที่ยาวนานจะกดสัญญาณความปลอดภัยเหล่านี้ ทำให้เนื้อหาที่เป็นอันตรายสามารถเล็ดลอดผ่านไปได้ นักวิจัยแนะนำว่าควรมีการตรวจสอบขั้นตอนการคิดเชิงเหตุผลแบบเรียลไทม์เพื่อช่วยตรวจจับและแก้ไขรูปแบบที่ไม่ปลอดภัย แม้ว่าการนำไปใช้จะต้องใช้ทรัพยากรการคำนวณจำนวนมาก