- นักวิจัยจาก Google และ Meta ระบุว่า ความแข็งแกร่งของโมเดล AI เพียงอย่างเดียวไม่สามารถรับประกันความปลอดภัยของระบบตัวแทนได้
- การโจมตีจริง 11 ครั้งแสดงให้เห็นว่าการฉีดคำสั่งสามารถหลีกเลี่ยงการป้องกันระดับโมเดลได้ทุกครั้ง
- ตัวแทนต้องการการแยกข้อมูลคำสั่ง การจำกัดสิทธิ์ขั้นต่ำแบบแซนด์บ็อกซ์ และการควบคุมการไหลของข้อมูล
เอกสารวิจัยจากนักวิทยาศาสตร์ที่ Google, Meta, UC San Diego และมหาวิทยาลัยหลายแห่งได้รับตำแหน่งที่ชัดเจนซึ่งท้าทายวิธีการที่อุตสาหกรรมปัจจุบันใช้ในการรักษาความปลอดภัยของตัวแทน AI
เอกสารที่มีชื่อว่า Agent Security Is a Systems Problem โต้แย้ง ว่าการถือว่าโมเดลปัญญาประดิษฐ์เป็นชั้นความปลอดภัยหลักนั้นไม่เพียงพอโดยพื้นฐาน แทนที่จะเป็นเช่นนั้น โมเดลที่ขับเคลื่อนเอเจนต์ใดๆ ควรได้รับการพิจารณาว่าเป็นส่วนประกอบที่ไม่น่าเชื่อถือ เหมือนกับที่ระบบปฏิบัติการพิจารณากระบวนการภายนอก โดยการบังคับใช้ความปลอดภัยในระดับระบบรอบๆ มัน
“ความพยายามในการเพิ่มความแข็งแกร่งของโมเดลนั้นไม่เพียงพอต่อตัวเอง” นักวิจัยเขียน “เราต้องเสริมความพยายามที่มีอยู่ด้วยเทคนิคจากโดเมนความปลอดภัยของระบบ”
เหตุใดวิธีการปัจจุบันจึงยังล้มเหลว
นักวิจัยวิเคราะห์การโจมตีจริง 11 ครั้งบน AI agents และพบรูปแบบเดียวกันทุกครั้ง นักพัฒนาไว้วางใจโมเดล AI ในการควบคุมตัวเอง ผู้โจมตีพบวิธีหลีกเลี่ยงมัน
มีกรณีที่ได้รับการบันทึกสองกรณีที่แสดงให้เห็นปัญหานี้ การโจมตีฟีเจอร์ความจำของ ChatGPT ทำให้ผู้โจมตีสามารถแทรกคำสั่งที่เป็นอันตรายผ่านเอกสารทั่วไป ทำให้ระบบส่งการสนทนาของผู้ใช้ไปยังเซิร์ฟเวอร์ภายนอกผ่าน URL รูปภาพที่มองไม่เห็น
การโจมตีแบบ Claude Code ใช้การฉีดคำสั่งที่ซ่อนอยู่ในไฟล์โค้ดเพื่อดึงคีย์ API และส่งออกข้อมูลผ่านการสอบถาม DNS โดยใช้คำสั่ง ping ซึ่งได้รับอนุญาตโดยไม่ต้องได้รับการอนุมัติจากมนุษย์
ในทั้งสองกรณี โมเดลไม่มีกลไกที่เชื่อถือได้ในการหยุดการโจมตี เพราะคำสั่งที่เป็นอันตรายไม่สามารถแยกแยะออกจากคำสั่งที่ถูกต้องได้ในระดับโมเดล
สามหลักการที่อุตสาหกรรมกำลังมองข้าม
นักวิจัยได้ระบุหลักความปลอดภัยพื้นฐานสามข้อจากหลายทศวรรษของความปลอดภัยระบบซึ่งการนำ AI ไปใช้งานมักล้มเหลวในการดำเนินการ:
- คำสั่งและข้อมูลถูกแยกออกจากกัน: คำสั่งที่เชื่อถือได้และข้อมูลภายนอกที่ไม่น่าเชื่อถือไหลผ่านสตรีมโทเค็นเดียวกันโดยไม่มีการแยกจากกัน ทำให้การโจมตีแบบ prompt injection เป็นไปได้ในเชิงโครงสร้าง
- การแยก sandbox ด้วยสิทธิ์ขั้นต่ำสุด: ตัวแทนมักถูกใช้งานด้วยสิทธิ์ในการเข้าถึงคำสั่ง shell ระบบไฟล์ และ API มากกว่าที่งานใดงานหนึ่งต้องการ
- การควบคุมการไหลของข้อมูล: ข้อมูลที่ละเอียดอ่อนสามารถรั่วไหลผ่านช่องทางอ้อมได้แม้จะมีการควบคุมการเข้าถึง
ปัญหาที่ใหญ่กว่า
ตัวแทน AI ไม่มีการตัดสินใจและไม่มีสัญชาตญาณในการรักษาตนเอง พวกเขาจะสำรวจทุกไดเรกทอรีที่สามารถเข้าถึงได้ด้วยความเร็วของเครื่อง พวกเขาจะดำเนินการคำสั่งใดๆ ก็ตามที่ส่งถึงพวกเขา หากระบบอนุญาต
โครงสร้างพื้นฐานด้านความปลอดภัยที่สร้างขึ้นรอบตัวบุคคลนั้นไม่ได้ถูกออกแบบมาสำหรับสิ่งนี้เลย จนกว่ามันจะถูกสร้างใหม่สำหรับตัวแทนที่เป็นเครื่องจักร ทุกองค์กรที่ใช้งานตัวแทนที่มีสิทธิ์เข้าถึงระบบผลิตจะต้องรับความเสี่ยงที่ไม่สามารถวัดได้อย่างสมบูรณ์
ที่เกี่ยวข้อง:Foresight Ventures: ตัวแทน AI กำลังก้าวพ้นจากแชทบอทไปสู่การค้า
ข้อจำกัดความรับผิด: ข้อมูลที่นำเสนอในบทความนี้มีวัตถุประสงค์เพื่อการให้ข้อมูลและการศึกษาเท่านั้น บทความนี้ไม่ถือเป็นคำแนะนำทางการเงินหรือคำแนะนำใดๆ ทั้งสิ้น Coin Edition ไม่มีความรับผิดชอบต่อความสูญเสียใดๆ ที่เกิดขึ้นจากการใช้เนื้อหา ผลิตภัณฑ์ หรือบริการที่กล่าวถึง ผู้อ่านควรระมัดระวังก่อนดำเนินการใดๆ ที่เกี่ยวข้องกับบริษัท
