นักวิจัยจาก Google และ Meta เตือนว่าตัวแทน AI ต้องได้รับการจัดการเป็นระบบที่ไม่น่าเชื่อถือ

นักวิจัยจาก Google และ Meta ระบุว่า ความแข็งแกร่งของโมเดล AI เพียงอย่างเดียวไม่สามารถรับประกันความปลอดภัยของระบบตัวแทนได้
การโจมตีจริง 11 ครั้งแสดงให้เห็นว่าการฉีดคำสั่งสามารถหลีกเลี่ยงการป้องกันระดับโมเดลได้ทุกครั้ง
ตัวแทนต้องการการแยกข้อมูลคำสั่ง การจำกัดสิทธิ์ขั้นต่ำแบบแซนด์บ็อกซ์ และการควบคุมการไหลของข้อมูล

เอกสารวิจัยจากนักวิทยาศาสตร์ที่ Google, Meta, UC San Diego และมหาวิทยาลัยหลายแห่งได้รับตำแหน่งที่ชัดเจนซึ่งท้าทายวิธีการที่อุตสาหกรรมปัจจุบันใช้ในการรักษาความปลอดภัยของตัวแทน AI

เอกสารที่มีชื่อว่า Agent Security Is a Systems Problem โต้แย้ง ว่าการถือว่าโมเดลปัญญาประดิษฐ์เป็นชั้นความปลอดภัยหลักนั้นไม่เพียงพอโดยพื้นฐาน แทนที่จะเป็นเช่นนั้น โมเดลที่ขับเคลื่อนเอเจนต์ใดๆ ควรได้รับการพิจารณาว่าเป็นส่วนประกอบที่ไม่น่าเชื่อถือ เหมือนกับที่ระบบปฏิบัติการพิจารณากระบวนการภายนอก โดยการบังคับใช้ความปลอดภัยในระดับระบบรอบๆ มัน

“ความพยายามในการเพิ่มความแข็งแกร่งของโมเดลนั้นไม่เพียงพอต่อตัวเอง” นักวิจัยเขียน “เราต้องเสริมความพยายามที่มีอยู่ด้วยเทคนิคจากโดเมนความปลอดภัยของระบบ”

เหตุใดวิธีการปัจจุบันจึงยังล้มเหลว

นักวิจัยวิเคราะห์การโจมตีจริง 11 ครั้งบน AI agents และพบรูปแบบเดียวกันทุกครั้ง นักพัฒนาไว้วางใจโมเดล AI ในการควบคุมตัวเอง ผู้โจมตีพบวิธีหลีกเลี่ยงมัน

มีกรณีที่ได้รับการบันทึกสองกรณีที่แสดงให้เห็นปัญหานี้ การโจมตีฟีเจอร์ความจำของ ChatGPT ทำให้ผู้โจมตีสามารถแทรกคำสั่งที่เป็นอันตรายผ่านเอกสารทั่วไป ทำให้ระบบส่งการสนทนาของผู้ใช้ไปยังเซิร์ฟเวอร์ภายนอกผ่าน URL รูปภาพที่มองไม่เห็น

การโจมตีแบบ Claude Code ใช้การฉีดคำสั่งที่ซ่อนอยู่ในไฟล์โค้ดเพื่อดึงคีย์ API และส่งออกข้อมูลผ่านการสอบถาม DNS โดยใช้คำสั่ง ping ซึ่งได้รับอนุญาตโดยไม่ต้องได้รับการอนุมัติจากมนุษย์

ในทั้งสองกรณี โมเดลไม่มีกลไกที่เชื่อถือได้ในการหยุดการโจมตี เพราะคำสั่งที่เป็นอันตรายไม่สามารถแยกแยะออกจากคำสั่งที่ถูกต้องได้ในระดับโมเดล

สามหลักการที่อุตสาหกรรมกำลังมองข้าม

นักวิจัยได้ระบุหลักความปลอดภัยพื้นฐานสามข้อจากหลายทศวรรษของความปลอดภัยระบบซึ่งการนำ AI ไปใช้งานมักล้มเหลวในการดำเนินการ:

คำสั่งและข้อมูลถูกแยกออกจากกัน: คำสั่งที่เชื่อถือได้และข้อมูลภายนอกที่ไม่น่าเชื่อถือไหลผ่านสตรีมโทเค็นเดียวกันโดยไม่มีการแยกจากกัน ทำให้การโจมตีแบบ prompt injection เป็นไปได้ในเชิงโครงสร้าง
การแยก sandbox ด้วยสิทธิ์ขั้นต่ำสุด: ตัวแทนมักถูกใช้งานด้วยสิทธิ์ในการเข้าถึงคำสั่ง shell ระบบไฟล์ และ API มากกว่าที่งานใดงานหนึ่งต้องการ
การควบคุมการไหลของข้อมูล: ข้อมูลที่ละเอียดอ่อนสามารถรั่วไหลผ่านช่องทางอ้อมได้แม้จะมีการควบคุมการเข้าถึง

ปัญหาที่ใหญ่กว่า

ตัวแทน AI ไม่มีการตัดสินใจและไม่มีสัญชาตญาณในการรักษาตนเอง พวกเขาจะสำรวจทุกไดเรกทอรีที่สามารถเข้าถึงได้ด้วยความเร็วของเครื่อง พวกเขาจะดำเนินการคำสั่งใดๆ ก็ตามที่ส่งถึงพวกเขา หากระบบอนุญาต

โครงสร้างพื้นฐานด้านความปลอดภัยที่สร้างขึ้นรอบตัวบุคคลนั้นไม่ได้ถูกออกแบบมาสำหรับสิ่งนี้เลย จนกว่ามันจะถูกสร้างใหม่สำหรับตัวแทนที่เป็นเครื่องจักร ทุกองค์กรที่ใช้งานตัวแทนที่มีสิทธิ์เข้าถึงระบบผลิตจะต้องรับความเสี่ยงที่ไม่สามารถวัดได้อย่างสมบูรณ์

ที่เกี่ยวข้อง:Foresight Ventures: ตัวแทน AI กำลังก้าวพ้นจากแชทบอทไปสู่การค้า

ข้อจำกัดความรับผิด: ข้อมูลที่นำเสนอในบทความนี้มีวัตถุประสงค์เพื่อการให้ข้อมูลและการศึกษาเท่านั้น บทความนี้ไม่ถือเป็นคำแนะนำทางการเงินหรือคำแนะนำใดๆ ทั้งสิ้น Coin Edition ไม่มีความรับผิดชอบต่อความสูญเสียใดๆ ที่เกิดขึ้นจากการใช้เนื้อหา ผลิตภัณฑ์ หรือบริการที่กล่าวถึง ผู้อ่านควรระมัดระวังก่อนดำเนินการใดๆ ที่เกี่ยวข้องกับบริษัท