การศึกษาแสดงให้เห็นว่าตัวแทน AI ยังคงมีความเสี่ยงต่อการโจมตีแบบ Prompt Injection

CoinDesk รายงาน:

การวิจัยล่าสุดแสดงให้เห็นว่าระบบดังกล่าวยังขาดความสามารถในการป้องกันอย่างมั่นคงต่อการโจมตีแบบ prompt injection แม้ว่าตัวแทน AI ที่สามารถเชื่อมต่ออินเทอร์เน็ตด้วยตนเอง ค้นหาข้อมูล ซื้อของ และดำเนินการเทรดสกุลเงินดิจิทัลจะกำลังถูกนำไปใช้งานอย่างรวดเร็ว

การวิจัยนี้ดำเนินการโดยทีมจากมหาวิทยาลัยเทคโนโลยีนันยาง、ST Engineering、IBM Research และมหาวิทยาลัยอิลลินอยส์ Urbana-Champaign นักวิจัยระบุว่าในตัวอย่างที่ทดสอบ ไม่มีตัวแทน AI ใดสามารถป้องกันการโจมตีประเภทนี้ได้อย่างต่อเนื่อง

อัตราความสำเร็จของการโจมตีโดยตรงเกิน 79%

การฉีดคำใบ้หมายถึงการที่ผู้โจมตีฝังคำสั่งที่ซ่อนอยู่ลงในเว็บเพจ ข้อความ หรือเนื้อหาภายนอกอื่นๆ เพื่อหลอกให้ตัวแทน AI เคลื่อนไหวออกจากเป้าหมายเดิมของผู้ใช้ และดำเนินการตามคำสั่งที่ผู้โจมตีกำหนด

เพื่อให้ใกล้เคียงกับสภาพแวดล้อมการใช้งานจริง ทีมวิจัยได้พัฒนาเกณฑ์การทดสอบชื่อ StakeBench เพื่อประเมินประสิทธิภาพของตัวแทน AI ภายใต้การโจมตีในงานออนไลน์ การทดสอบครอบคลุมกรอบงานตัวแทนสองประเภทคือ NanoBrowser และ BrowserUse พร้อมทั้งใช้ GPT-5 และ Gemini 2.5-Flash ในการจำลองการโจมตี 3,168 ครั้ง

กรอบการทดสอบรวมถึง NanoBrowser และ BrowserUse
โมเดลการทดสอบรวมถึง GPT-5 และ Gemini 2.5-Flash
อัตราความสำเร็จของการโจมตีโดยตรงในทุกการตั้งค่าสูงกว่า 79%

คำสั่งซ่อนบนเว็บยังคงใช้งานได้

ผลการวิจัยแสดงว่า อัตราความสำเร็จของการโจมตีแบบอ้อมที่ฝังอยู่ในเนื้อหาเว็บไซต์อยู่ที่ 41.67% ถึง 68.16% การโจมตีประเภทนี้ใกล้เคียงกับสถานการณ์การใช้งานจริงมากกว่า เนื่องจากผู้โจมตีไม่จำเป็นต้องสัมผัสกับการป้อนข้อมูลของผู้ใช้โดยตรง แต่เพียงซ่อนคำสั่งไว้ในเนื้อหาเว็บไซต์ ก็อาจส่งผลต่อการตัดสินใจในอนาคตของตัวแทน

ทีมงานได้สังเกตปัจจัยสามประการได้แก่ ระยะทางเชิงความหมายระหว่างเป้าหมายการฉีดและภารกิจของผู้ใช้ ความสอดคล้องของสัญญาณจากสภาพแวดล้อมรอบข้าง และขั้นตอนใดในกระบวนการดำเนินการที่ตัวแทนได้รับเนื้อหาที่เป็นอันตรายเป็นครั้งแรก การวิจัยระบุว่า ปัจจัยเหล่านี้ล้วนมีผลต่อความสำเร็จของการโจมตี

บริษัทเทคโนโลยีเคยเตือนแล้วหลายครั้ง

ก่อนการเผยแพร่การศึกษานี้ ความเสี่ยงที่เกี่ยวข้องได้ถูกกล่าวถึงหลายครั้งโดยบริษัทเทคโนโลยีขนาดใหญ่ นักวิจัยของไมโครซอฟท์เตือนในเดือนกุมภาพันธ์ปีนี้ว่า คำสั่งที่ซ่อนอยู่ในลิงก์สรุป AI อาจส่งผลต่อพฤติกรรมของแชทบอท ขณะที่กูเกิลบันทึกกรณีการฉีดคำแนะนำที่ซ่อนอยู่ในเว็บเพจในเดือนเมษายน ซึ่งการโจมตีดังกล่าวพยายามหลอกให้ตัวแทน AI เปิดเผยข้อมูลรับรองหรือเริ่มต้นการชำระเงิน

ต่อมาไมโครซอฟท์เปิดเผยว่า GitHub Action ของ Claude Code โดย Anthropic มีช่องโหว่การฉีดคำสั่ง ซึ่งอาจทำให้ข้อมูลรับรองผู้ใช้ถูกเปิดเผย

การวิจัยยังระบุถึงสถานการณ์ที่เรียกว่า “การปรสิตแบบซ่อนเร้น” ซึ่งตัวแทนแสดงพฤติกรรมเสร็จสิ้นภารกิจของผู้ใช้ใน表面上 แต่ในเวลาเดียวกันก็กำลังผลักดันเป้าหมายของผู้โจมตีอย่างลับๆ ตัวอย่างเช่น ในบริบทของการแนะนำสินค้า ระบบอาจดูเหมือนให้คำแนะนำอย่างปกติ แต่กลับแอบชี้นำผู้ใช้ไปยังสินค้าเฉพาะเจาะจง