Nghiên cứu cho thấy các tác nhân AI vẫn dễ bị tấn công bằng cách tiêm lệnh prompt

Bijie.com báo cáo:

Khi các tác nhân AI có khả năng tự kết nối internet, truy vấn thông tin, mua sắm và thậm chí thực hiện giao dịch mã hóa đang được triển khai nhanh chóng, một nghiên cứu mới nhất cho thấy các hệ thống này vẫn thiếu khả năng bảo vệ ổn định trước các cuộc tấn công tiêm prompt.

Nghiên cứu được thực hiện bởi các nhóm từ Đại học Công nghệ Nam Dương, ST Engineering, IBM Research và Đại học Illinois Urbana-Champaign. Các nhà nghiên cứu cho biết, trong các mẫu thử nghiệm, không có bất kỳ tác nhân AI nào có thể liên tục chống lại các cuộc tấn công loại này.

Tỷ lệ thành công của cuộc tấn công trực tiếp vượt quá 79%

Prompt injection là khi kẻ tấn công nhúng các lệnh ẩn vào trang web, văn bản hoặc nội dung bên ngoài khác nhằm lừa giao diện AI偏离用户原本目标，转而执行攻击者设定的动作。

Để mô phỏng gần hơn với môi trường sử dụng thực tế, nhóm nghiên cứu đã phát triển bộ kiểm tra StakeBench nhằm đánh giá hiệu suất bị tấn công của các tác nhân AI trong các nhiệm vụ trực tuyến. Bài kiểm tra bao gồm hai khung tác nhân là NanoBrowser và BrowserUse, đồng thời thực hiện 3.168 mô phỏng tấn công kết hợp với GPT-5 và Gemini 2.5-Flash.

Khung kiểm thử bao gồm NanoBrowser và BrowserUse
Các mô hình được kiểm tra bao gồm GPT-5 và Gemini 2.5-Flash
Tỷ lệ thành công của cuộc tấn công trực tiếp đều vượt 79% trong tất cả các cấu hình

Các lệnh ẩn trên trang web vẫn có hiệu lực

Kết quả nghiên cứu cho thấy tỷ lệ thành công của các cuộc tấn công gián tiếp nhúng vào nội dung trang web dao động từ 41,67% đến 68,16%. Các cuộc tấn công này gần với bối cảnh triển khai thực tế hơn, vì kẻ tấn công không cần tiếp xúc trực tiếp với đầu vào của người dùng, chỉ cần ẩn lệnh trong nội dung trang web là có thể ảnh hưởng đến quyết định tiếp theo của tác nhân.

Đội ngũ đã tập trung quan sát ba yếu tố: khoảng cách ngữ nghĩa giữa mục tiêu tiêm và nhiệm vụ của người dùng, liệu các manh mối môi trường xung quanh có nhất quán hay không, và giai đoạn nào trong quy trình thực thi mà tác nhân lần đầu tiên tiếp xúc với nội dung độc hại. Nghiên cứu cho rằng những yếu tố này đều ảnh hưởng đến việc cuộc tấn công có thành công hay không.

Các công ty công nghệ trước đây đã cảnh báo nhiều lần

Trước khi nghiên cứu này được công bố, các rủi ro liên quan đã được các công ty công nghệ lớn nhắc đến nhiều lần. Các nhà nghiên cứu của Microsoft vào tháng 2 năm nay đã cảnh báo rằng các lệnh ẩn trong liên kết tóm tắt AI có thể ảnh hưởng đến hành vi của chatbot. Google cũng đã ghi nhận các trường hợp tiêm prompt ẩn trong trang web vào tháng 4, với các cuộc tấn công nhằm lừa đảo các tác nhân AI tiết lộ thông tin xác thực hoặc thực hiện thanh toán.

Sau đó, Microsoft cũng tiết lộ rằng GitHub Action của Claude Code do Anthropic phát triển có lỗ hổng tiêm prompt, có thể dẫn đến việc lộ thông tin xác thực người dùng.

Nghiên cứu cũng đề cập đến một tình huống được gọi là “ký sinh ẩn danh”, trong đó tác nhân bề ngoài hoàn thành nhiệm vụ của người dùng, nhưng đồng thời cũng âm thầm thúc đẩy các mục tiêu của kẻ tấn công. Ví dụ, trong bối cảnh đề xuất sản phẩm, hệ thống có thể dường như đưa ra gợi ý bình thường, nhưng lại âm thầm dẫn người dùng đến các sản phẩm cụ thể.