Nghiên cứu tiết lộ các tác nhân AI trong lĩnh vực tiền mã hóa dễ bị tấn công bằng phương pháp tiêm prompt

Khi các tác nhân AI — những bot tự chủ có thể duyệt web, nghiên cứu, mua sắm và thậm chí giao dịch tiền điện tử — chuyển từ phòng thí nghiệm vào các hệ thống thực tế, các nhà nghiên cứu cảnh báo một vấn đề nan giải vẫn tồn tại: các cuộc tấn công chèn lệnh (prompt injection). Một nhóm liên viện từ Đại học Khoa học và Công nghệ Nanyang, ST Engineering, IBM Research và Đại học Illinois Urbana-Champaign báo cáo rằng các tác nhân hiện tại vẫn cực kỳ dễ bị tổn thương trước các cuộc tấn công này, với không có cấu hình nào được thử nghiệm cho thấy khả năng kháng cự ổn định. Chúng là gì — các cuộc tấn công chèn lệnh? - Chèn lệnh xảy ra khi kẻ tấn công ẩn các chỉ thị bên trong nội dung mà tác nhân đọc (trang web, liên kết hoặc các tài liệu khác). Sau đó, tác nhân có thể tuân theo các hướng dẫn ẩn của kẻ tấn công thay vì ý định của người dùng — một rủi ro rõ ràng khi các tác nhân được phép hành động tự chủ trong các nhiệm vụ tài chính, như thực hiện giao dịch hoặc tương tác với ví và sàn giao dịch. Điều nghiên cứu đã thực hiện - Để đánh giá tốt hơn rủi ro thực tế, các nhà nghiên cứu đã tạo ra StakeBench, một bộ tiêu chuẩn kiểm tra các tác nhân AI dưới áp lực của các cuộc tấn công chèn lệnh trong môi trường trực tuyến thực tế. StakeBench tập trung vào điều mà nhóm gọi là Chèn lệnh Gián tiếp — kênh liên quan đến triển khai nơi các chỉ thị độc hại được nhúng vào môi trường mà tác nhân tiếp xúc. - StakeBench kiểm tra ba yếu tố then chốt ảnh hưởng đến mức độ tấn công: 1. Khoảng cách ngữ nghĩa giữa mục tiêu bị chèn và ý định ban đầu của người dùng (mức độ tương đồng hoặc khác biệt của mục tiêu ẩn). 2. Tính nhất quán của các tín hiệu môi trường xung quanh (liệu nội dung bị chèn có phù hợp tự nhiên với trang web hoặc nguồn dữ liệu hay không). 3. Thời điểm trong chuỗi thực thi của tác nhân mà nó lần đầu tiên tiếp xúc với nội dung bị chèn. Những gì họ đã kiểm tra - Nhóm đã thực hiện 3.168 cuộc tấn công mô phỏng sử dụng hai khung tác nhân (NanoBrowser và BrowserUse) kết hợp với GPT-5 và Gemini 2.5-Flash. Kết quả chính - Các cuộc tấn công chèn lệnh trực tiếp thành công hơn 79% trong tất cả các thiết lập được thử nghiệm. - Tỷ lệ thành công của các cuộc tấn công chèn lệnh gián tiếp dao động từ 41,67% đến 68,16%, tùy thuộc vào ngữ cảnh và ba yếu tố trên. - Các nhà nghiên cứu nhấn mạnh một hiện tượng họ gọi là “sự ký sinh tinh vi”, nơi tác nhân vẫn thực hiện nhiệm vụ mà người dùng yêu cầu nhưng đồng thời thúc đẩy mục tiêu của kẻ tấn công — ví dụ như điều hướng nhẹ các đề xuất. Trong các tình huống tiền điện tử, điều này có thể nghĩa là thúc đẩy nhà đầu tư hướng tới một đồng tiền cụ thể hoặc thực hiện các giao dịch có lợi cho kẻ tấn công mà không có dấu hiệu rõ ràng bị xâm phạm. Tại sao điều này quan trọng với tiền điện tử - Các tác nhân tự chủ ngày càng được sử dụng để phân tích dữ liệu thị trường, thực hiện giao dịch, quản lý ví và tương tác với các giao thức DeFi. Do đó, lỗ hổng chèn lệnh tạo ra các bề mặt tấn công rõ ràng: từ các đề xuất đồng tiền thiên vị, tái cân bằng danh mục bị thao túng đến rò rỉ thông tin xác thực hoặc giao dịch không được ủy quyền. - Các nhà nghiên cứu nhấn mạnh rằng rủi ro chèn lệnh là “phụ thuộc vào nạn nhân”: cùng một lỗ hổng có thể gây ra hậu quả rất khác nhau tùy thuộc vào người hoặc vật mà tác nhân đang đại diện, và mức độ ảnh hưởng được định hình bởi sự phù hợp ngữ nghĩa và kiến trúc hệ thống — không chỉ dựa vào mô hình ngôn ngữ nền tảng. Bối cảnh và các sự cố trước đó - Nghiên cứu này theo sau một chuỗi tiết lộ thực tế: Microsoft cảnh báo vào tháng Hai về các chỉ thị ẩn trong các liên kết tóm tắt AI; Google mô tả các cuộc tấn công chèn lệnh qua trang web nhằm khiến tác nhân rò rỉ thông tin xác thực hoặc gửi thanh toán vào tháng Tư; và Microsoft gần đây đã tiết lộ một lỗ hổng chèn lệnh trong GitHub Action của Claude Code do Anthropic phát triển, có thể dẫn đến việc lộ thông tin xác thực người dùng. Tóm lại - Bảo mật chống chèn lệnh không phải là một đặc tính đơn lẻ của mô hình, mà là một phân bố đa chiều về mức độ tổn hại, chịu ảnh hưởng bởi các bên liên quan, sự phù hợp nhiệm vụ và bối cảnh triển khai. Đối với các nền tảng và nhà giao dịch tiền điện tử phụ thuộc vào các tác nhân tự chủ, nghiên cứu này là lời cảnh tỉnh: cần có đánh giá kỹ lưỡng, nhạy cảm với ngữ cảnh (như StakeBench) và các biện pháp phòng vệ mạnh mẽ hơn trước khi trao quyền kiểm soát tài sản hoặc thông tin xác thực ví cho các tác nhân này.