Trợ lý AI yêu thích của bạn có thể thông minh, nhưng các nhà nghiên cứu hiện cho rằng nó nên được đối xử với mức độ nghi ngờ tương tự như cách máy tính xử lý một chương trình được tải về ngẫu nhiên. Một bài báo tháng 5 năm 2026 được công bố trên arXiv lập luận rằng các tác nhân AI, đặc biệt là những tác nhân xử lý giao dịch tài chính, cần được thiết kế như những thành phần hoàn toàn không được tin cậy trong các hệ thống lớn hơn.
Bài báo có tựa đề “Agent Security is a Systems Problem” (arXiv:2605.18991) được công bố đúng vào thời điểm ngành công nghiệp tiền mã hóa đang đặt cược mạnh tay vào các tác nhân AI tự chủ để quản lý mọi thứ, từ giao dịch DeFi đến hoạt động ví. CEO của Circle, Jeremy Allaire, dự đoán rằng hàng tỷ tác nhân AI sẽ độc lập thực hiện các hoạt động kinh tế bằng stablecoin trong vòng ba đến năm năm tới.
So sánh với hệ điều hành
Các hệ điều hành hiện đại không tin tưởng các tiến trình riêng lẻ. Mỗi ứng dụng chạy trong một môi trường cách ly với quyền hạn hạn chế, chỉ có thể truy cập vào các tệp mà nó được cấp phép rõ ràng, và sẽ bị kết thúc nếu cố gắng vượt ra ngoài ranh giới của mình. Các nhà nghiên cứu muốn áp dụng triết lý tương tự cho các tác nhân AI.
Bài báo đề xuất ba biện pháp cụ thể. Thứ nhất, thực thi các bất biến bảo mật ở cấp hệ thống, tức là các quy tắc cứng không thể bị ghi đè bởi chính AI. Thứ hai, triển khai cách ly với quyền tối thiểu, nơi các tác nhân chỉ được truy cập vào các tài nguyên tối thiểu cần thiết cho nhiệm vụ cụ thể của chúng. Thứ ba, đảm bảo sự tách biệt hiệu quả giữa chỉ lệnh và dữ liệu, nhằm giải quyết một trong những vectơ tấn công nguy hiểm nhất hiện nay trong các hệ thống AI.
Điểm cuối cùng quan trọng hơn những gì bạn có thể tưởng tượng. Các cuộc tấn công chèn lệnh hoạt động chính xác vì các tác nhân AI thường không thể phân biệt được giữa các hướng dẫn hợp lệ và dữ liệu độc hại chứa các lệnh ẩn. Khi một tác nhân xử lý ghi chú giao dịch chứa bí mật các lệnh chuyển hướng quỹ, sự thiếu phân tách trở thành vấn đề trị giá 500.000 đô la.
Lời cảnh tỉnh 500.000 USD
Con số đó không phải là giả định. Một sự cố vào tháng 4 năm 2026 đã khiến đúng số tiền đó bị rút khỏi một ví tiền điện tử do lỗi trong cơ sở hạ tầng AI và các lời gọi công cụ độc hại. Cuộc tấn công đã khai thác loại lỗ hổng mà các nhà nghiên cứu đang cảnh báo: một tác nhân AI có quá nhiều quyền truy cập, thiếu xác minh đầy đủ các công cụ mà nó gọi, và không có cơ chế bảo vệ cấp hệ thống để phát hiện bất thường trước khi tiền bị rút khỏi ví.
Tính tự chủ của các tác nhân này làm tăng rủi ro. Một nhà giao dịch con người nhận được email lừa đảo có thể dừng lại và suy nghĩ. Một tác nhân AI nhận được một lệnh tiêm được thiết kế cẩn thận sẽ thực thi nó với tốc độ máy, có thể làm cạn kiệt tài sản trước khi bất kỳ hệ thống giám sát nào có thể phản ứng.
Câu trả lời phần cứng và quản trị
Một số công ty đã bắt đầu di chuyển theo hướng mà bài báo đề xuất. Ledger đã vạch ra lộ trình bảo mật năm 2026, bao gồm các sáng kiến bảo mật phần cứng được thiết kế đặc biệt cho môi trường tác nhân AI. Lập luận rất đơn giản: nếu bạn không thể hoàn toàn tin tưởng vào lớp phần mềm, hãy gắn các hoạt động quan trọng vào phần cứng cung cấp các đảm bảo mã hóa độc lập với hành vi của AI.
Khuyến nghị trong bài báo coi đây là một “vấn đề hệ thống” thay vì một “vấn đề mô hình” là một sự phân biệt mang ý nghĩa. Nó chuyển trách nhiệm từ riêng các nhà phát triển AI sang toàn bộ hệ sinh thái gồm các nhà cung cấp hạ tầng, nhà thiết kế giao thức và người vận hành nền tảng.
Điều này có nghĩa gì đối với nhà đầu tư
Theo dõi các giao thức triển khai tính toán có thể xác minh cho các hành động của tác nhân AI, xác thực hành vi tác nhân trên chuỗi và các kiểm soát truy cập nguyên tắc quyền tối thiểu bắt buộc. Những tính năng này rất có thể sẽ trở thành yêu cầu cơ bản cho các nền tảng tác nhân AI cấp tổ chức trong vòng 12 đến 18 tháng tới.
