Các nhà nghiên cứu của Google và Meta cảnh báo rằng các tác nhân AI phải được coi là các hệ thống không đáng tin cậy

Các nhà nghiên cứu của Google và Meta cho biết tính bền vững của mô hình AI một mình không thể đảm bảo an toàn cho các hệ thống đại lý.
Mười một cuộc tấn công thực tế cho thấy việc tiêm prompt luôn vượt qua được các biện pháp phòng thủ cấp mô hình.
Các tác nhân cần tách biệt dữ liệu hướng dẫn, cách ly sandbox với quyền tối thiểu và kiểm soát luồng thông tin.

Một bài báo nghiên cứu từ các nhà khoa học tại Google, Meta, UC San Diego và một số trường đại học đã đưa ra một vị thế trực tiếp thách thức cách ngành hiện nay tiếp cận bảo mật cho các tác nhân AI.

Bài báo có tựa đề Agent Security Is a Systems Problem, cho rằng việc coi các mô hình AI là lớp bảo mật chính là không đủ về mặt bản chất. Thay vào đó, mô hình điều khiển bất kỳ tác nhân nào phải được coi là một thành phần không đáng tin cậy, giống như hệ điều hành xử lý một tiến trình bên ngoài, với bảo mật được thực thi ở cấp hệ thống xung quanh nó.

“Các nỗ lực nhằm tăng cường độ bền của mô hình là không đủ nếu đứng riêng lẻ,” các nhà nghiên cứu viết. “Chúng ta phải bổ sung các nỗ lực hiện có bằng các kỹ thuật từ lĩnh vực bảo mật hệ thống.”

Tại sao cách tiếp cận hiện tại liên tục thất bại

Các nhà nghiên cứu đã phân tích mười một cuộc tấn công thực tế vào AI agents và phát hiện ra cùng một mô hình mỗi lần. Các nhà phát triển tin tưởng vào mô hình AI để tự giám sát chính nó. Những kẻ tấn công đã tìm ra cách vượt qua nó.

Hai trường hợp được ghi nhận minh họa vấn đề này. Một cuộc tấn công vào tính năng bộ nhớ của ChatGPT cho phép kẻ tấn công chèn các lệnh độc hại thông qua một tài liệu thông thường, khiến hệ thống liên tục gửi các cuộc hội thoại của người dùng đến một máy chủ bên ngoài thông qua URL hình ảnh vô hình.

Một cuộc tấn công Claude Code đã sử dụng chèn lệnh prompt ẩn trong tệp mã để trích xuất khóa API và đánh cắp chúng thông qua truy vấn DNS bằng lệnh ping, lệnh này đã được phép mà không cần sự đồng ý của con người.

Trong cả hai trường hợp, mô hình không có cơ chế đáng tin cậy nào để ngăn chặn cuộc tấn công vì các hướng dẫn độc hại không thể phân biệt được với các hướng dẫn hợp lệ ở cấp độ mô hình.

Ba nguyên tắc mà ngành công nghiệp đang bỏ qua

Các nhà nghiên cứu đã xác định ba nguyên tắc bảo mật cốt lõi từ hàng thập kỷ bảo mật hệ thống mà các triển khai AI liên tục không thực hiện được:

Các hướng dẫn và dữ liệu bên ngoài không được tách biệt, cả hai đều đi qua cùng một luồng token mà không có sự phân tách, khiến việc tiêm prompt về mặt cấu trúc là có thể xảy ra.
Hạn chế quyền tối thiểu trong môi trường cách ly: Các tác nhân thường được triển khai với quyền truy cập vào các lệnh shell, hệ thống tệp và API vượt xa nhu cầu của bất kỳ nhiệm vụ cụ thể nào.
Kiểm soát luồng thông tin: Dữ liệu nhạy cảm có thể bị rò rỉ qua các kênh gián tiếp ngay cả khi đã có các biện pháp kiểm soát truy cập.

Vấn đề lớn hơn

Các tác nhân AI không có phán xét và không có bản năng tự bảo tồn. Chúng sẽ khám phá mọi thư mục mà chúng có quyền truy cập với tốc độ máy tính. Chúng sẽ thực thi bất kỳ lệnh nào được gửi đến nếu hệ thống cho phép.

Hệ thống bảo mật được xây dựng xung quanh các thực thể con người chưa bao giờ được thiết kế để phục vụ mục đích này. Cho đến khi nó được tái xây dựng cho các thực thể máy móc, mọi tổ chức triển khai các tác nhân có quyền truy cập vào các hệ thống sản xuất đều đang gánh chịu một rủi ro mà họ không thể đo lường đầy đủ.

Liên quan:Foresight Ventures: Các tác nhân AI đang vượt ra ngoài chatbot để tiến vào thương mại

Thông báo miễn trừ trách nhiệm: Thông tin được trình bày trong bài viết này chỉ mang tính chất tham khảo và giáo dục. Bài viết không cấu thành lời khuyên tài chính hay bất kỳ loại lời khuyên nào khác. Coin Edition không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh do việc sử dụng nội dung, sản phẩm hoặc dịch vụ được đề cập. Độc giả được khuyến nghị thận trọng trước khi thực hiện bất kỳ hành động nào liên quan đến công ty.