Các nhà nghiên cứu của Google và Meta cảnh báo rằng các tác nhân AI phải được coi là các hệ thống không đáng tin cậy

iconCoinEdition
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Một bài nghiên cứu mới từ Google, Meta và Đại học California, San Diego cảnh báo rằng các mô hình AI đơn lẻ không thể bảo mật các hệ thống tác nhân. Nghiên cứu chi tiết 11 cuộc tấn công thực tế sử dụng kỹ thuật prompt injection để vô hiệu hóa các biện pháp phòng vệ của mô hình. Bài nghiên cứu đề xuất ba nguyên tắc bảo mật: tách biệt hướng dẫn/dữ liệu, cách ly với quyền tối thiểu và kiểm soát luồng thông tin. Những phát hiện này có liên quan đến tin tức AI + tiền điện tử và làm nổi bật các rủi ro đối với tin tức về tài sản thực tế (RWA).
  • Các nhà nghiên cứu của Google và Meta cho biết tính bền vững của mô hình AI một mình không thể đảm bảo an toàn cho các hệ thống đại lý.
  • Mười một cuộc tấn công thực tế cho thấy việc tiêm prompt luôn vượt qua được các biện pháp phòng thủ cấp mô hình.
  • Các tác nhân cần tách biệt dữ liệu hướng dẫn, cách ly sandbox với quyền tối thiểu và kiểm soát luồng thông tin.

Một bài báo nghiên cứu từ các nhà khoa học tại Google, Meta, UC San Diego và một số trường đại học đã đưa ra một vị thế trực tiếp thách thức cách ngành hiện nay tiếp cận bảo mật cho các tác nhân AI.

Bài báo có tựa đề Agent Security Is a Systems Problem, cho rằng việc coi các mô hình AI là lớp bảo mật chính là không đủ về mặt bản chất. Thay vào đó, mô hình điều khiển bất kỳ tác nhân nào phải được coi là một thành phần không đáng tin cậy, giống như hệ điều hành xử lý một tiến trình bên ngoài, với bảo mật được thực thi ở cấp hệ thống xung quanh nó.

“Các nỗ lực nhằm tăng cường độ bền của mô hình là không đủ nếu đứng riêng lẻ,” các nhà nghiên cứu viết. “Chúng ta phải bổ sung các nỗ lực hiện có bằng các kỹ thuật từ lĩnh vực bảo mật hệ thống.”

Tại sao cách tiếp cận hiện tại liên tục thất bại

Các nhà nghiên cứu đã phân tích mười một cuộc tấn công thực tế vào AI agents và phát hiện ra cùng một mô hình mỗi lần. Các nhà phát triển tin tưởng vào mô hình AI để tự giám sát chính nó. Những kẻ tấn công đã tìm ra cách vượt qua nó.

Hai trường hợp được ghi nhận minh họa vấn đề này. Một cuộc tấn công vào tính năng bộ nhớ của ChatGPT cho phép kẻ tấn công chèn các lệnh độc hại thông qua một tài liệu thông thường, khiến hệ thống liên tục gửi các cuộc hội thoại của người dùng đến một máy chủ bên ngoài thông qua URL hình ảnh vô hình.

Một cuộc tấn công Claude Code đã sử dụng chèn lệnh prompt ẩn trong tệp mã để trích xuất khóa API và đánh cắp chúng thông qua truy vấn DNS bằng lệnh ping, lệnh này đã được phép mà không cần sự đồng ý của con người.

Trong cả hai trường hợp, mô hình không có cơ chế đáng tin cậy nào để ngăn chặn cuộc tấn công vì các hướng dẫn độc hại không thể phân biệt được với các hướng dẫn hợp lệ ở cấp độ mô hình.

Ba nguyên tắc mà ngành công nghiệp đang bỏ qua

Các nhà nghiên cứu đã xác định ba nguyên tắc bảo mật cốt lõi từ hàng thập kỷ bảo mật hệ thống mà các triển khai AI liên tục không thực hiện được:

  • Các hướng dẫn và dữ liệu bên ngoài không được tách biệt, cả hai đều đi qua cùng một luồng token mà không có sự phân tách, khiến việc tiêm prompt về mặt cấu trúc là có thể xảy ra.
  • Hạn chế quyền tối thiểu trong môi trường cách ly: Các tác nhân thường được triển khai với quyền truy cập vào các lệnh shell, hệ thống tệp và API vượt xa nhu cầu của bất kỳ nhiệm vụ cụ thể nào.
  • Kiểm soát luồng thông tin: Dữ liệu nhạy cảm có thể bị rò rỉ qua các kênh gián tiếp ngay cả khi đã có các biện pháp kiểm soát truy cập.

Vấn đề lớn hơn

Các tác nhân AI không có phán xét và không có bản năng tự bảo tồn. Chúng sẽ khám phá mọi thư mục mà chúng có quyền truy cập với tốc độ máy tính. Chúng sẽ thực thi bất kỳ lệnh nào được gửi đến nếu hệ thống cho phép.

Hệ thống bảo mật được xây dựng xung quanh các thực thể con người chưa bao giờ được thiết kế để phục vụ mục đích này. Cho đến khi nó được tái xây dựng cho các thực thể máy móc, mọi tổ chức triển khai các tác nhân có quyền truy cập vào các hệ thống sản xuất đều đang gánh chịu một rủi ro mà họ không thể đo lường đầy đủ.

Liên quan:Foresight Ventures: Các tác nhân AI đang vượt ra ngoài chatbot để tiến vào thương mại

Thông báo miễn trừ trách nhiệm: Thông tin được trình bày trong bài viết này chỉ mang tính chất tham khảo và giáo dục. Bài viết không cấu thành lời khuyên tài chính hay bất kỳ loại lời khuyên nào khác. Coin Edition không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh do việc sử dụng nội dung, sản phẩm hoặc dịch vụ được đề cập. Độc giả được khuyến nghị thận trọng trước khi thực hiện bất kỳ hành động nào liên quan đến công ty.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.