Anthropic tiết lộ tỷ lệ bị chiếm quyền kiểm soát 31,5% đối với Opus 4.8 Browser Agent trước khi áp dụng các biện pháp bảo vệ

Gần một trong ba nỗ lực chiếm quyền kiểm soát tác nhân trình duyệt AI mới nhất của Anthropic đã thành công trước khi các biện pháp bảo vệ được kích hoạt. Đó không phải là tin đồn từ kênh Slack của nhóm red-team. Đó là một con số mà Anthropic đã công bố trong chính thẻ hệ thống của mình.

Công ty đã phát hành thẻ hệ thống Claude Opus 4.8 vào ngày 28 tháng Năm, gồm 244 trang và bao gồm bốn bề mặt tác nhân. Tỷ lệ bị chiếm quyền kiểm soát trước khi bảo vệ của tác nhân trình duyệt đạt 31,5%. Để hiểu đơn giản: nếu một kẻ tấn công độc hại thực hiện cuộc tấn công chèn lời nhắc vào mô hình trong khi nó đang lướt web, cuộc tấn công sẽ thành công khoảng một phần ba thời gian, giả sử không có lớp phòng vệ nào được kích hoạt.

Khoảng cách minh bạch giữa các phòng thí nghiệm tiên phong

Đây là vấn đề. Con số 31,5% trông có vẻ xấu khi xem xét riêng lẻ. Nhưng Anthropic là phòng thí nghiệm tiên phong duy nhất đã cung cấp cho các chuyên gia bảo mật một con số cụ thể để làm việc vào mùa xuân này.

OpenAI đã công bố thông báo về việc tiêm prompt chỉ bao gồm một khía cạnh: các bộ kết nối. Google đã di chuyển toàn bộ chủ đề này ra khỏi thẻ mô hình và đưa vào tài liệu khung an toàn rộng hơn, hiệu quả làm suy giảm tính cụ thể. Meta không công bố bất kỳ thẻ mô hình đóng nào.

Quảng cáo

Những biện pháp bảo vệ thực sự hoạt động như thế nào

Con số 31,5% là phép đo trước khi áp dụng các biện pháp bảo vệ, đây là bối cảnh quan trọng. Nó đại diện cho bề mặt dễ bị tổn thương thuần túy của mô hình trước khi các lớp phòng vệ của Anthropic được kích hoạt.

Việc kiểm tra sau bảo vệ trên mô hình liên quan Opus 4.5 cho thấy tỷ lệ thành công của các cuộc tấn công giảm xuống khoảng 1%. Đó là mức giảm khoảng 97% so với cơ sở không được bảo vệ.

Tiêm prompt vẫn là thách thức bảo mật hàng đầu đối với các hệ thống AI có khả năng đại diện. Khi một mô hình có thể duyệt web, điền form hoặc thực hiện các tác vụ nhiều bước thay cho người dùng, một cuộc tiêm thành công có thể chuyển hướng toàn bộ khả năng đại diện này vào mục tiêu của kẻ tấn công.

Các phiên bản trước của các thẻ hệ thống của Anthropic, bao gồm báo cáo Opus 4.7, cũng đã bao gồm các chỉ số định lượng về khả năng chống tiêm nhiễm. Công ty đã xây dựng được lịch sử công bố những con số này một cách nhất quán, giúp dữ liệu trở nên hữu ích hơn theo thời gian như một xu hướng thay vì chỉ là một bức ảnh đơn lẻ.

Tại sao điều này lại quan trọng đối với các nền tảng tích hợp crypto và AI

Ngành công nghiệp tiền mã hóa đang chìm sâu trong các tích hợp tác nhân AI. Các bot giao dịch tự chủ, quản lý danh mục đầu tư được trang bị AI, các công cụ phân tích dữ liệu trên chuỗi và các tác nhân DeFi thực hiện giao dịch dựa trên lệnh bằng ngôn ngữ tự nhiên đều đã hoạt động hoặc đang được phát triển trên hàng chục giao thức.

Tỷ lệ tấn công trước khi bảo vệ 31,5% nên khiến mọi đội ngũ phát triển các sản phẩm này phải dừng lại. Nếu tác nhân AI của bạn duyệt các nguồn dữ liệu bên ngoài, phân tích nội dung trên chuỗi từ các hợp đồng thông minh có thể mang tính đối kháng, hoặc đọc nội dung do người dùng tạo trên các diễn đàn và nền tảng mạng xã hội, thì việc tiêm lệnh nhắc nhở không phải là rủi ro lý thuyết. Đó là một rủi ro đã được đo lường.

Sự cải thiện sau biện pháp bảo vệ lên khoảng 1% là đáng khích lệ, nhưng đi kèm một lưu ý. Con số này đến từ môi trường kiểm thử của chính Anthropic. Các điều kiện triển khai thực tế, nơi các tác nhân tương tác với nội dung web hỗn loạn, không được kiểm soát và các đối thủ có động cơ tài chính lên đến hàng triệu đô la, sẽ thử thách các biện pháp phòng thủ này khác biệt so với một bài kiểm tra red-team.

Đối với các nhà đầu tư đánh giá các dự án tiền điện tử liên quan đến AI, khoảng cách minh bạch giữa các phòng thí nghiệm chính là một tín hiệu. Các giao thức xây dựng trên các mô hình Claude ít nhất có thể chỉ ra dữ liệu bảo mật đã công bố và giải thích các chiến lược giảm thiểu của họ. Các dự án dựa vào các mô hình từ các phòng thí nghiệm chưa công bố dữ liệu tương đương đang yêu cầu người dùng tin tưởng vào một hộp đen.