Anthropic tiết lộ tỷ lệ bị chiếm quyền kiểm soát 31,5% đối với Opus 4.8 Browser Agent trước khi áp dụng các biện pháp bảo vệ

iconCryptoBriefing
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Anthropic báo cáo tỷ lệ bị chiếm đoạt 31,5% đối với trình duyệt agent Opus 4.8 trước khi áp dụng các biện pháp bảo mật. Công ty đã công bố một tài liệu hệ thống 244 trang vào ngày 28 tháng Năm, cho thấy tỷ lệ thành công giảm xuống còn 1% sau khi bổ sung các biện pháp bảo vệ. Những phát hiện này nhấn mạnh nhu cầu về bảo mật mạnh mẽ trong các hệ thống AI, đặc biệt là đối với các altcoin cần theo dõi dựa trên phân tích dữ liệu trên chuỗi và giao dịch tự động.

Gần một trong ba nỗ lực chiếm quyền kiểm soát tác nhân trình duyệt AI mới nhất của Anthropic đã thành công trước khi các biện pháp bảo vệ được kích hoạt. Đó không phải là tin đồn từ kênh Slack của nhóm red-team. Đó là một con số mà Anthropic đã công bố trong chính thẻ hệ thống của mình.

Công ty đã phát hành thẻ hệ thống Claude Opus 4.8 vào ngày 28 tháng Năm, gồm 244 trang và bao gồm bốn bề mặt tác nhân. Tỷ lệ bị chiếm quyền kiểm soát trước khi bảo vệ của tác nhân trình duyệt đạt 31,5%. Để hiểu đơn giản: nếu một kẻ tấn công độc hại thực hiện cuộc tấn công chèn lời nhắc vào mô hình trong khi nó đang lướt web, cuộc tấn công sẽ thành công khoảng một phần ba thời gian, giả sử không có lớp phòng vệ nào được kích hoạt.

Khoảng cách minh bạch giữa các phòng thí nghiệm tiên phong

Đây là vấn đề. Con số 31,5% trông có vẻ xấu khi xem xét riêng lẻ. Nhưng Anthropic là phòng thí nghiệm tiên phong duy nhất đã cung cấp cho các chuyên gia bảo mật một con số cụ thể để làm việc vào mùa xuân này.

OpenAI đã công bố thông báo về việc tiêm prompt chỉ bao gồm một khía cạnh: các bộ kết nối. Google đã di chuyển toàn bộ chủ đề này ra khỏi thẻ mô hình và đưa vào tài liệu khung an toàn rộng hơn, hiệu quả làm suy giảm tính cụ thể. Meta không công bố bất kỳ thẻ mô hình đóng nào.

Quảng cáo

Những biện pháp bảo vệ thực sự hoạt động như thế nào

Con số 31,5% là phép đo trước khi áp dụng các biện pháp bảo vệ, đây là bối cảnh quan trọng. Nó đại diện cho bề mặt dễ bị tổn thương thuần túy của mô hình trước khi các lớp phòng vệ của Anthropic được kích hoạt.

Việc kiểm tra sau bảo vệ trên mô hình liên quan Opus 4.5 cho thấy tỷ lệ thành công của các cuộc tấn công giảm xuống khoảng 1%. Đó là mức giảm khoảng 97% so với cơ sở không được bảo vệ.

Tiêm prompt vẫn là thách thức bảo mật hàng đầu đối với các hệ thống AI có khả năng đại diện. Khi một mô hình có thể duyệt web, điền form hoặc thực hiện các tác vụ nhiều bước thay cho người dùng, một cuộc tiêm thành công có thể chuyển hướng toàn bộ khả năng đại diện này vào mục tiêu của kẻ tấn công.

Các phiên bản trước của các thẻ hệ thống của Anthropic, bao gồm báo cáo Opus 4.7, cũng đã bao gồm các chỉ số định lượng về khả năng chống tiêm nhiễm. Công ty đã xây dựng được lịch sử công bố những con số này một cách nhất quán, giúp dữ liệu trở nên hữu ích hơn theo thời gian như một xu hướng thay vì chỉ là một bức ảnh đơn lẻ.

Tại sao điều này lại quan trọng đối với các nền tảng tích hợp crypto và AI

Ngành công nghiệp tiền mã hóa đang chìm sâu trong các tích hợp tác nhân AI. Các bot giao dịch tự chủ, quản lý danh mục đầu tư được trang bị AI, các công cụ phân tích dữ liệu trên chuỗi và các tác nhân DeFi thực hiện giao dịch dựa trên lệnh bằng ngôn ngữ tự nhiên đều đã hoạt động hoặc đang được phát triển trên hàng chục giao thức.

Tỷ lệ tấn công trước khi bảo vệ 31,5% nên khiến mọi đội ngũ phát triển các sản phẩm này phải dừng lại. Nếu tác nhân AI của bạn duyệt các nguồn dữ liệu bên ngoài, phân tích nội dung trên chuỗi từ các hợp đồng thông minh có thể mang tính đối kháng, hoặc đọc nội dung do người dùng tạo trên các diễn đàn và nền tảng mạng xã hội, thì việc tiêm lệnh nhắc nhở không phải là rủi ro lý thuyết. Đó là một rủi ro đã được đo lường.

Sự cải thiện sau biện pháp bảo vệ lên khoảng 1% là đáng khích lệ, nhưng đi kèm một lưu ý. Con số này đến từ môi trường kiểm thử của chính Anthropic. Các điều kiện triển khai thực tế, nơi các tác nhân tương tác với nội dung web hỗn loạn, không được kiểm soát và các đối thủ có động cơ tài chính lên đến hàng triệu đô la, sẽ thử thách các biện pháp phòng thủ này khác biệt so với một bài kiểm tra red-team.

Đối với các nhà đầu tư đánh giá các dự án tiền điện tử liên quan đến AI, khoảng cách minh bạch giữa các phòng thí nghiệm chính là một tín hiệu. Các giao thức xây dựng trên các mô hình Claude ít nhất có thể chỉ ra dữ liệu bảo mật đã công bố và giải thích các chiến lược giảm thiểu của họ. Các dự án dựa vào các mô hình từ các phòng thí nghiệm chưa công bố dữ liệu tương đương đang yêu cầu người dùng tin tưởng vào một hộp đen.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.