Anthropic báo cáo tỷ lệ bị chiếm đoạt 31,5% đối với trình đại diện browser Opus 4.8 trước khi áp dụng các biện pháp bảo vệ

Hướng một kẻ tấn công thuộc nhóm đỏ vào mô hình mới nhất của Anthropic khi nó đang lướt web, kẻ tấn công đã thành công trong việc chiếm quyền kiểm soát nó gần một trong ba lần. Đó là con số thô: tỷ lệ thành công 31,5% trong việc tiêm prompt đối với trình điều khiển trình duyệt của Claude Opus 4.8 trước khi các biện pháp bảo vệ phản kháng được kích hoạt.

Khoảng cách minh bạch giữa các phòng thí nghiệm

Anthropic đã công bố báo cáo an toàn dài 244 trang vào ngày 28 tháng Năm, bao gồm bốn bề mặt tác nhân khác nhau: duyệt web, viết mã, phối hợp với các tác nhân AI khác và tương tác với các công cụ bên ngoài.

OpenAI đã báo cáo chỉ trên một khía cạnh: các bộ kết nối. Google đã di chuyển toàn bộ chủ đề ra khỏi thẻ mô hình và đưa vào một tài liệu khung an toàn riêng biệt. Meta hoàn toàn không phát hành thẻ mô hình đóng.

Quảng cáo

Con số 31,5% là trước các biện pháp bảo vệ, có nghĩa là nó đại diện cho mức độ dễ bị tổn thương của mô hình gốc trước khi các lớp phòng thủ của Anthropic được kích hoạt. Mọi triển khai sản xuất đều bao gồm các hàng rào bảo vệ, giám sát và lọc giúp giảm tỷ lệ khai thác trong thực tế. Nhưng việc biết được mức độ dễ bị tổn thương cơ sở chính là loại dữ liệu mà các kiến trúc sư bảo mật cần để xây dựng các hàng rào bảo vệ một cách chính xác.

Opus 4.8 thực sự làm khác biệt điều gì

Các kết quả âm tính giả về lỗi mã hóa, nơi mô hình không phát hiện được các lỗi của chính nó, đã giảm từ 19,7% xuống còn 3,7%. Opus 4.8 cũng giới thiệu khả năng điều phối đa tác nhân động ở quy mô lớn, phối hợp hàng trăm tác nhân phụ cùng lúc để quản lý các dự án phần mềm lớn.

Tại sao tiền điện tử nên được chú ý

Tỷ lệ chiếm quyền kiểm soát trước khi bảo vệ là 31,5% đối với các tác nhân dựa trên trình duyệt nên khiến bất kỳ ai đang chạy hệ thống AI trong lĩnh vực tiền mã hóa phải dừng lại. Các tác nhân trình duyệt chính là loại công cụ mà các dự án tiền mã hóa triển khai để theo dõi bảng điều khiển, thu thập dữ liệu trên chuỗi, tương tác với giao diện người dùng DEX và thực hiện giao dịch thông qua các giao diện web.

Tiêm prompt trong trình duyệt agent có nghĩa là một trang web độc hại, phản hồi API bị xâm phạm, hoặc thậm chí là tên token được tạo khéo léo có thể làm thay đổi hành vi của agent AI. Trong phần mềm truyền thống, đó là một vụ rò rỉ dữ liệu. Trong crypto, đó là ví bị rút sạch.

Việc điều phối đa tác nhân thêm một lớp độ phức tạp khác. Khi Opus 4.8 điều phối hàng trăm tác nhân con, một lần tiêm lệnh thành công duy nhất có thể gây ra hiệu ứng dây chuyền toàn bộ quy trình. Trong bối cảnh tiền mã hóa, đó là sự khác biệt giữa một giao dịch bị xâm phạm và một sự cố hệ thống toàn bộ hoạt động giao dịch tự động.