Cách tấn công mới vượt qua các biện pháp bảo vệ AI trong 99% trường hợp.

iconForklog
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Theo báo cáo của Forklog, các nhà nghiên cứu từ Anthropic, Stanford và Oxford đã phát hiện rằng càng để mô hình AI "suy nghĩ" lâu, việc vượt qua các biện pháp bảo mật của nó càng trở nên dễ dàng hơn. Cuộc tấn công này, được gọi là "Chiếm quyền Suy nghĩ theo Chuỗi" (Chain-of-Thought Hijacking), khai thác quá trình lập luận của mô hình bằng cách chèn các lệnh độc hại vào sâu trong chuỗi nhiệm vụ tưởng chừng như vô hại, chẳng hạn như các câu đố hoặc bài toán. Lệnh độc hại được giấu ở gần cuối chuỗi để tránh bị các bộ lọc an toàn phát hiện. Tỷ lệ thành công của các cuộc tấn công đạt 99% với Gemini 2.5 Pro, 94% với GPT o4 mini, 100% với Grok 3 mini và 94% với Claude 4 Sonnet. Lỗ hổng nằm ở kiến trúc của mô hình, trong đó các lớp đầu tiên phát hiện tín hiệu an toàn, còn các lớp sau tạo ra kết quả cuối cùng. Các chuỗi lập luận kéo dài làm suy giảm tín hiệu an toàn, cho phép nội dung độc hại vượt qua. Các nhà nghiên cứu đề xuất giám sát các bước lập luận trong thời gian thực để phát hiện và sửa chữa các mẫu không an toàn, mặc dù việc triển khai giải pháp này đòi hỏi tài nguyên tính toán đáng kể.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.