Nhà Trắng và Anthropic thảo luận về khung đánh giá an toàn mô hình AI

Bijiewang báo cáo:

Nhà Trắng Hoa Kỳ đang thảo luận với công ty AI Anthropic về một khung đánh giá an toàn mô hình, nhằm mục tiêu xây dựng phương pháp phân cấp thống nhất cho các lỗ hổng an toàn của các mô hình AI thế hệ mới, từ đó xác định liệu chính phủ có cần can thiệp hay không. Sự việc này xảy ra sau khi Hoa Kỳ trước đó đã áp đặt hạn chế xuất khẩu đối với mô hình mới nhất của Anthropic do một vấn đề an toàn được xác định là “bypass”.

Xây dựng tiêu chuẩn thống nhất xung quanh lỗ hổng "越狱"

Theo báo cáo, khung này sẽ được sử dụng để đánh giá mức độ nghiêm trọng của các sự kiện tương tự trong tương lai, với trọng tâm vào ba nội dung: mức độ các biện pháp phòng vệ bị vượt qua, các khả năng của mô hình bị phơi bày, và hậu quả thực tế của lỗ hổng.

Hiện tại, sự khác biệt giữa chính phủ và doanh nghiệp về các vấn đề này vẫn còn rõ rệt. Trước đó, CEO của Anthropic, Dario Amodei, và các quan chức chính phủ đã có những đánh giá khác nhau về việc các lỗ hổng liên quan có cấu thành vấn đề an ninh nghiêm trọng hay không. Báo cáo chỉ ra rằng sự tiến bộ của công nghệ AI diễn ra quá nhanh, trong khi hệ thống hiện tại của chính phủ vẫn chưa đủ khả năng đưa ra đánh giá nhất quán về các tranh cãi như vậy.

Sau khi áp dụng hạn chế xuất khẩu, các cuộc đàm phán tiếp tục được thúc đẩy

Trước đó, Nhà Trắng đã áp đặt hạn chế xuất khẩu đối với Anthropic, cấm người dùng nước ngoài truy cập vào các mô hình mới nhất của họ là Fable 5 và Mythos 5. Công ty sau đó đã tạm dừng dịch vụ của hai mô hình này cho bên ngoài.

Báo cáo cho biết, vào thứ Sáu tuần trước, các cuộc đàm phán giữa hai bên từng gần như đổ vỡ. Nguyên nhân là Anthropic từ chối tắt Fable theo yêu cầu của chính phủ, cho rằng lỗ hổng liên quan có ảnh hưởng hạn chế và không đủ để được coi là khuyết điểm bảo mật nghiêm trọng. Sau đó, Nhà Trắng đã áp dụng các biện pháp hạn chế xuất khẩu, buộc công ty gỡ bỏ các mô hình liên quan ra khỏi thị trường.

Tuy nhiên, từ cuối tuần, hai bên đã khôi phục lại việc liên lạc. Bộ trưởng Thương mại Mỹ Howard Lutnick, Giám đốc Mạng lưới Quốc gia Sean Cairncross và đồng sáng lập Anthropic Tom Brown đã tham gia vào nhiều cuộc gọi kéo dài. Sau đó, hai bên lại tiến hành các cuộc họp trực tiếp tại Washington trong gần một tuần.

Bạch Cung đẩy nhanh việc thực thi các quy tắc an toàn AI

Báo cáo cho biết, những người tham gia đàm phán từ phía Anthropic bao gồm Giám đốc Chính sách Công Sarah Heck và đồng sáng lập Tom Brown. Công ty cũng đã cử các nhà nghiên cứu cấp cao và chuyên gia an ninh đến Bộ Thương mại Hoa Kỳ vào thứ Hai tuần này để tiếp tục tham vấn với các quan chức chính phủ.

Cuộc thảo luận này cũng phản ánh một đánh giá thực tế hơn: không có mô hình AI nào có thể hoàn toàn miễn nhiễm với các cuộc tấn công mạng. Do đó, chính phủ muốn xác định rõ các tiêu chuẩn đánh giá rủi ro an ninh của doanh nghiệp trước khi quyết định trong những tình huống nào cần áp dụng các biện pháp hạn chế.

Hướng này cũng phù hợp với các cuộc thảo luận tại hội nghị Nhóm bảy nước gần đây. Nhiều công ty AI hàng đầu và một số nhà lãnh đạo quốc gia đã nhấn mạnh rằng cần sớm thiết lập các tiêu chuẩn đo lường an toàn mô hình rõ ràng hơn để đối phó với các rủi ro kinh tế và an ninh quốc gia do các hệ thống AI có khả năng ngày càng tăng mạnh gây ra.