Anthropic đề xuất khung quy định cho các mô hình AI tiên tiến

Bijiewang báo cáo:

Anthropic đã công bố một bộ chính sách nhằm hướng đến các mô hình AI tiên tiến. Công ty cho biết các quy tắc minh bạch hiện tại đã khó theo kịp tốc độ nâng cao năng lực của các mô hình, và chính phủ cần có quyền can thiệp rõ ràng hơn để có thể hành động trước khi các hệ thống rủi ro cao được đưa ra thị trường công chúng.

Các đối tượng được giám sát được xác định dựa trên công suất tính toán và doanh thu

Giải pháp này được chia làm hai phần: một phần tập trung vào yêu cầu kỹ thuật và giám sát của mô hình mạnh nhất, phần còn lại thảo luận về vấn đề phân phối kinh tế dưới tác động của tự động hóa. Theo những nội dung đã được công bố, phần đầu rõ ràng hoàn chỉnh hơn.

Anthropic thu hẹp phạm vi quản lý chỉ tập trung vào một số nhà phát triển hàng đầu, thay vì bao trùm toàn ngành. Công ty đề xuất rằng các mô hình có quy mô đào tạo vượt quá 10²⁵ phép tính dấu phẩy động nên được đưa vào khung quy định; các doanh nghiệp có doanh thu liên quan đến AI hàng năm vượt quá 500 triệu USD hoặc chi tiêu nghiên cứu và phát triển AI vượt quá 1 tỷ USD cũng nên áp dụng các yêu cầu liên quan.

Thiết kế này nhằm tập trung vào các mô hình có nguồn lực dồi dào và năng lực mạnh nhất, tránh áp đặt mức độ giám sát tương đương đối với các nhà phát triển và tổ chức nghiên cứu quy mô nhỏ và trung bình.

Đề xuất chính phủ có thể ngăn chặn các dự án có rủi ro cao được niêm yết

Công ty cho biết, thay đổi quan trọng nhất là trao cho chính phủ quyền pháp lý để ngăn chặn hoặc kiềm chế việc triển khai các mô hình rủi ro cao. Hiện tại, Hoa Kỳ chưa thiết lập một cơ chế hoàn chỉnh để can thiệp thực chất trước khi mô hình được triển khai chính thức đến công chúng.

Về các yêu cầu cụ thể, các nhà phát triển mô hình tiên tiến phải hoàn thành kiểm thử trước khi phát hành và công khai tóm tắt kiểm thử, khung bảo mật và thẻ hệ thống, nêu rõ cách thức hoạt động và kiểm soát rủi ro của mô hình. Các doanh nghiệp cũng cần nộp báo cáo rủi ro định kỳ để tiết lộ tình hình rủi ro tổng thể và tiến độ công việc bảo mật.

Anthropic còn đề xuất thành lập các cơ quan đánh giá độc lập để xem xét lại các bài kiểm tra do doanh nghiệp tự thực hiện và công bố riêng biệt các kết luận về rủi ro mô hình. Nhờ đó, các cơ quan quản lý và công chúng sẽ không còn chỉ phụ thuộc vào thông tin do doanh nghiệp tự cung cấp.

Các biện pháp xử phạt và yêu cầu bảo mật được tăng cường đồng thời

Về thiết kế thực thi, Anthropic đề xuất liên kết các hình phạt dân sự với doanh thu hàng năm toàn cầu của doanh nghiệp, thay vì áp dụng mức phạt cố định. Công ty cho rằng chỉ khi đó, hình phạt mới thực sự ràng buộc các doanh nghiệp AI lớn. Đối với những vi phạm lặp lại, mức phạt nên được tăng thêm.

Ngoài việc kiểm thử và tiết lộ, kế hoạch còn yêu cầu các doanh nghiệp xây dựng hệ thống bảo mật mạnh mẽ hơn để bảo vệ trọng số mô hình và hệ thống huấn luyện, ngăn chặn các cuộc tấn công từ bên ngoài và lạm dụng nội bộ. Các doanh nghiệp có thể công khai mô tả cấu trúc tổng thể của kế hoạch bảo mật, còn các chi tiết cụ thể hơn sẽ được cung cấp khi cơ quan chính phủ yêu cầu.

Anthropic cũng đề xuất rằng chính phủ và ngành công nghiệp nên cùng nhau xây dựng tiêu chuẩn cho các nhà đánh giá độc lập và đảm bảo rằng những nhà đánh giá này nhận được đủ nguồn tài chính và quyền truy cập cần thiết. Vì các mô hình tiên tiến thường là tài sản nhạy cảm nhất của doanh nghiệp, việc xác định ai sẽ đánh giá và làm thế nào để có quyền truy cập sẽ là một trong những thách thức lớn trong quá trình thực hiện.

Điểm danh bốn loại rủi ro chính

Anthropic liệt kê bốn loại rủi ro trọng tâm trong tài liệu: rủi ro sinh học, rủi ro an ninh mạng, rủi ro mất kiểm soát và rủi ro AI tự động tăng tốc quá trình nghiên cứu và phát triển của chính nó. Công ty cho rằng những rủi ro này không tách rời nhau và có thể làm gia tăng lẫn nhau.

Ví dụ, các mô hình có khả năng phát hiện lỗ hổng phần mềm quy mô lớn có thể ảnh hưởng trực tiếp đến các cơ sở hạ tầng then chốt như bệnh viện, mạng lưới năng lượng; và trong điều kiện ràng buộc không đầy đủ, những khả năng này cũng có thể kết hợp với rủi ro sinh học.

Về các biện pháp hỗ trợ, Anthropic đề xuất tăng cường bảo vệ internet và cơ sở hạ tầng then chốt, thúc đẩy thay thế các hệ thống cũ trong các dịch vụ then chốt, đồng thời thành lập một chức năng chính phủ chuyên trách để theo dõi liên tục sự thay đổi năng lực mạng của AI tiên tiến. Về các rủi ro mất kiểm soát và phát triển tự động hóa, công ty thừa nhận các công cụ quản trị liên quan vẫn chưa trưởng thành và cần tiếp tục hoàn thiện khả năng phát hiện, cô lập và tắt các hệ thống không an toàn.

Thông tin bổ sung: Anthropic trong tài liệu cho biết các quy định minh bạch hiện tại tại California, New York và các nơi khác có tác dụng nhất định, nhưng chỉ dựa vào việc công khai tiết lộ đã không còn đủ để bao quát các rủi ro do sự lặp lại nhanh chóng của các mô hình tiên tiến.