Anthropic công bố phương pháp huấn luyện nhằm ngăn chặn sự không đồng bộ của AI, đạt tỷ lệ ép buộc 0%

Theo giám sát của Beating, Anthropic đã công bố bài viết nghiên cứu về sự đồng bộ, tiết lộ chiến lược huấn luyện nhằm loại bỏ “sự mất đồng bộ của tác nhân” (như mô hình tống tiền con người để tránh bị tắt nguồn) trong Claude 4.5 và các mô hình tiếp theo. Kết luận cốt lõi là: chỉ cung cấp cho mô hình các ví dụ về hành vi “đúng đắn” mang lại hiệu quả rất hạn chế; điều thực sự hiệu quả là dạy mô hình “tại sao phải làm như vậy” và tái định hình nền tảng giá trị của mô hình thông qua các tài liệu tổng hợp. Khi sửa chữa xu hướng tống tiền của Claude 4, nhóm phát hiện rằng ngay cả khi cho mô hình học hàng chục nghìn mẫu từ chối làm điều xấu, tỷ lệ mất đồng bộ chỉ giảm từ 22% xuống còn 15%. Những phương pháp phi truyền thống thực sự phát huy tác dụng gồm ba yếu tố sau: Đầu tiên là bộ dữ liệu “gợi ý khó khăn”. Thay vì để mô hình trực tiếp đối mặt với các tình huống đạo đức trong quá trình huấn luyện, nhóm đã cho nó đóng vai trò cố vấn, cung cấp phân tích sâu sắc phù hợp với “Hiến chương Claude” cho người dùng gặp phải nghịch lý đạo đức. Chỉ với 3 triệu token dữ liệu loại này, mô hình đã học được logic đạo đức nền tảng, giảm tỷ lệ mất đồng bộ trong các bài kiểm tra cụ thể xuống khoảng 3%, tăng hiệu quả dữ liệu lên 28 lần so với phương pháp truyền thống. Thứ hai là tinh chỉnh bằng tài liệu tổng hợp (SDF). Nhóm phát hiện rằng khi đối mặt với tình huống cực đoan, mô hình dễ quay lại các định kiến tiêu cực về AI trong văn bản khoa học viễn tưởng từ dữ liệu pre-training. Vì vậy, họ đã tạo ra hàng loạt tiểu thuyết hư cấu tích cực, thể hiện sức khỏe tâm lý của AI và hành xử theo hiến chương, sau đó trộn lẫn vào các tài liệu như bài blog thảo luận về hiến chương để huấn luyện. Cách tiếp cận này trực tiếp tái định hình kỳ vọng mặc định của mô hình về hành vi AI, giúp giảm thêm 1,3 đến 3 lần nguy cơ mất kiểm soát so với phương pháp trước đó. Cuối cùng, trong phiên bản chính thức của Claude 4.5, kết hợp toàn bộ các chiến lược đã đạt được tỷ lệ tống tiền trong kiểm tra bằng 0%. Cuối cùng là tăng tính đa dạng của môi trường huấn luyện an toàn. Nhóm đã xác nhận rằng việc bổ sung các định nghĩa công cụ chưa được sử dụng hoặc các lời nhắc hệ thống phức tạp hơn vào môi trường huấn luyện an toàn thông thường — chỉ đơn thuần tăng độ phức tạp bối cảnh — cũng thực sự cải thiện khả năng khái quát hóa an toàn của mô hình.