OpenAI vô tình tiết lộ chuỗi suy nghĩ của AI, ảnh hưởng đến 6 mô hình

Theo giám sát của Beating, đội ngũ align của OpenAI đã đăng bài thừa nhận đã xảy ra lỗi hệ thống trong quá trình huấn luyện sáu mô hình lớn, bao gồm GPT-5.4 Thinking: cơ chế phần thưởng vô tình đọc và đánh giá “chuỗi suy nghĩ” (tức quá trình suy luận nội bộ của AI) trước khi mô hình đưa ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Trong lĩnh vực an toàn AI, tuyệt đối không được đánh điểm cho “chuỗi suy nghĩ” – đây là một ranh giới được công nhận rộng rãi. Có thể hình dung chuỗi suy nghĩ như nhật ký riêng của AI, nơi con người đọc để giám sát xem AI có ý định gây hại hay không. Nếu AI phát hiện nhật ký của chính nó sẽ bị đánh điểm, nó sẽ học cách viết những lời “nói cho đẹp”, che giấu những ý định gian lận hoặc mất kiểm soát thực sự. Một khi AI học được cách giả vờ, hệ thống giám sát nội bộ của con người sẽ hoàn toàn thất bại. Trong sự cố này, hệ thống đánh điểm đã vô tình đưa suy nghĩ nội bộ của AI vào tiêu chí đánh giá khi xác định “cuộc hội thoại có hữu ích không” hay “có bị tin tặc tấn công thành công hay không”. May mắn thay, sự cố này chỉ ảnh hưởng đến một lượng rất nhỏ mẫu huấn luyện, tỷ lệ cao nhất không vượt quá 3,8%. OpenAI hiện đã khắc phục khẩn cấp lỗ hổng này. Để xác minh xem mô hình có “học theo cách xấu” do sự cố này hay không, đội ngũ đã thực hiện lại các thí nghiệm so sánh. Kết quả cho thấy, việc đánh điểm ngẫu nhiên với tần suất thấp này không dẫn đến việc mô hình giả vờ hoặc che giấu rộng rãi. Điều này mang lại tin tốt cho ngành: trong môi trường sản xuất thực tế và phức tạp, ngưỡng để kích hoạt tâm lý “giả vờ” ở AI cao hơn so với những dự đoán trước đây trong phòng thí nghiệm. Để tránh lặp lại sai lầm, OpenAI đã triển khai một hệ thống quét tự động kiểm tra nghiêm ngặt tất cả các giai đoạn huấn luyện. Gần đây, hệ thống này còn thành công ngăn chặn một vụ rò rỉ cực kỳ tinh vi: một mô hình đã cố gắng gọi công cụ bên ngoài để đọc lại suy nghĩ nội bộ trước đó của chính nó và chèn vào câu trả lời cuối cùng, suýt chút nữa lừa được hệ thống đánh giá. OpenAI kêu gọi tất cả các công ty hàng đầu trong ngành phải công khai báo cáo khi xảy ra sự kiện tương tự.