OpenAI vô tình đánh giá khả năng suy luận của các mô hình AI và phát hiện không có sự suy giảm khả năng giám sát

OpenAI tiết lộ rằng một số mô hình AI của họ, bao gồm GPT-5.4 Thinking và nhiều phiên bản GPT-5.4 khác, đã trải qua việc đánh giá chuỗi suy luận một cách vô tình trong quá trình huấn luyện học tăng cường. Các phân tích nội bộ cho thấy không có sự suy giảm đáng kể trong khả năng của các mô hình trong việc trình bày quy trình làm việc của chúng.

Các sự cố này ảnh hưởng đến ít hơn 3,8% mẫu huấn luyện trong các mô hình bị ảnh hưởng nhiều nhất. Một phần nhỏ của quá trình huấn luyện vô tình thưởng hoặc phạt các mô hình dựa trên các bước lập luận nội bộ của chúng, thay vì chỉ dựa trên đầu ra cuối cùng.

Điều gì thực sự đã xảy ra

Việc đánh giá vô tình chỉ diễn ra ở một số dạng hạn chế. Một số lần huấn luyện thưởng cho tính hữu ích của quỹ đạo, về cơ bản là ghi điểm tích cực cho các lộ trình lập luận của mô hình. Những trường hợp khác phạt các lời nhắc không cần thiết trong chuỗi suy luận. Trường hợp kiểm tra nổi bật nhất cho thấy tỷ lệ phạt khoảng 2% đối với các tham chiếu đến gian lận trong chuỗi suy luận.

Đội nội bộ của OpenAI đã thực hiện các quét tự động trên tất cả các lần chạy học tăng cường để xem xét tác động đến tính minh bạch trong suy luận. Các mô hình vẫn có thể truy vết logic một cách đáng tin cậy, và khả năng phát hiện các sự không phù hợp tiềm ẩn vẫn được duy trì nguyên vẹn về mặt chức năng.

Hệ sinh thái an toàn phản hồi

Các tổ chức bên ngoài bao gồm METR, Apollo Research và Redwood Research đã đóng góp những nhận định vào các phát hiện. Redwood Research thừa nhận rằng các sự cố nhỏ không gây hại đến khả năng giám sát, nhưng chỉ ra rằng lập luận chuỗi suy nghĩ, như một biện pháp an toàn, có những lỗ hổng vốn có.

Anthropic đã công bố một báo cáo vào tháng 4 năm 2026 nghiên cứu các động lực tương tự trong các mô hình của chính họ. OpenAI đã tăng cường các biện pháp phát hiện kể từ tháng 12 năm 2025 để ngăn ngừa các lỗi chấm điểm trong tương lai. Công ty hiện đã triển khai các hệ thống phát hiện tự động và các biện pháp bảo vệ nội bộ được thiết kế đặc biệt để phát hiện ô nhiễm chấm điểm CoT trước khi nó có thể ảnh hưởng đến quá trình huấn luyện quy mô lớn.

Điều này có nghĩa gì đối với các token tiền điện tử và AI

Không có phản ứng thị trường ngay lập tức nào được quan sát đối với các tài sản tiền điện tử liên quan đến AI sau thông báo. Các mô hình AI ngày càng được tích hợp vào các ứng dụng blockchain, bao gồm kiểm toán hợp đồng thông minh, các tác nhân AI phi tập trung và hệ thống giao dịch tự động, tất cả đều dựa vào AI có khả năng suy luận chính xác và minh bạch.

Thực tế là khả năng giám sát vẫn được duy trì là điểm chính cần lưu ý đối với bất kỳ ai đang xây dựng hoặc đầu tư vào các dự án tiền điện tử tích hợp AI. Điều này có nghĩa là cơ sở hạ tầng an toàn xung quanh các mô hình suy luận đang phát hiện các vấn đề trước khi chúng trở thành hệ thống.