Những phát hiện mới trong giai đoạn sau đào tạo mô hình lớn: Đào tạo trong chuỗi với dữ liệu tự tạo giúp mô hình cải thiện

Theo giám sát của Beating, "mẫu lấy cùng quỹ đạo" (tức là để mô hình huấn luyện dựa trên dữ liệu do chính nó tạo ra theo thời gian thực) trong giai đoạn hậu huấn luyện mô hình lớn là chìa khóa để ngăn ngừa suy thoái mô hình và nâng cao khả năng giải quyết vấn đề. Học tăng cường trực tuyến (RL) và tinh luyện cùng quỹ đạo (OPD) vượt trội hơn so với tinh chỉnh giám sát truyền thống (SFT) về bản chất vì chúng cho phép mô hình tối ưu hóa dựa trên các bước do chính nó đưa ra, thay vì ghi nhớ máy móc các câu trả lời chuẩn từ bên ngoài. SFT ép buộc ghi nhớ câu trả lời chuẩn, phân bổ lực sửa đổi đồng đều lên từng từ, dễ dàng phá vỡ cấu trúc kiến thức vốn có của mô hình và gây ra hiện tượng quên. Ngược lại, RL và OPD giúp mô hình tìm kiếm và củng cố các bước tốt nhất trong bản nháp do chính nó viết ra. Điều này không chỉ tránh được lỗi tích lũy kiểu “viết sai một từ ở đầu, cả đoạn sau lệch hướng”, mà còn giới hạn cập nhật trong phạm vi kiến thức mà mô hình đã biết, từ đó tối đa hóa việc bảo tồn các khả năng gốc. Trong thí nghiệm “chỉnh sửa mã tối thiểu”, bất kể sử dụng giáo viên SFT hay RL để thực hiện tinh luyện cùng quỹ đạo, tỷ lệ thành công của mô hình học sinh viết đúng mã ngay lần đầu tiên (Pass@1) lần lượt đạt 80,0% và 78,7%, đều vượt trội so với mô hình giáo viên. Ngay cả khi giáo viên SFT do tinh chỉnh quá mức trở nên “ngu đi nghiêm trọng” (điểm năng lực mã hóa trên LiveCodeBench giảm từ 0,320 xuống 0,286), mô hình học sinh do nó huấn luyện vẫn đạt điểm cao 0,297, gần như không bị ảnh hưởng bởi khuyết điểm của giáo viên, chứng minh rằng luyện tập cùng quỹ đạo có thể lọc hiệu quả các thói quen xấu của giáo viên. Hiện nay, DeepSeek-V4 và GLM-5 đã tích hợp tinh luyện cùng quỹ đạo để hợp nhất năng lực của các mô hình chuyên gia. Trong huấn luyện chuyên gia, các lĩnh vực có tiêu chí rõ ràng về đúng/sai như mã hóa và toán học phù hợp hơn với RL, trong khi các nhiệm vụ chủ quan mang tính sáng tạo và kiến thức lại phù hợp hơn với tinh luyện cùng quỹ đạo. Thuật toán tinh chỉnh cuối cùng trong tương lai chắc chắn sẽ phải tìm kiếm một cơ chế mới trong khung đào tạo cùng quỹ đạo, kết hợp hiệu quả tinh luyện cao (mật độ thông tin cao) với tính khách quan của RL (cập nhật không thiên vị).