Tin tức từ ME News, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, phương pháp hậu huấn luyện của DeepSeek V4 đã trải qua thay đổi lớn: giai đoạn mixed RL của V3.2 đã được thay thế hoàn toàn bởi On-Policy Distillation (OPD - tinh luyện theo chính sách trực tuyến). Quy trình mới gồm hai bước. Bước đầu tiên, dựa trên đường ống V3.2, huấn luyện các mô hình chuyên gia lĩnh vực riêng biệt cho các lĩnh vực như toán học, mã nguồn, Agent và tuân thủ lệnh; mỗi chuyên gia sẽ được tinh chỉnh trước, sau đó áp dụng GRPO để thực hiện học tăng cường. Bước thứ hai, sử dụng OPD đa giáo viên để tinh luyện khả năng của hơn mười chuyên gia vào một mô hình thống nhất: mô hình học sinh thực hiện tinh luyện toàn bộ logit trên bảng từ vựng bằng reverse KL divergence trên các quỹ đạo do chính nó tạo ra, đồng thời align ở cấp độ logits để hợp nhất trọng số của nhiều chuyên gia vào không gian tham số thống nhất, tránh xung đột năng lực thường gặp trong việc hợp nhất trọng số truyền thống và mixed RL. Báo cáo cũng đề xuất Generative Reward Model (GRM - Mô hình phần thưởng sinh ra): đối với các nhiệm vụ khó xác minh bằng quy tắc, thay vì huấn luyện mô hình phần thưởng vô hướng truyền thống, GRM được huấn luyện bằng dữ liệu RL được hướng dẫn bởi rubric, cho phép mạng actor đồng thời đảm nhận chức năng sinh ra và đánh giá, từ đó có thể khái quát hóa sang các nhiệm vụ phức tạp chỉ với một lượng nhỏ ghi chú nhân công đa dạng. (Nguồn: BlockBeats)
Phương pháp huấn luyện DeepSeek V4 chuyển sang OPD, kết hợp các mô hình chuyên gia
KuCoinFlashChia sẻ






Việc huấn luyện DeepSeek V4 hiện sử dụng OPD sau khi chuyển từ giai đoạn RL hỗn hợp của V3.2. Các chuyên gia về toán học, mã nguồn và tuân thủ hướng dẫn được huấn luyện trước, sau đó được tinh luyện thành một mô hình duy nhất thông qua OPD đa giáo viên. GRM hỗ trợ các nhiệm vụ phức tạp bằng dữ liệu con người tối thiểu. Sự chuyển đổi này phù hợp với các giao thức CFT chặt chẽ hơn và sự gia tăng quan tâm đến các tài sản có rủi ro cao khi các dự án tìm kiếm hiệu quả.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.