Методологія навчання DeepSeek V4 зміщується на OPD, об’єднує експертні моделі

KuCoinFlash

Час випуску: 24.04.2026, 04:20:49

Поділитися

Короткий зміст

Навчання DeepSeek V4 зараз використовує OPD після переходу від змішаного етапу RL у V3.2. Спочатку навчають експертів у математиці, кодуванні та виконанні інструкцій, а потім їх знання дистилюються в одну модель за допомогою багатоучителевої OPD. GRM допомагає з складними завданнями, використовуючи мінімальні обсяги людських даних. Цей перехід відповідає жорсткішим протоколам CFT та зростаючому інтересу до активів з високим ризиком, оскільки проекти шукають ефективність.

ME News: 24 квітня (UTC+8), за даними моніторингу Beating, у методології дообучення DeepSeek V4 відбулися значні зміни: етап mixed RL у V3.2 повністю замінено On-Policy Distillation (OPD, онлайн-стратегічна дистиляція). Новий процес складається з двох етапів. На першому етапі, на основі конвеєра V3.2, окремо навчаються моделі експертів у таких галузях, як математика, код, Agent та виконання інструкцій: кожен експерт спочатку проходить доналаштування, а потім використовує GRPO для підсиленого навчання. На другому етапі здійснюється багатоучительна OPD: здатності понад десяти експертів дистилюються в єдину модель — учень виконує повну дистиляцію логітів по всьому словнику з використанням reverse KL-розходження на траєкторіях, що він сам створив, для кожного вчителя; шляхом вирівнювання на рівні логітів здійснюється об’єднання ваг багатьох експертів у єдиному параметричному просторі, що уникнуло типових конфліктів здатностей, характерних для традиційного злиття ваг та mixed RL. У звіті також запропоновано Generative Reward Model (GRM, генеративна модель нагороди): для завдань, які важко перевірити за допомогою правил, замість навчання традиційних скалярних моделей нагороди використовується GRM, навчена на даних RL з керуванням за допомогою rubric, що дозволяє мережі actor одночасно виконувати функції генерації та оцінки, досягаючи узагальнення на складних завданнях за допомогою невеликої кількості різноманітних ручних анотацій. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.