Методологія навчання DeepSeek V4 зміщується на OPD, об’єднує експертні моделі

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Навчання DeepSeek V4 зараз використовує OPD після переходу від змішаного етапу RL у V3.2. Спочатку навчають експертів у математиці, кодуванні та виконанні інструкцій, а потім їх знання дистилюються в одну модель за допомогою багатоучителевої OPD. GRM допомагає з складними завданнями, використовуючи мінімальні обсяги людських даних. Цей перехід відповідає жорсткішим протоколам CFT та зростаючому інтересу до активів з високим ризиком, оскільки проекти шукають ефективність.

ME News: 24 квітня (UTC+8), за даними моніторингу Beating, у методології дообучення DeepSeek V4 відбулися значні зміни: етап mixed RL у V3.2 повністю замінено On-Policy Distillation (OPD, онлайн-стратегічна дистиляція). Новий процес складається з двох етапів. На першому етапі, на основі конвеєра V3.2, окремо навчаються моделі експертів у таких галузях, як математика, код, Agent та виконання інструкцій: кожен експерт спочатку проходить доналаштування, а потім використовує GRPO для підсиленого навчання. На другому етапі здійснюється багатоучительна OPD: здатності понад десяти експертів дистилюються в єдину модель — учень виконує повну дистиляцію логітів по всьому словнику з використанням reverse KL-розходження на траєкторіях, що він сам створив, для кожного вчителя; шляхом вирівнювання на рівні логітів здійснюється об’єднання ваг багатьох експертів у єдиному параметричному просторі, що уникнуло типових конфліктів здатностей, характерних для традиційного злиття ваг та mixed RL. У звіті також запропоновано Generative Reward Model (GRM, генеративна модель нагороди): для завдань, які важко перевірити за допомогою правил, замість навчання традиційних скалярних моделей нагороди використовується GRM, навчена на даних RL з керуванням за допомогою rubric, що дозволяє мережі actor одночасно виконувати функції генерації та оцінки, досягаючи узагальнення на складних завданнях за допомогою невеликої кількості різноманітних ручних анотацій. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.