Согласно новости ME, 24 апреля (UTC+8), по данным мониторинга Beating, методология дообучения DeepSeek V4 претерпела значительные изменения: этап смешанного RL в V3.2 полностью заменён On-Policy Distillation (OPD, онлайн-стратегическая дистилляцией). Новый процесс состоит из двух этапов. На первом этапе на основе конвейера V3.2 отдельно обучаются экспертные модели в таких областях, как математика, код, агенты и выполнение инструкций: каждый эксперт сначала дообучается, а затем применяется усиление обучения с помощью GRPO. На втором этапе с помощью многопедагогической OPD способности более десяти экспертов дистиллируются в единую модель: ученик выполняет полновекторную дистилляцию логитов по reverse KL-расстоянию на собственных траекториях для каждого педагога, обеспечивая выравнивание на уровне логитов и объединяя веса нескольких экспертов в едином параметрическом пространстве, тем самым избегая типичных конфликтов способностей, характерных для традиционного объединения весов и смешанного RL. В отчёте также предлагается Generative Reward Model (GRM, генеративная модель вознаграждения): для задач, трудных для проверки по правилам, вместо обучения традиционной скалярной модели вознаграждения используется GRM, обученная на данных RL с использованием рубрик, позволяя сети actor одновременно выполнять функции генерации и оценки, что обеспечивает обобщение на сложные задачи с помощью небольшого количества разнообразных ручных аннотаций. (Источник: BlockBeats)
Методология обучения DeepSeek V4 переключается на OPD, объединяя экспертные модели
KuCoinFlashПоделиться






Обучение DeepSeek V4 теперь использует OPD после перехода от смешанной стадии RL в V3.2. Эксперты в математике, программировании и выполнении инструкций сначала обучались отдельно, а затем были дистиллированы в одну модель с помощью многопреподавательской OPD. GRM помогает с комплексными задачами, используя минимальные объемы человеческих данных. Этот переход соответствует более строгим протоколам CFT и растущему интересу к активам с высоким уровнем риска, поскольку проекты стремятся к эффективности.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.