Методология обучения DeepSeek V4 переключается на OPD, объединяя экспертные модели

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Обучение DeepSeek V4 теперь использует OPD после перехода от смешанной стадии RL в V3.2. Эксперты в математике, программировании и выполнении инструкций сначала обучались отдельно, а затем были дистиллированы в одну модель с помощью многопреподавательской OPD. GRM помогает с комплексными задачами, используя минимальные объемы человеческих данных. Этот переход соответствует более строгим протоколам CFT и растущему интересу к активам с высоким уровнем риска, поскольку проекты стремятся к эффективности.

Согласно новости ME, 24 апреля (UTC+8), по данным мониторинга Beating, методология дообучения DeepSeek V4 претерпела значительные изменения: этап смешанного RL в V3.2 полностью заменён On-Policy Distillation (OPD, онлайн-стратегическая дистилляцией). Новый процесс состоит из двух этапов. На первом этапе на основе конвейера V3.2 отдельно обучаются экспертные модели в таких областях, как математика, код, агенты и выполнение инструкций: каждый эксперт сначала дообучается, а затем применяется усиление обучения с помощью GRPO. На втором этапе с помощью многопедагогической OPD способности более десяти экспертов дистиллируются в единую модель: ученик выполняет полновекторную дистилляцию логитов по reverse KL-расстоянию на собственных траекториях для каждого педагога, обеспечивая выравнивание на уровне логитов и объединяя веса нескольких экспертов в едином параметрическом пространстве, тем самым избегая типичных конфликтов способностей, характерных для традиционного объединения весов и смешанного RL. В отчёте также предлагается Generative Reward Model (GRM, генеративная модель вознаграждения): для задач, трудных для проверки по правилам, вместо обучения традиционной скалярной модели вознаграждения используется GRM, обученная на данных RL с использованием рубрик, позволяя сети actor одновременно выполнять функции генерации и оценки, что обеспечивает обобщение на сложные задачи с помощью небольшого количества разнообразных ручных аннотаций. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.