Ang DeepSeek V4 ay naglipat ng pagtuturo sa OPD at nag-merge ng mga expert model

KuCoinFlash

Oras ng Release: 04/24/2026, 04:20:49

I-share

Summary

Ang pag-train sa DeepSeek V4 ay gumagamit ngayon ng OPD pagkatapos ng paglipat mula sa mixed RL stage ng V3.2. Ang mga eksperto sa matematika, code, at pagsumbong ng instruksyon ay unang tinuturuan, pagkatapos ay dinistila sa isang modelo gamit ang multi-teacher OPD. Ang GRM ay tumutulong sa mga kumplikadong gawain gamit ang minimum na tao data. Ang paglipat ay sumasalig sa mas mahigpit na CFT protocols at tumataas na interes sa risk-on assets habang ang mga proyekto ay naghahanap ng efficiency.

Balita ni ME, noong Abril 24 (UTC+8), ayon sa pagmamasid ng Beating, may malaking pagbabago sa metodolohiya ng post-training ng DeepSeek V4: ang mixed RL phase ng V3.2 ay buong-buo nang nalitan ng On-Policy Distillation (OPD). Ang bagong proseso ay may dalawang hakbang. Sa unang hakbang, sa pamamagitan ng batayang pipeline ng V3.2, tinuturuan ang mga espesyalistang modelo para sa mga larangan tulad ng matematika, code, Agent, at pagsumbong ng utos; bawat espesyalista ay una nang tinuturuan sa pamamagitan ng fine-tuning, tapos ginagamit ang GRPO para sa reinforcement learning. Sa ikalawang hakbang, ginagamit ang multi-teacher OPD upang i-distill ang kakayahan ng labing-isang espesyalista sa isang iisang unibersal na modelo: ang student ay gumagawa ng reverse KL divergence sa buong vocabulary logits sa bawat teacher sa kanilang sariling generated trajectories, at sa pamamagitan ng alignment sa logits level, pinagsasama ang mga timbang ng maraming espesyalista sa isang unibersal na parameter space upang maiwasan ang karaniwang konplikong kakayahan sa tradisyonal na weight merging at mixed RL. Ang ulat ay nagmungkahi rin ng Generative Reward Model (GRM): para sa mga gawain na mahirap i-verify gamit ang mga patakaran, hindi na tinuturuan ang tradisyonal na scalar reward model, kundi ginagamit ang GRM na tinuturuan gamit ang RL data na gabay ng rubric, upang ang actor network ay magtaglay ng parehong kakayahang mag-generate at mag-evaluate, at maaaring mag-apply sa mga kumplikadong gawain gamit ang kaunting diverse human annotation. (Pinagkunan: BlockBeats)

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.