Mensahe ng ChainThink, Abril 24: Ayon sa opisyal na impormasyon, ang DeepSeek ay naglabas ng preview version ng V4 series na may MIT license, at ang model weights ay nasa Hugging Face at ModelScope na.
Ang serye ay naglalaman ng dalawang MoE model, kung saan ang V4-Pro ay may kabuuang 1.6 trilyon na parameter, na nag-activate ng 49 bilyon na parameter bawat token;
Ang kabuuang parametro ng V4-Flash ay 284 bilyon, na may 13 bilyong parametrong aktibo bawat token, at sinusuportahan ng parehong modelo ang 1M token na konteksto.
Ang seriyeng arkitektura ay may tatlong pagpapabuti: ang hybrid attention mechanism (compressed sparse attention CSA + heavy compressed attention HCA) ay nagpapababa nang malaki sa gastos ng mahabang konteksto; sa iskenario ng 1M na konteksto, ang V4-Pro ay may 27% lamang ng FLOPs sa pag-iisip ng isang token kumpara sa V3.2, at ang paggamit ng memorya para sa KV cache ay 10% lamang ng V3.2.
Ang manifold-constrained hyperconnection (mHC) ay nagpapalit sa tradisyonal na residual connection upang mapalakas ang katatagan ng pagpapadala ng signal sa pagitan ng mga layer; ang pagtuturo ay ginamit ang Muon optimizer upang mabilisang ma-converge. Ang pre-training data ng modelo ay higit sa 32T token.
Ang pagkatapos ng pagtuturo ay nahahati sa dalawang yugto: una, ang bawat eksperto sa iba’t ibang larangan ay tinuturuan gamit ang SFT at GRPO reinforcement learning, at pagkatapos ay pinagsasama sa pamamagitan ng online distillation upang mabuo ang huling modelo.
Ang V4-Pro-Max ay nag-uugnay na ito ang pinakamalakas na open-source model sa kasalukuyan, na may code benchmark na nasa antas ng pinakamataas, at ang pag-iisip at mga gawain ng agent ay naging mas malapit sa mga nangungunang proprietary model;
Ang V4-Flash-Max ay malapit sa pagganap ng Pro pagkatapos makakuha ng sapat na budget para sa pag-iisip, ngunit limitado sa pagkakaunawa ng kaalaman at mga kumplikadong gawain ng agent dahil sa laki ng mga parameter. Ang mga timbangan ng modelo ay naka-store sa mixed precision na FP4+FP8.
