Ipinakilala ang DeepSeek V4 Series na may 1.6 trilyong parameter at MIT License

iconChainthink
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Nabuo ang on-chain news noong Abril 24 nang ipalabas ng DeepSeek ang V4 series sa ilalim ng MIT license. Ang mga modelo, ngayon nasa Hugging Face at ModelScope, ay kasama ang V4-Pro (1.6 trilyon na parameter) at V4-Flash (284 bilyon na parameter), na parehong sumusuporta sa 1 milyong token na konteksto. Ang V4 series ay naglalaman ng tatlong upgrade sa arkitektura, kabilang ang hybrid attention mechanism na nagpapababa ng gastos sa mahabang konteksto. Ang V4-Pro ay gumagamit ng 27% ng FLOPs ng V3.2 at 10% ng memorya nito sa KV cache. Pinatutunaw sa higit sa 32T na token, ang mga modelo ay gumagamit ng SFT, GRPO, at online distillation. Maaaring makatanggap ng benepisyo ang mga bagong listahan ng token mula sa pinabuting efiensiya na ito.

Mensahe ng ChainThink, Abril 24: Ayon sa opisyal na impormasyon, ang DeepSeek ay naglabas ng preview version ng V4 series na may MIT license, at ang model weights ay nasa Hugging Face at ModelScope na.


Ang serye ay naglalaman ng dalawang MoE model, kung saan ang V4-Pro ay may kabuuang 1.6 trilyon na parameter, na nag-activate ng 49 bilyon na parameter bawat token;


Ang kabuuang parametro ng V4-Flash ay 284 bilyon, na may 13 bilyong parametrong aktibo bawat token, at sinusuportahan ng parehong modelo ang 1M token na konteksto.


Ang seriyeng arkitektura ay may tatlong pagpapabuti: ang hybrid attention mechanism (compressed sparse attention CSA + heavy compressed attention HCA) ay nagpapababa nang malaki sa gastos ng mahabang konteksto; sa iskenario ng 1M na konteksto, ang V4-Pro ay may 27% lamang ng FLOPs sa pag-iisip ng isang token kumpara sa V3.2, at ang paggamit ng memorya para sa KV cache ay 10% lamang ng V3.2.


Ang manifold-constrained hyperconnection (mHC) ay nagpapalit sa tradisyonal na residual connection upang mapalakas ang katatagan ng pagpapadala ng signal sa pagitan ng mga layer; ang pagtuturo ay ginamit ang Muon optimizer upang mabilisang ma-converge. Ang pre-training data ng modelo ay higit sa 32T token.


Ang pagkatapos ng pagtuturo ay nahahati sa dalawang yugto: una, ang bawat eksperto sa iba’t ibang larangan ay tinuturuan gamit ang SFT at GRPO reinforcement learning, at pagkatapos ay pinagsasama sa pamamagitan ng online distillation upang mabuo ang huling modelo.


Ang V4-Pro-Max ay nag-uugnay na ito ang pinakamalakas na open-source model sa kasalukuyan, na may code benchmark na nasa antas ng pinakamataas, at ang pag-iisip at mga gawain ng agent ay naging mas malapit sa mga nangungunang proprietary model;


Ang V4-Flash-Max ay malapit sa pagganap ng Pro pagkatapos makakuha ng sapat na budget para sa pag-iisip, ngunit limitado sa pagkakaunawa ng kaalaman at mga kumplikadong gawain ng agent dahil sa laki ng mga parameter. Ang mga timbangan ng modelo ay naka-store sa mixed precision na FP4+FP8.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.