Ipinakilala ang Teknikal na Detalye ng DeepSeek V4: 1.6T na Parametro, 384 na Eksperto na Aktibong 6

icon币界网
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Nabuo ang on-chain news noong Abril 22 (UTC+8) nang ipaalam ni Yifan Zhang, isang PhD student sa Princeton, ang buong mga spesipikasyon ng DeepSeek V4 sa X. Mayroon ang V4 ng 1.6 trilyong parameter, isang DSA2 attention mechanism, 384 MoE experts na may 6 na aktibo bawat hakbang, at isang 1 milyong token context. Hindi nakakonekta si Zhang kay DeepSeek, na hindi pa nagbigay ng komento. Ang mga detalye ng network upgrade ay nagpapahiwatig ng malalaking pagpapabuti sa performance.

Ayon sa CoinDesk, noong Abril 22 (UTC+8), ayon sa pagmamasid ng Beating, ang doctoral student sa Princeton na si Yifan Zhang ay nag-update ng teknikal na detalye ng DeepSeek V4 sa X. Noong Abril 19, nagpaabot siya ng “V4 next week” at isinampa ang mga pangalan ng tatlong arkitekturang komponente, at ngayong gabi ay inilabas niya ang buong tabla ng mga parameter, kasama na ang unang pagpapakita ng isang lightweight na bersyon na V4-Lite na may 285B na parameter. Ang kabuuang parameter ng V4 ay 1.6T. Ang mekanismo ng atensyon ay DSA2, na nagkakaisa sa DSA (DeepSeek Sparse Attention) na ginamit ng DeepSeek sa V3.2 at ang NSA (Native Sparse Attention) na isinampa sa papel noong simula ng taon, may head-dim na 512, kasama ang Sparse MQA at SWA (sliding window attention). Mayroong 384 na eksperto sa MoE layer, na aktibado ang 6 sa bawat pagkakataon, gamit ang Fused MoE Mega-Kernel. Ang residual connection ay patuloy na gumagamit ng Hyper-Connections. Ang mga bagong inilabas na detalye sa pag-train ay kasama ang paggamit ng Muon (isang matrix-level optimizer na naglalapat ng Newton-Schulz orthogonalization sa momentum update), pre-training context length na 32K, at ang paggamit ng GRPO sa reinforcement learning phase kasama ang KL divergence correction. Ang huling context length ay napalawak hanggang 1M. Ang modalidad ay pure text. Hindi si Zhang isang miyembro ng DeepSeek, at wala pang pormal na tugon mula sa opisyal na DeepSeek tungkol sa mga impormasyong ito.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.