Lumabas ang DeepSeek V4 na Open-Source Model na may 1.6T na Parameter at MIT License

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Nabuo ang on-chain news noong April 24 (UTC+8) nang ilunsad ng DeepSeek ang preview ng kanilang open-source V4 series models sa ilalim ng MIT license. Ang V4-Pro at V4-Flash MoE models ay may 1.6 trillion at 284 billion parameters, ayon sa pagkakasunod-sunod, kasama ang suporta sa 1 milyong token context. Binawasan ng V4-Pro ang inference FLOPs ng 73% at ang KV cache memory ng 90% kumpara sa V3.2. Ang weights ay available sa Hugging Face at ModelScope. Maaaring makatanggap ng benepisyo ang mga bagong token listing mula sa pinabuting efficiency at open access.

Ang ME News ay nag-uulat na noong Abril 24 (UTC+8), ayon sa pagmamasid ng Beating, ang DeepSeek ay naglunsad na ang preview version ng kanilang open-source V4 series, na may lisensya ng MIT, at ang weights ay na-upload na sa Hugging Face at ModelScope. Ang series ay naglalaman ng dalawang MoE model: ang V4-Pro na may kabuuang 1.6T parameters at 49B (49 bilyon) activated per token; at ang V4-Flash na may kabuuang 284B (284 bilyon) parameters at 13B (13 bilyon) activated. Parehong model ay sumusuporta sa 1M token context. Tatlong pagpapabuti sa arkitektura: ang hybrid attention mechanism (compressed sparse attention CSA + highly compressed attention HCA) ay malaki ang pagbawas sa overhead ng mahabang context—sa 1M context, ang single-token inference FLOPs ng V4-Pro ay lamang 27% ng V3.2, at ang KV cache (memory usage sa inference para sa pag-iimbak ng historical info) ay lamang 10% ng V3.2; ang manifold-constrained hyperconnection (mHC) ay nagpalit sa tradisyonal na residual connection upang mapalakas ang stability ng signal propagation sa pagitan ng layers; at ang training ay ginamit ang Muon optimizer para mas mabilis na mag-converge. Ang pre-training data ay higit sa 32T tokens. Ang post-training ay nahahati sa dalawang yugto: una, ginagamit ang SFT at GRPO reinforcement learning upang itrain ang bawat expert sa kanilang larangan, at pagkatapos, ginagamit ang online distillation upang i-unify sila sa isang model. Ang V4-Pro-Max (pinakamataas na inference mode) ay nag-claim na ito ang pinakamalakas na open-source model sa kasalukuyan, na nakakamit ng top-tier performance sa coding benchmarks, at malaki nang nabawasan ang pagkakaiba sa inference at agent tasks kumpara sa closed-source na pinakabagong model. Ang V4-Flash-Max ay may inference performance na malapit sa Pro kapag binigyan ng sapat na thinking budget, ngunit limitado sa knowledge at complex agent tasks dahil sa mas maliit na parameter size. Ang weights ay naka-store sa mixed precision ng FP4+FP8. (Source: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.