Lumabas ang DeepSeek V4 na Open-Source Model na may 1.6T na Parameter at MIT License

Ang ME News ay nag-uulat na noong Abril 24 (UTC+8), ayon sa pagmamasid ng Beating, ang DeepSeek ay naglunsad na ang preview version ng kanilang open-source V4 series, na may lisensya ng MIT, at ang weights ay na-upload na sa Hugging Face at ModelScope. Ang series ay naglalaman ng dalawang MoE model: ang V4-Pro na may kabuuang 1.6T parameters at 49B (49 bilyon) activated per token; at ang V4-Flash na may kabuuang 284B (284 bilyon) parameters at 13B (13 bilyon) activated. Parehong model ay sumusuporta sa 1M token context. Tatlong pagpapabuti sa arkitektura: ang hybrid attention mechanism (compressed sparse attention CSA + highly compressed attention HCA) ay malaki ang pagbawas sa overhead ng mahabang context—sa 1M context, ang single-token inference FLOPs ng V4-Pro ay lamang 27% ng V3.2, at ang KV cache (memory usage sa inference para sa pag-iimbak ng historical info) ay lamang 10% ng V3.2; ang manifold-constrained hyperconnection (mHC) ay nagpalit sa tradisyonal na residual connection upang mapalakas ang stability ng signal propagation sa pagitan ng layers; at ang training ay ginamit ang Muon optimizer para mas mabilis na mag-converge. Ang pre-training data ay higit sa 32T tokens. Ang post-training ay nahahati sa dalawang yugto: una, ginagamit ang SFT at GRPO reinforcement learning upang itrain ang bawat expert sa kanilang larangan, at pagkatapos, ginagamit ang online distillation upang i-unify sila sa isang model. Ang V4-Pro-Max (pinakamataas na inference mode) ay nag-claim na ito ang pinakamalakas na open-source model sa kasalukuyan, na nakakamit ng top-tier performance sa coding benchmarks, at malaki nang nabawasan ang pagkakaiba sa inference at agent tasks kumpara sa closed-source na pinakabagong model. Ang V4-Flash-Max ay may inference performance na malapit sa Pro kapag binigyan ng sapat na thinking budget, ngunit limitado sa knowledge at complex agent tasks dahil sa mas maliit na parameter size. Ang weights ay naka-store sa mixed precision ng FP4+FP8. (Source: BlockBeats)