Model DeepSeek V4 Opensource Diluncurkan dengan 1,6 T Parameter dan Lisensi MIT

Berita ME, 24 April (UTC+8), menurut pemantauan Beating, DeepSeek telah merilis versi pratinjau seri V4 open-source dengan lisensi MIT, dan bobotnya kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model MoE: V4-Pro dengan total parameter 1,6T dan aktivasi 49B (49 miliar) per token; V4-Flash dengan total parameter 284B (284 miliar) dan aktivasi 13B (13 miliar). Kedua model mendukung konteks hingga 1M token. Tiga peningkatan arsitektur: mekanisme perhatian hibrida (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) secara signifikan mengurangi biaya konteks panjang, di mana FLOPs per token inferensi V4-Pro pada konteks 1M hanya 27% dari V3.2, dan penggunaan memori KV cache (penyimpanan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnection (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas lapisan; pelatihan menggunakan optimizer Muon untuk mempercepat konvergensi. Data pra-pelatihan melebihi 32T token. Pelatihan lanjutan terdiri dari dua tahap: pertama, melatih para ahli bidang masing-masing menggunakan SFT dan GRPO reinforcement learning, lalu menggabungkannya menjadi satu model melalui online distillation. V4-Pro-Max (mode inferensi paling kuat) mengklaim sebagai model open-source terkuat saat ini, dengan performa coding mencapai level teratas, serta mengurangi kesenjangan signifikan terhadap model tertutup terkini dalam tugas inferensi dan agent. V4-Flash-Max menunjukkan performa inferensi mendekati Pro jika diberi anggaran pemikiran yang cukup, tetapi terbatas pada tugas pengetahuan murni dan agent kompleks karena skala parameter. Bobot disimpan dengan presisi campuran FP4+FP8. (Sumber: BlockBeats)