Model Open-Source DeepSeek V4 Dilancarkan dengan 1.6T Parameter dan Lesen MIT

Berita ME, 24 April (UTC+8), menurut pemantauan Beating, versi pra-lihat DeepSeek V4 terbuka dengan lesen MIT, dan bobotnya kini tersedia di Hugging Face dan ModelScope. Siri ini mengandungi dua model MoE: V4-Pro dengan jumlah parameter 1.6T dan 49B (49 bilion) diaktifkan setiap token; V4-Flash dengan jumlah parameter 284B (284 bilion) dan 13B (13 bilion) diaktifkan. Kedua-dua model menyokong konteks 1M token. Tiga peningkatan arsitektur: mekanisme perhatian hibrid (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) mengurangkan secara ketara beban konteks panjang, di mana FLOPs per token inferensi V4-Pro pada konteks 1M hanya 27% daripada V3.2, dan penggunaan memori KV cache (penyimpanan maklumat sejarah semasa inferensi) hanya 10% daripada V3.2; mHC manifol constraint menggantikan sambungan sisa tradisional untuk meningkatkan kestabilan penyebaran isyarat antara lapisan; latihan menggunakan pengoptimum Muon untuk mempercepatkan konvergensi. Data pra-latihan melebihi 32T token. Latihan selepas dibahagikan kepada dua peringkat: terlebih dahulu melatih pakar setiap bidang menggunakan SFT dan GRPO reinforcement learning, kemudian menggabungkan semuanya menjadi satu model melalui distilasi dalam talian. V4-Pro-Max (modus inferensi paling kuat) mengaku sebagai model terbuka terkuat semasa ini, dengan prestasi kod mencapai tahap teratas, dan jarak antara inferensi serta tugas agen dengan model tertutup terkini berkurang secara ketara. V4-Flash-Max menunjukkan prestasi inferensi hampir setara dengan Pro apabila diberi anggaran pemikiran yang mencukupi, tetapi terhad oleh ukuran parameter dalam tugas pengetahuan tulen dan agen kompleks. Bobot disimpan dengan presisi campuran FP4+FP8. (Sumber: BlockBeats)