ChainThink melaporkan, pada 24 April, menurut maklumat rasmi, versi pra-pandangan siri DeepSeek V4 telah dibuka sumber dengan lesen MIT, dan berat model telah dilancarkan di Hugging Face dan ModelScope.
Siri ini mengandungi dua model MoE, di mana V4-Pro mempunyai jumlah parameter sebanyak 1.6 trilion, dengan 49 bilion parameter yang diaktifkan setiap token;
V4-Flash mempunyai jumlah parameter sebanyak 284 bilion, dengan 13 bilion parameter yang diaktifkan setiap token; kedua-dua model menyokong konteks 1 juta token.
Rangkaian ini mengalami tiga peningkatan: mekanisme perhatian hibrida (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) secara signifikan mengurangkan beban konteks panjang; dalam skenario konteks 1M, FLOPs inferensi satu token V4-Pro hanya 27% daripada V3.2, dan penggunaan memori KV cache hanya 10% daripada V3.2;
mHC yang menggantikan sambungan sisa tradisional dengan batasan manifold meningkatkan kestabilan penyebaran isyarat antar lapisan; latihan menggunakan optimizer Muon untuk mempercepat konvergensi. Data pra-latihan model ini melebihi 32T token.
Latihan selepas dibahagikan kepada dua peringkat, pertama melalui SFT dan pembelajaran penguatan GRPO untuk melatih model pakar setiap bidang, kemudian digabungkan secara seragam menjadi model akhir melalui pendidikan dalam talian.
V4-Pro-Max mengklaim sebagai model open-source terkuat semasa, dengan prestasi pengkodean setara dengan tahap teratas, serta mengurangkan jurang secara ketara dalam tugas inferens dan agen berbanding model terkini tertutup;
V4-Flash-Max setelah mendapat cukup anggaran pemikiran, prestasi penalarannya mendekati Pro, tetapi terbatas pada ukuran parameter dalam tugas pengetahuan murni dan agen kompleks. Bobot model disimpan dengan presisi campuran FP4+FP8.
