Berita ME, 24 April (UTC+8), menurut pemantauan Beating, DeepSeek telah merilis versi pratinjau seri V4 open-source dengan lisensi MIT, dan bobotnya kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model MoE: V4-Pro dengan total parameter 1,6T dan aktivasi 49B (49 miliar) per token; V4-Flash dengan total parameter 284B (284 miliar) dan aktivasi 13B (13 miliar). Kedua model mendukung konteks hingga 1M token. Tiga peningkatan arsitektur: mekanisme perhatian hibrida (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) secara signifikan mengurangi biaya konteks panjang, di mana FLOPs per token inferensi V4-Pro pada konteks 1M hanya 27% dari V3.2, dan penggunaan memori KV cache (penyimpanan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnection (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas lapisan; pelatihan menggunakan optimizer Muon untuk mempercepat konvergensi. Data pra-pelatihan melebihi 32T token. Pelatihan lanjutan terdiri dari dua tahap: pertama, melatih para ahli bidang masing-masing menggunakan SFT dan GRPO reinforcement learning, lalu menggabungkannya menjadi satu model melalui online distillation. V4-Pro-Max (mode inferensi paling kuat) mengklaim sebagai model open-source terkuat saat ini, dengan performa coding mencapai level teratas, serta mengurangi kesenjangan signifikan terhadap model tertutup terkini dalam tugas inferensi dan agent. V4-Flash-Max menunjukkan performa inferensi mendekati Pro jika diberi anggaran pemikiran yang cukup, tetapi terbatas pada tugas pengetahuan murni dan agent kompleks karena skala parameter. Bobot disimpan dengan presisi campuran FP4+FP8. (Sumber: BlockBeats)
Model DeepSeek V4 Opensource Diluncurkan dengan 1,6 T Parameter dan Lisensi MIT
KuCoinFlashBagikan






Berita on-chain muncul pada 24 April (UTC+8) ketika DeepSeek meluncurkan pratinjau seri model open-source V4 di bawah lisensi MIT. Model V4-Pro dan V4-Flash MoE masing-masing memiliki 1,6 triliun dan 284 miliar parameter, dengan dukungan konteks 1 juta token. V4-Pro mengurangi FLOPs inferensi sebesar 73% dan memori KV cache sebesar 90% dibandingkan V3.2. Bobot tersedia di Hugging Face dan ModelScope. Pencatatan token baru dapat mendapat manfaat dari peningkatan efisiensi dan akses terbuka.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.