Seris DeepSeek V4 Dirilis dengan 1,6 Triliun Parameter dan Lisensi MIT

iconChainthink
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita on-chain muncul pada 24 April ketika DeepSeek merilis seri V4 di bawah lisensi MIT. Model-model tersebut, kini tersedia di Hugging Face dan ModelScope, mencakup V4-Pro (1,6 triliun parameter) dan V4-Flash (284 miliar parameter), keduanya mendukung konteks 1 juta token. Seri V4 memperkenalkan tiga peningkatan arsitektur, termasuk mekanisme perhatian hibrida yang mengurangi biaya konteks panjang. V4-Pro menggunakan 27% FLOPs V3.2 dan 10% memori cache KV-nya. Dilatih pada lebih dari 32T token, model-model ini menggunakan SFT, GRPO, dan distilasi online. Pencatatan token baru mungkin mendapat manfaat dari efisiensi yang ditingkatkan ini.

Pesan ChainThink, 24 April, menurut informasi resmi terkait, DeepSeek merilis versi pratinjau seri V4 dengan lisensi MIT, dan bobot model telah tersedia di Hugging Face dan ModelScope.


Seri ini mencakup dua model MoE, di mana V4-Pro memiliki total parameter sebesar 1,6 triliun, dengan 49 miliar parameter yang diaktifkan per token;


V4-Flash memiliki total parameter 284 miliar, dengan 13 miliar parameter yang diaktifkan per token; kedua model mendukung konteks hingga 1 juta token.


Arsitektur seri ini mengalami tiga peningkatan: mekanisme perhatian hibrida (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) secara signifikan mengurangi beban konteks panjang; dalam skenario konteks 1M, FLOPs inferensi satu token V4-Pro hanya 27% dari V3.2, dan penggunaan memori GPU untuk cache KV hanya 10% dari V3.2;


Manifold-constrained hyperconnection mHC menggantikan koneksi residual tradisional, meningkatkan stabilitas propagasi sinyal lintas lapisan; pelatihan menggunakan optimizer Muon untuk mempercepat konvergensi. Data pra-pelatihan model melebihi 32T token.


Pelatihan lanjutan dibagi menjadi dua tahap: pertama, pelatihan model ahli di setiap bidang melalui SFT dan pembelajaran penguatan GRPO, lalu digabungkan menjadi model akhir melalui distilasi daring.


V4-Pro-Max menyebut dirinya sebagai model open-source terkuat saat ini, dengan performa coding mencapai level teratas, serta mengurangi kesenjangan signifikan dalam tugas inferensi dan agent dibandingkan model canggih tertutup;


V4-Flash-Max setelah mendapatkan anggaran pemikiran yang cukup, kinerja inferensinya mendekati Pro, tetapi terbatas pada ukuran parameter dalam tugas pengetahuan murni dan agen kompleks. Bobot model disimpan dengan presisi campuran FP4+FP8.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.