Siri DeepSeek V4 Dilancarkan dengan 1.6 Triliun Parameter dan Lesen MIT

iconChainthink
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita di atas rantai muncul pada 24 April apabila DeepSeek melancarkan siri V4 di bawah lesen MIT. Model-model tersebut, kini tersedia di Hugging Face dan ModelScope, termasuk V4-Pro (1.6 trilion parameter) dan V4-Flash (284 bilion parameter), kedua-duanya menyokong konteks 1 juta token. Siri V4 memperkenalkan tiga peningkatan arsitektur, termasuk mekanisme perhatian hibrid yang mengurangkan kos konteks panjang. V4-Pro menggunakan 27% FLOPs V3.2 dan 10% memori cache KV-nya. Dilatih pada lebih daripada 32T token, model-model ini menggunakan SFT, GRPO, dan distilasi dalam talian. Pencatatan token baharu mungkin mendapat manfaat daripada kecekapan yang diperbaiki ini.

ChainThink melaporkan, pada 24 April, menurut maklumat rasmi, versi pra-pandangan siri DeepSeek V4 telah dibuka sumber dengan lesen MIT, dan berat model telah dilancarkan di Hugging Face dan ModelScope.


Siri ini mengandungi dua model MoE, di mana V4-Pro mempunyai jumlah parameter sebanyak 1.6 trilion, dengan 49 bilion parameter yang diaktifkan setiap token;


V4-Flash mempunyai jumlah parameter sebanyak 284 bilion, dengan 13 bilion parameter yang diaktifkan setiap token; kedua-dua model menyokong konteks 1 juta token.


Rangkaian ini mengalami tiga peningkatan: mekanisme perhatian hibrida (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) secara signifikan mengurangkan beban konteks panjang; dalam skenario konteks 1M, FLOPs inferensi satu token V4-Pro hanya 27% daripada V3.2, dan penggunaan memori KV cache hanya 10% daripada V3.2;


mHC yang menggantikan sambungan sisa tradisional dengan batasan manifold meningkatkan kestabilan penyebaran isyarat antar lapisan; latihan menggunakan optimizer Muon untuk mempercepat konvergensi. Data pra-latihan model ini melebihi 32T token.


Latihan selepas dibahagikan kepada dua peringkat, pertama melalui SFT dan pembelajaran penguatan GRPO untuk melatih model pakar setiap bidang, kemudian digabungkan secara seragam menjadi model akhir melalui pendidikan dalam talian.


V4-Pro-Max mengklaim sebagai model open-source terkuat semasa, dengan prestasi pengkodean setara dengan tahap teratas, serta mengurangkan jurang secara ketara dalam tugas inferens dan agen berbanding model terkini tertutup;


V4-Flash-Max setelah mendapat cukup anggaran pemikiran, prestasi penalarannya mendekati Pro, tetapi terbatas pada ukuran parameter dalam tugas pengetahuan murni dan agen kompleks. Bobot model disimpan dengan presisi campuran FP4+FP8.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.