Model Open-Source DeepSeek V4 Dilancarkan dengan 1.6T Parameter dan Lesen MIT

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita pada rantai telah muncul pada 24 April (UTC+8) apabila DeepSeek melancarkan pra-paparan model siri V4 sumber terbuka di bawah lesen MIT. Model V4-Pro dan V4-Flash MoE masing-masing mempunyai 1.6 trilion dan 284 bilion parameter, dengan sokongan konteks 1 juta token. V4-Pro mengurangkan FLOPs inferens sebanyak 73% dan memori cache KV sebanyak 90% berbanding V3.2. Timbangan tersedia di Hugging Face dan ModelScope. Penyenaraian token baharu mungkin mendapat manfaat daripada kecekapan yang ditingkatkan dan akses terbuka.

Berita ME, 24 April (UTC+8), menurut pemantauan Beating, versi pra-lihat DeepSeek V4 terbuka dengan lesen MIT, dan bobotnya kini tersedia di Hugging Face dan ModelScope. Siri ini mengandungi dua model MoE: V4-Pro dengan jumlah parameter 1.6T dan 49B (49 bilion) diaktifkan setiap token; V4-Flash dengan jumlah parameter 284B (284 bilion) dan 13B (13 bilion) diaktifkan. Kedua-dua model menyokong konteks 1M token. Tiga peningkatan arsitektur: mekanisme perhatian hibrid (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) mengurangkan secara ketara beban konteks panjang, di mana FLOPs per token inferensi V4-Pro pada konteks 1M hanya 27% daripada V3.2, dan penggunaan memori KV cache (penyimpanan maklumat sejarah semasa inferensi) hanya 10% daripada V3.2; mHC manifol constraint menggantikan sambungan sisa tradisional untuk meningkatkan kestabilan penyebaran isyarat antara lapisan; latihan menggunakan pengoptimum Muon untuk mempercepatkan konvergensi. Data pra-latihan melebihi 32T token. Latihan selepas dibahagikan kepada dua peringkat: terlebih dahulu melatih pakar setiap bidang menggunakan SFT dan GRPO reinforcement learning, kemudian menggabungkan semuanya menjadi satu model melalui distilasi dalam talian. V4-Pro-Max (modus inferensi paling kuat) mengaku sebagai model terbuka terkuat semasa ini, dengan prestasi kod mencapai tahap teratas, dan jarak antara inferensi serta tugas agen dengan model tertutup terkini berkurang secara ketara. V4-Flash-Max menunjukkan prestasi inferensi hampir setara dengan Pro apabila diberi anggaran pemikiran yang mencukupi, tetapi terhad oleh ukuran parameter dalam tugas pengetahuan tulen dan agen kompleks. Bobot disimpan dengan presisi campuran FP4+FP8. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.