Rincian Teknis DeepSeek V4 Terungkap: 1,6 T Parameter, 384 Ahli yang Mengaktifkan 6

icon币界网
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita on-chain muncul pada 22 April (UTC+8) ketika mahasiswa PhD Princeton, Yifan Zhang, membagikan spesifikasi lengkap DeepSeek V4 di X. V4 memiliki 1,6 triliun parameter, mekanisme perhatian DSA2, 384 pakar MoE dengan 6 aktif per langkah, dan konteks 1 juta token. Zhang tidak terkait dengan DeepSeek, yang belum memberikan komentar. Rincian peningkatan jaringan menunjukkan peningkatan kinerja yang signifikan.

Berita CoinWorld, pada 22 April (UTC+8), menurut pemantauan Beating, mahasiswa doktoral Princeton, Yifan Zhang, memperbarui detail teknis DeepSeek V4 di X. Pada 19 April, ia sebelumnya memperkirakan "V4 minggu depan" dan menyebut tiga nama komponen arsitektur; malam ini ia merilis tabel parameter lengkap sekaligus mengungkapkan secara pertama kali keberadaan versi ringan V4-Lite dengan 285 miliar parameter. Total parameter V4 mencapai 1,6 triliun. Mekanisme perhatian adalah DSA2, yang menggabungkan dua skema perhatian jarang yang sebelumnya digunakan DeepSeek di V3.2 (DSA/DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam paper awal tahun ini, dengan head-dim 512, didukung oleh Sparse MQA dan SWA (Sliding Window Attention). Lapisan MoE terdiri dari 384 ahli, dengan 6 ahli yang diaktifkan setiap kali, menggunakan Fused MoE Mega-Kernel. Koneksi residual tetap menggunakan Hyper-Connections. Detail baru yang diungkapkan untuk tahap pelatihan meliputi: optimizer menggunakan Muon (sebuah optimizer tingkat matriks yang menerapkan ortogonalitas Newton-Schulz pada pembaruan momentum), panjang konteks pra-pelatihan 32K, tahap reinforcement learning menggunakan GRPO dengan penyesuaian KL divergence. Panjang konteks akhir diperluas hingga 1 juta. Modality bersifat teks murni. Zhang tidak bekerja di DeepSeek, dan DeepSeek belum memberikan tanggapan resmi terhadap informasi ini.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.