Spesifikasi Teknis DeepSeek V4 Terungkap: 1,6 T Parameter, 384 Ahli yang Mengaktifkan 6

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Pada 22 April (UTC+8), mahasiswa PhD Princeton Yifan Zhang membagikan indikator teknis untuk DeepSeek V4 di X. Model ini memiliki 1,6 triliun parameter, 384 pakar MoE dengan 6 yang diaktifkan per langkah, serta versi V4-Lite dengan 285 miliar parameter. Pelatihan menggunakan optimizer Muon, panjang konteks pra-pelatihan 32K, dan panjang konteks akhir 1M. DeepSeek belum memberikan komentar. Sentimen pasar tetap campur aduk, dengan indeks ketakutan dan keserakahan menunjukkan ketidakpastian sedang.

Berita ME, 22 April (UTC+8), menurut pemantauan Beating, mahasiswa doktoral Princeton, Yifan Zhang, memperbarui detail teknis DeepSeek V4 di X. Pada 19 April, ia sebelumnya mengumumkan "V4 minggu depan" dan menyebut tiga nama komponen arsitektur, malam ini ia merilis tabel parameter lengkap sekaligus mengungkapkan secara pertama kalinya keberadaan versi ringan V4-Lite dengan 285 miliar parameter. Total parameter V4 mencapai 1,6 triliun. Mekanisme perhatian adalah DSA2, yang menggabungkan dua skema perhatian jarang yang sebelumnya digunakan DeepSeek di V3.2 (DSA/DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dengan head-dim 512, didukung oleh Sparse MQA dan SWA (Sliding Window Attention). Lapisan MoE terdiri dari 384 ahli, dengan 6 ahli yang diaktifkan setiap kali, menggunakan Fused MoE Mega-Kernel. Koneksi residual tetap menggunakan Hyper-Connections. Detail baru yang diungkapkan untuk tahap pelatihan termasuk: optimizer menggunakan Muon (sebuah optimizer tingkat matriks yang menerapkan ortogonalitas Newton-Schulz pada pembaruan momentum), panjang konteks pra-pelatihan 32K, tahap reinforcement learning menggunakan GRPO dengan penyesuaian KL divergence. Panjang konteks akhir diperluas hingga 1 juta. Modality bersifat teks murni. Zhang tidak bekerja di DeepSeek, dan DeepSeek belum memberikan tanggapan resmi terhadap informasi ini. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.