Berita ME, 22 April (UTC+8), menurut pemantauan Beating, pelajar doktor Princeton, Yifan Zhang, telah memperbaharui butiran teknikal DeepSeek V4 di X. Pada 19 April, beliau meramalkan “V4 minggu depan” dan menyenaraikan tiga nama komponen arsitektur, dan malam ini beliau mengumumkan jadual parameter penuh, serta mengungkapkan untuk pertama kalinya kehadiran versi ringan V4-Lite dengan 285B parameter. Jumlah parameter V4 ialah 1.6T. Mekanisme perhatian ialah DSA2, yang menggabungkan dua skema perhatian jarang—DSA (DeepSeek Sparse Attention) yang digunakan dalam V3.2 sebelum ini dan NSA (Native Sparse Attention) yang dicadangkan dalam kertas kerja awal tahun ini—dengan head-dim 512, disertai Sparse MQA dan SWA (Sliding Window Attention). Terdapat 384 pakar dalam lapisan MoE, dengan 6 pakar yang diaktifkan pada setiap masa, menggunakan Fused MoE Mega-Kernel. Sambungan residu terus menggunakan Hyper-Connections. Butiran baru yang diumumkan untuk pengajaran termasuk: pengoptimum menggunakan Muon (sejenis pengoptimum peringkat matriks yang mengaplikasikan ortogonalisasi Newton-Schulz kepada kemas kini momentum), panjang konteks pra-pelatihan 32K, dan penggunaan GRPO serta penyesuaian KL divergence pada peringkat pembelajaran penguatan. Panjang konteks akhir diperluaskan hingga 1M. Modality ialah teks tulen. Zhang bukan seorang pekerja DeepSeek, dan DeepSeek belum memberikan sebarang respons terhadap maklumat ini. (Sumber: BlockBeats)
Spesifikasi Teknikal DeepSeek V4 Dibeberkan: 1.6T Parameter, 384 Pakar yang Mengaktifkan 6
KuCoinFlashKongsi






Pada 22 April (UTC+8), pelajar PhD Princeton, Yifan Zhang, berkongsi indikator teknikal untuk DeepSeek V4 di X. Model ini mempunyai 1.6 trilion parameter, 384 pakar MoE dengan 6 yang diaktifkan setiap langkah, dan versi V4-Lite dengan 285B parameter. Latihan menggunakan pengoptimum Muon, panjang konteks pra-pelatihan 32K, dan panjang konteks akhir 1M. DeepSeek belum memberi komen. Sentimen pasaran masih bercampur, dengan indeks ketakutan dan keserakahan menunjukkan ketidakpastian sederhana.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.