Butiran Teknikal DeepSeek V4 Dibeberkan: 1.6T Parameter, 384 Pakar yang Mengaktifkan 6

icon币界网
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita di atas rantai muncul pada 22 April (UTC+8) apabila pelajar PhD Princeton, Yifan Zhang, berkongsi spesifikasi penuh DeepSeek V4 di X. V4 mempunyai 1.6 trilion parameter, mekanisme perhatian DSA2, 384 pakar MoE dengan 6 aktif setiap langkah, dan konteks 1 juta token. Zhang tidak dikaitkan dengan DeepSeek, yang belum memberi komen. Butiran peningkatan rangkaian menunjukkan peningkatan prestasi yang besar.

Berita CoinDesk, pada 22 April (UTC+8), menurut pemantauan Beating, pelajar doktor Princeton, Yifan Zhang, telah memperbaharui butiran teknikal DeepSeek V4 di X. Pada 19 April, beliau meramalkan "V4 minggu depan" dan menyenaraikan tiga nama komponen arsitektur, dan malam ini beliau mengumumkan jadual parameter penuh, serta mengungkapkan untuk pertama kalinya kehadiran versi ringan V4-Lite dengan 285B parameter. Jumlah parameter V4 ialah 1.6T. Mekanisme perhatian ialah DSA2, yang menggabungkan dua skema perhatian jarang sebelumnya yang digunakan oleh DeepSeek di V3.2 (DSA - DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diperkenalkan dalam kertas kerja awal tahun ini, dengan head-dim 512, disertai Sparse MQA dan SWA (Sliding Window Attention). Terdapat 384 pakar dalam lapisan MoE, dengan 6 pakar yang diaktifkan pada setiap masa, menggunakan Fused MoE Mega-Kernel. Sambungan residu menggunakan Hyper-Connections. Butiran bahagian latihan yang diungkapkan untuk pertama kalinya termasuk: pengoptimum menggunakan Muon (sejenis pengoptimum peringkat matriks yang mengaplikasikan pengorthogonal-an Newton-Schulz kepada kemas kini momentum), panjang konteks pra-latihan 32K, dan pada peringkat pembelajaran penguatan menggunakan GRPO dengan penyesuaian KL divergence. Panjang konteks akhir diperluaskan hingga 1M. Modality ialah teks tulen. Zhang bukan pekerja DeepSeek, dan DeepSeek secara rasmi belum memberi respons terhadap maklumat ini.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.