เปิดเผยข้อมูลเทคนิคของ DeepSeek V4: พารามิเตอร์ 1.6 ล้านล้าน ผู้เชี่ยวชาญ 384 คน ที่เปิดใช้งาน 6 คน

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ในวันที่ 22 เมษายน (UTC+8) นักศึกษาปริญญาเอกจากพรินซ์ตัน ยีฟาน จาง ได้แชร์ตัวชี้วัดทางเทคนิคสำหรับ DeepSeek V4 บน X โมเดลนี้มีพารามิเตอร์ 1.6 ล้านล้าน ผู้เชี่ยวชาญ MoE 384 คน โดยเปิดใช้งาน 6 คนต่อขั้นตอน และมีเวอร์ชัน V4-Lite ขนาดพารามิเตอร์ 285 พันล้าน การฝึกใช้ตัวเพิ่มประสิทธิภาพ Muon ความยาวบริบทการฝึกล่วงหน้า 32K และความยาวบริบทสุดท้าย 1 ล้าน DeepSeek ยังไม่ได้ให้ความเห็น ความรู้สึกของตลาดยังคงไม่แน่นอน โดยดัชนีความกลัวและความโลภแสดงความไม่แน่นอนในระดับปานกลาง

ข่าว ME รายงานว่า เมื่อวันที่ 22 เมษายน (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตัน ยีฟาน จาง ได้อัปเดตรายละเอียดทางเทคนิคของ DeepSeek V4 บน X เขาได้แจ้งล่วงหน้าเมื่อวันที่ 19 เมษายนว่า “V4 จะออกในสัปดาห์หน้า” และระบุชื่อส่วนประกอบสถาปัตยกรรมสามส่วน วันนี้เขาเปิดเผยตารางพารามิเตอร์ฉบับสมบูรณ์พร้อมเปิดเผยว่ามีเวอร์ชันเบาบางชื่อ V4-Lite ที่มีพารามิเตอร์ 285B โดยพารามิเตอร์รวมของ V4 อยู่ที่ 1.6T กลไกการให้ความสนใจคือ DSA2 ซึ่งรวมเอา DSA (DeepSeek Sparse Attention) ที่ใช้ใน V3.2 ก่อนหน้านี้ และ NSA (Native Sparse Attention) ที่เสนอในเอกสารวิจัยเมื่อต้นปีนี้ โดยมี head-dim 512 ร่วมกับ Sparse MQA และ SWA (Sliding Window Attention) ชั้น MoE มีผู้เชี่ยวชาญทั้งหมด 384 คน โดยเปิดใช้งานเพียง 6 คนต่อครั้ง และใช้ Fused MoE Mega-Kernel การเชื่อมต่อแบบรีซิดูอัลยังคงใช้ Hyper-Connections รายละเอียดใหม่ที่เปิดเผยครั้งแรกในด้านการฝึกอบรมรวมถึง: ตัวปรับแต่งใช้ Muon (ตัวปรับแต่งระดับเมทริกซ์ที่ประยุกต์ใช้การออร์โธโกนอล Newton-Schulz กับการอัปเดตโมเมนตัม) ความยาวบริบทในการฝึกอบรมเบื้องต้นคือ 32K ในขั้นตอนการเรียนรู้แบบเสริมแรงใช้ GRPO และเพิ่มการแก้ไข KL Divergence สุดท้ายความยาวบริบทถูกขยายเป็น 1M รูปแบบข้อมูลเป็นข้อความล้วน จางไม่ได้เป็นพนักงานของ DeepSeek และ DeepSeek ยังไม่ได้ให้คำตอบใดๆ เกี่ยวกับข้อมูลข้างต้น (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา