เปิดตัวโมเดล DeepSeek V4 แบบเปิดแหล่งที่มา พร้อมพารามิเตอร์ 1.6 ล้านล้านและใบอนุญาต MIT

ข่าวจาก ME News เมื่อวันที่ 24 เมษายน (UTC+8) ตามข้อมูลจาก Beating ระบุว่า DeepSeek เปิดตัวรุ่นตัวอย่างของซีรีส์ V4 แบบเปิดแหล่งที่มาภายใต้ใบอนุญาต MIT โดยน้ำหนักโมเดลได้ถูกเผยแพร่บน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล MoE สองรุ่น: V4-Pro มีพารามิเตอร์รวม 1.6T และเปิดใช้งาน 49B (49,000 ล้าน) ต่อโทเค็น; V4-Flash มีพารามิเตอร์รวม 284B (284,000 ล้าน) และเปิดใช้งาน 13B (13,000 ล้าน) ทั้งสองรุ่นรองรับบริบทถึง 1M โทเค็น มีการปรับปรุงสถาปัตยกรรมสามประการ: กลไกการให้ความสนใจแบบผสม (CSA - Compressed Sparse Attention และ HCA - Heavily Compressed Attention) ลดต้นทุนในการจัดการบริบทยาวอย่างมาก โดยในบริบท 1M โทเค็น ค่า FLOPs ต่อโทเค็นของ V4-Pro ลดลงเหลือเพียง 27% เทียบกับ V3.2 และการใช้หน่วยความจำสำหรับ KV cache (การจัดเก็บข้อมูลย้อนหลังในหน่วยความจำ GPU ระหว่างการให้เหตุผล) ลดลงเหลือเพียง 10% เทียบกับ V3.2; การแทนที่การเชื่อมต่อแบบเหลือ (residual connection) ด้วย mHC (manifold-constrained hyperconnection) เพื่อเพิ่มความเสถียรในการส่งสัญญาณข้ามชั้น; และการเปลี่ยนไปใช้ตัวปรับแต่ง Muon เพื่อเร่งการรวมตัวในการฝึกอบรม ข้อมูลการฝึกอบรมเบื้องต้นเกินกว่า 32T โทเค็น การฝึกอบรมหลังเบื้องต้นแบ่งเป็นสองขั้นตอน: ก่อนหน้าใช้ SFT และ GRPO reinforcement learning เพื่อฝึกผู้เชี่ยวชาญแต่ละด้าน จากนั้นใช้การเรียนรู้แบบออนไลน์เพื่อรวมเป็นโมเดลเดียว V4-Pro-Max (โหมดความเร็วในการให้เหตุผลสูงสุด) อ้างว่าเป็นโมเดลเปิดแหล่งที่มาที่แข็งแกร่งที่สุดในปัจจุบัน โดยมีประสิทธิภาพในการเขียนโค้ดอยู่ในระดับชั้นนำ และช่องว่างระหว่างการให้เหตุผลและงานตัวแทนกับโมเดลปิดแหล่งที่มาชั้นนำลดลงอย่างมาก V4-Flash-Max เมื่อมีงบประมาณการคิดเพียงพอ จะมีประสิทธิภาพในการให้เหตุผลใกล้เคียงกับ V4-Pro แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานความรู้บริสุทธิ์และงานตัวแทนที่ซับซ้อน น้ำหนักโมเดลถูกจัดเก็บด้วยความแม่นยำแบบผสม FP4+FP8 (ที่มา: BlockBeats)