เปิดตัวซีรีส์ DeepSeek V4 พร้อมพารามิเตอร์ 1.6 ล้านล้านและใบอนุญาต MIT

ChainThink รายงานว่า เมื่อวันที่ 24 เมษายน ตามข้อมูลอย่างเป็นทางการ DeepSeek เปิดตัวรุ่นตัวอย่างของซีรีส์ V4 ภายใต้ใบอนุญาต MIT และน้ำหนักโมเดลได้ถูกเผยแพร่บน Hugging Face และ ModelScope

ชุดนี้ประกอบด้วยโมเดล MoE สองรุ่น โดย V4-Pro มีพารามิเตอร์ทั้งหมด 1.6 ล้านล้านพารามิเตอร์ และเปิดใช้งานพารามิเตอร์ 490 พันล้านต่อทุกโทเค็น;

V4-Flash มีพารามิเตอร์ทั้งหมด 284,000 ล้าน แต่ละโทเค็นกระตุ้นพารามิเตอร์ 13,000 ล้าน ทั้งสองรุ่นรองรับบริบท 1 ล้านโทเค็น

โครงสร้างชุดนี้มีการอัปเกรดสามประการ: กลไกการให้ความสำคัญแบบผสม (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) สามารถลดต้นทุนบริบทยาวได้อย่างมาก โดยในสถานการณ์บริบท 1M ค่า FLOPs สำหรับการอนุมานแบบทีละโทเค็นของ V4-Pro ลดลงเหลือเพียง 27% ของ V3.2 และการใช้หน่วยความจำ GPU สำหรับ KV cache ลดลงเหลือเพียง 10% ของ V3.2;

ใช้ mHC ซึ่งเป็นการเชื่อมต่อแบบจำกัดแมนิฟอลด์ เพื่อแทนที่การเชื่อมต่อแบบรีซิดูอัลแบบดั้งเดิม ช่วยเพิ่มความเสถียรของการแพร่สัญญาณข้ามชั้น; การฝึกใช้ตัวปรับแต่ง Muon เพื่อเร่งการรวมตัว โมเดลนี้ได้รับการฝึกล่วงหน้าด้วยข้อมูลมากกว่า 32T โทเค็น

การฝึกหลังมีสองขั้นตอน: ก่อนอื่นฝึกโมเดลผู้เชี่ยวชาญแต่ละด้านผ่าน SFT และ GRPO reinforcement learning จากนั้นรวมเป็นโมเดลสุดท้ายผ่านการเรียนรู้แบบออนไลน์

V4-Pro-Max อ้างว่าเป็นโมเดลโอเพ่นซอร์สที่ทรงพลังที่สุดในปัจจุบัน ประสิทธิภาพในการเขียนโค้ดอยู่ในระดับชั้นนำ และช่องว่างในการประมวลผลและการทำงานแบบเอเจนต์เมื่อเทียบกับโมเดลเชิงปิดชั้นนำได้ลดลงอย่างมีนัยสำคัญ

V4-Flash-Max หลังจากได้รับงบประมาณการคิดเพียงพอ จะมีประสิทธิภาพการให้เหตุผลใกล้เคียงกับ Pro แต่ถูกจำกัดโดยขนาดพารามิเตอร์ในงานความรู้บริสุทธิ์และงานเอเจนต์ที่ซับซ้อน น้ำหนักโมเดลถูกจัดเก็บด้วยความแม่นยำผสม FP4+FP8