เปิดตัวซีรีส์ DeepSeek V4 พร้อมพารามิเตอร์ 1.6 ล้านล้านและใบอนุญาต MIT

iconChainthink
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าวบนโซ่ถูกเปิดเผยเมื่อวันที่ 24 เมษายน เมื่อ DeepSeek เปิดตัวซีรีส์ V4 ภายใต้ใบอนุญาต MIT โมเดลเหล่านี้ซึ่งตอนนี้มีอยู่บน Hugging Face และ ModelScope ได้แก่ V4-Pro (1.6 ล้านล้านพารามิเตอร์) และ V4-Flash (284 พันล้านพารามิเตอร์) ทั้งคู่รองรับบริบท 1 ล้านโทเค็น ซีรีส์ V4 นำการปรับปรุงสถาปัตยกรรมสามประการมาใช้ รวมถึงกลไกการให้ความสำคัญแบบไฮบริดที่ลดต้นทุนของบริบทระยะยาว V4-Pro ใช้ FLOPs เพียง 27% ของ V3.2 และหน่วยความจำ KV cache เพียง 10% โมเดลเหล่านี้ได้รับการฝึกด้วยโทเค็นมากกว่า 32 ล้านล้านโทเค็น โดยใช้ SFT, GRPO และการถ่ายโอนแบบออนไลน์ การขึ้นทะเบียนโทเค็นใหม่อาจได้รับประโยชน์จากประสิทธิภาพที่ดีขึ้นนี้

ChainThink รายงานว่า เมื่อวันที่ 24 เมษายน ตามข้อมูลอย่างเป็นทางการ DeepSeek เปิดตัวรุ่นตัวอย่างของซีรีส์ V4 ภายใต้ใบอนุญาต MIT และน้ำหนักโมเดลได้ถูกเผยแพร่บน Hugging Face และ ModelScope


ชุดนี้ประกอบด้วยโมเดล MoE สองรุ่น โดย V4-Pro มีพารามิเตอร์ทั้งหมด 1.6 ล้านล้านพารามิเตอร์ และเปิดใช้งานพารามิเตอร์ 490 พันล้านต่อทุกโทเค็น;


V4-Flash มีพารามิเตอร์ทั้งหมด 284,000 ล้าน แต่ละโทเค็นกระตุ้นพารามิเตอร์ 13,000 ล้าน ทั้งสองรุ่นรองรับบริบท 1 ล้านโทเค็น


โครงสร้างชุดนี้มีการอัปเกรดสามประการ: กลไกการให้ความสำคัญแบบผสม (Compressed Sparse Attention CSA + Heavily Compressed Attention HCA) สามารถลดต้นทุนบริบทยาวได้อย่างมาก โดยในสถานการณ์บริบท 1M ค่า FLOPs สำหรับการอนุมานแบบทีละโทเค็นของ V4-Pro ลดลงเหลือเพียง 27% ของ V3.2 และการใช้หน่วยความจำ GPU สำหรับ KV cache ลดลงเหลือเพียง 10% ของ V3.2;


ใช้ mHC ซึ่งเป็นการเชื่อมต่อแบบจำกัดแมนิฟอลด์ เพื่อแทนที่การเชื่อมต่อแบบรีซิดูอัลแบบดั้งเดิม ช่วยเพิ่มความเสถียรของการแพร่สัญญาณข้ามชั้น; การฝึกใช้ตัวปรับแต่ง Muon เพื่อเร่งการรวมตัว โมเดลนี้ได้รับการฝึกล่วงหน้าด้วยข้อมูลมากกว่า 32T โทเค็น


การฝึกหลังมีสองขั้นตอน: ก่อนอื่นฝึกโมเดลผู้เชี่ยวชาญแต่ละด้านผ่าน SFT และ GRPO reinforcement learning จากนั้นรวมเป็นโมเดลสุดท้ายผ่านการเรียนรู้แบบออนไลน์


V4-Pro-Max อ้างว่าเป็นโมเดลโอเพ่นซอร์สที่ทรงพลังที่สุดในปัจจุบัน ประสิทธิภาพในการเขียนโค้ดอยู่ในระดับชั้นนำ และช่องว่างในการประมวลผลและการทำงานแบบเอเจนต์เมื่อเทียบกับโมเดลเชิงปิดชั้นนำได้ลดลงอย่างมีนัยสำคัญ


V4-Flash-Max หลังจากได้รับงบประมาณการคิดเพียงพอ จะมีประสิทธิภาพการให้เหตุผลใกล้เคียงกับ Pro แต่ถูกจำกัดโดยขนาดพารามิเตอร์ในงานความรู้บริสุทธิ์และงานเอเจนต์ที่ซับซ้อน น้ำหนักโมเดลถูกจัดเก็บด้วยความแม่นยำผสม FP4+FP8

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา