เปิดตัวโมเดล DeepSeek V4 แบบเปิดแหล่งที่มา พร้อมพารามิเตอร์ 1.6 ล้านล้านและใบอนุญาต MIT

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ข่าวบนโซ่เปิดตัวเมื่อวันที่ 24 เมษายน (UTC+8) โดย DeepSeek เปิดตัวรุ่นทดลองของซีรีส์ V4 แบบโอเพ่นซอร์สภายใต้ใบอนุญาต MIT รุ่น V4-Pro และ V4-Flash MoE มีพารามิเตอร์ตามลำดับที่ 1.6 ล้านล้านและ 284 พันล้าน พร้อมรองรับบริบท 1 ล้านโทเค็น V4-Pro ลด FLOPs ในการประมวลผลลง 73% และหน่วยความจำ KV cache ลง 90% เมื่อเทียบกับ V3.2 น้ำหนักโมเดลสามารถเข้าถึงได้บน Hugging Face และ ModelScope การเพิ่มโทเค็นใหม่อาจได้รับประโยชน์จากประสิทธิภาพที่ดีขึ้นและการเข้าถึงแบบเปิด

ข่าวจาก ME News เมื่อวันที่ 24 เมษายน (UTC+8) ตามข้อมูลจาก Beating ระบุว่า DeepSeek เปิดตัวรุ่นตัวอย่างของซีรีส์ V4 แบบเปิดแหล่งที่มาภายใต้ใบอนุญาต MIT โดยน้ำหนักโมเดลได้ถูกเผยแพร่บน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล MoE สองรุ่น: V4-Pro มีพารามิเตอร์รวม 1.6T และเปิดใช้งาน 49B (49,000 ล้าน) ต่อโทเค็น; V4-Flash มีพารามิเตอร์รวม 284B (284,000 ล้าน) และเปิดใช้งาน 13B (13,000 ล้าน) ทั้งสองรุ่นรองรับบริบทถึง 1M โทเค็น มีการปรับปรุงสถาปัตยกรรมสามประการ: กลไกการให้ความสนใจแบบผสม (CSA - Compressed Sparse Attention และ HCA - Heavily Compressed Attention) ลดต้นทุนในการจัดการบริบทยาวอย่างมาก โดยในบริบท 1M โทเค็น ค่า FLOPs ต่อโทเค็นของ V4-Pro ลดลงเหลือเพียง 27% เทียบกับ V3.2 และการใช้หน่วยความจำสำหรับ KV cache (การจัดเก็บข้อมูลย้อนหลังในหน่วยความจำ GPU ระหว่างการให้เหตุผล) ลดลงเหลือเพียง 10% เทียบกับ V3.2; การแทนที่การเชื่อมต่อแบบเหลือ (residual connection) ด้วย mHC (manifold-constrained hyperconnection) เพื่อเพิ่มความเสถียรในการส่งสัญญาณข้ามชั้น; และการเปลี่ยนไปใช้ตัวปรับแต่ง Muon เพื่อเร่งการรวมตัวในการฝึกอบรม ข้อมูลการฝึกอบรมเบื้องต้นเกินกว่า 32T โทเค็น การฝึกอบรมหลังเบื้องต้นแบ่งเป็นสองขั้นตอน: ก่อนหน้าใช้ SFT และ GRPO reinforcement learning เพื่อฝึกผู้เชี่ยวชาญแต่ละด้าน จากนั้นใช้การเรียนรู้แบบออนไลน์เพื่อรวมเป็นโมเดลเดียว V4-Pro-Max (โหมดความเร็วในการให้เหตุผลสูงสุด) อ้างว่าเป็นโมเดลเปิดแหล่งที่มาที่แข็งแกร่งที่สุดในปัจจุบัน โดยมีประสิทธิภาพในการเขียนโค้ดอยู่ในระดับชั้นนำ และช่องว่างระหว่างการให้เหตุผลและงานตัวแทนกับโมเดลปิดแหล่งที่มาชั้นนำลดลงอย่างมาก V4-Flash-Max เมื่อมีงบประมาณการคิดเพียงพอ จะมีประสิทธิภาพในการให้เหตุผลใกล้เคียงกับ V4-Pro แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานความรู้บริสุทธิ์และงานตัวแทนที่ซับซ้อน น้ำหนักโมเดลถูกจัดเก็บด้วยความแม่นยำแบบผสม FP4+FP8 (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา