วิธีการฝึก DeepSeek V4 เปลี่ยนไปใช้ OPD และรวมโมเดลผู้เชี่ยวชาญ

KuCoinFlash

เวลาเผยแพร่: 24/04/2569 04:20:49

แชร์

สรุป

การฝึก DeepSeek V4 ตอนนี้ใช้ OPD หลังจากเปลี่ยนจากขั้นตอน RL แบบผสมของ V3.2 ผู้เชี่ยวชาญด้านคณิตศาสตร์ รหัส และการปฏิบัติตามคำสั่งจะได้รับการฝึกก่อน แล้วจึงถูกบีบอัดเข้าไปในโมเดลเดียวผ่าน OPD แบบหลายครู GRM ช่วยในการจัดการงานที่ซับซ้อนโดยใช้ข้อมูลมนุษย์น้อยที่สุด การเปลี่ยนแปลงนี้สอดคล้องกับโปรโตคอล CFT ที่เข้มงวดขึ้นและการเพิ่มขึ้นของความสนใจในสินทรัพย์ที่มีความเสี่ยงสูง เนื่องจากโครงการต่างๆ กำลังมองหาประสิทธิภาพ

ข่าว ME รายงานเมื่อวันที่ 24 เมษายน (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ วิธีการฝึกหลังจากใช้งาน DeepSeek V4 เกิดการเปลี่ยนแปลงครั้งใหญ่: ระยะ mixed RL ของ V3.2 ถูกแทนที่อย่างสมบูรณ์ด้วย On-Policy Distillation (OPD) กระบวนการใหม่นี้แบ่งเป็นสองขั้นตอน ขั้นตอนที่หนึ่ง: บนพื้นฐานของสายการผลิต V3.2 ฝึกโมเดลผู้เชี่ยวชาญเฉพาะด้านแยกกันในสาขาต่างๆ เช่น คณิตศาสตร์ โค้ด Agent และการปฏิบัติตามคำสั่ง โดยแต่ละผู้เชี่ยวชาญจะทำการปรับแต่งก่อนแล้วใช้ GRPO เพื่อการเรียนรู้เชิงเสริม ขั้นตอนที่สอง: ใช้ OPD แบบผู้สอนหลายคนเพื่อถ่ายโอนความสามารถของผู้เชี่ยวชาญกว่าสิบคนเข้าสู่โมเดลเดียว: นักเรียนจะทำการ蒸馏แบบ full-token logit โดยใช้ reverse KL divergence กับแต่ละผู้สอนบนเส้นทางที่ตัวเองสร้างขึ้น เพื่อจัดแนวระดับ logits และรวมน้ำหนักของผู้เชี่ยวชาญหลายรายเข้าสู่พื้นที่พารามิเตอร์เดียวกัน โดยหลีกเลี่ยงปัญหาความขัดแย้งของความสามารถที่มักเกิดขึ้นในวิธีการรวมน้ำหนักแบบดั้งเดิมและ mixed RL นอกจากนี้รายงานยังเสนอ Generative Reward Model (GRM): สำหรับงานที่ยากต่อการตรวจสอบด้วยกฎเกณฑ์ จะไม่ฝึกโมเดลรางวัลแบบสเกลาร์แบบดั้งเดิมอีกต่อไป แต่ใช้ข้อมูล RL ที่ได้รับการแนะนำจาก rubric เพื่อฝึก GRM ทำให้เครือข่าย actor มีความสามารถทั้งในการสร้างและประเมินผล โดยสามารถทั่วไปไปยังงานที่ซับซ้อนได้ด้วยการติดป้ายกำกับด้วยมนุษย์เพียงไม่กี่ชุดและหลากหลาย (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา