วิธีการฝึก DeepSeek V4 เปลี่ยนไปใช้ OPD และรวมโมเดลผู้เชี่ยวชาญ

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
การฝึก DeepSeek V4 ตอนนี้ใช้ OPD หลังจากเปลี่ยนจากขั้นตอน RL แบบผสมของ V3.2 ผู้เชี่ยวชาญด้านคณิตศาสตร์ รหัส และการปฏิบัติตามคำสั่งจะได้รับการฝึกก่อน แล้วจึงถูกบีบอัดเข้าไปในโมเดลเดียวผ่าน OPD แบบหลายครู GRM ช่วยในการจัดการงานที่ซับซ้อนโดยใช้ข้อมูลมนุษย์น้อยที่สุด การเปลี่ยนแปลงนี้สอดคล้องกับโปรโตคอล CFT ที่เข้มงวดขึ้นและการเพิ่มขึ้นของความสนใจในสินทรัพย์ที่มีความเสี่ยงสูง เนื่องจากโครงการต่างๆ กำลังมองหาประสิทธิภาพ

ข่าว ME รายงานเมื่อวันที่ 24 เมษายน (UTC+8) ตามข้อมูลจาก Beating ซึ่งติดตามสถานการณ์ วิธีการฝึกหลังจากใช้งาน DeepSeek V4 เกิดการเปลี่ยนแปลงครั้งใหญ่: ระยะ mixed RL ของ V3.2 ถูกแทนที่อย่างสมบูรณ์ด้วย On-Policy Distillation (OPD) กระบวนการใหม่นี้แบ่งเป็นสองขั้นตอน ขั้นตอนที่หนึ่ง: บนพื้นฐานของสายการผลิต V3.2 ฝึกโมเดลผู้เชี่ยวชาญเฉพาะด้านแยกกันในสาขาต่างๆ เช่น คณิตศาสตร์ โค้ด Agent และการปฏิบัติตามคำสั่ง โดยแต่ละผู้เชี่ยวชาญจะทำการปรับแต่งก่อนแล้วใช้ GRPO เพื่อการเรียนรู้เชิงเสริม ขั้นตอนที่สอง: ใช้ OPD แบบผู้สอนหลายคนเพื่อถ่ายโอนความสามารถของผู้เชี่ยวชาญกว่าสิบคนเข้าสู่โมเดลเดียว: นักเรียนจะทำการ蒸馏แบบ full-token logit โดยใช้ reverse KL divergence กับแต่ละผู้สอนบนเส้นทางที่ตัวเองสร้างขึ้น เพื่อจัดแนวระดับ logits และรวมน้ำหนักของผู้เชี่ยวชาญหลายรายเข้าสู่พื้นที่พารามิเตอร์เดียวกัน โดยหลีกเลี่ยงปัญหาความขัดแย้งของความสามารถที่มักเกิดขึ้นในวิธีการรวมน้ำหนักแบบดั้งเดิมและ mixed RL นอกจากนี้รายงานยังเสนอ Generative Reward Model (GRM): สำหรับงานที่ยากต่อการตรวจสอบด้วยกฎเกณฑ์ จะไม่ฝึกโมเดลรางวัลแบบสเกลาร์แบบดั้งเดิมอีกต่อไป แต่ใช้ข้อมูล RL ที่ได้รับการแนะนำจาก rubric เพื่อฝึก GRM ทำให้เครือข่าย actor มีความสามารถทั้งในการสร้างและประเมินผล โดยสามารถทั่วไปไปยังงานที่ซับซ้อนได้ด้วยการติดป้ายกำกับด้วยมนุษย์เพียงไม่กี่ชุดและหลากหลาย (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา