ไมโครซอฟต์และมหาวิทยาลัยเจ้อเจียงเปิดตัว World-R1: ความสอดคล้องเชิงสามมิติในโมเดลวิดีโอผ่านการเรียนรู้ด้วยการเสริมแรง

KuCoinFlash

เวลาเผยแพร่: 28/04/2569 10:02:29

แชร์

สรุป

ข่าวบนโซ่: Microsoft Research และมหาวิทยาลัยเจ้อเจียงเปิดตัว World-R1 เมื่อวันที่ 28 เมษายน วิธีการเรียนรู้แบบเสริมแรงที่ช่วยให้โมเดลวิดีโอสามารถเข้าใจเรขาคณิต 3 มิติได้โดยไม่ต้องใช้ชุดข้อมูล 3 มิติ ระบบใช้ Depth Anything 3 เพื่อสร้างใหม่เป็น 3D Gaussians จากนั้นเปรียบเทียบมุมมองที่เรนเดอร์กับวิดีโอต้นฉบับ สัญญาณรางวัลที่อิงจากข้อผิดพลาด เส้นทาง และความน่าเชื่อถือของ Qwen3-VL ถูกปรับปรุงผ่าน Flow-GRPO โมเดลรวมถึง Wan 2.1 (1.3B และ 14B) ที่ฝึกด้วยคำสั่งที่สร้างโดย Gemini จำนวน 3,000 คำสั่ง World-R1-Large เพิ่ม PSNR ขึ้น 7.91dB และ World-R1-Small เพิ่มขึ้น 10.23dB โค้ดสามารถเข้าถึงได้บน GitHub ภายใต้ใบอนุญาต CC BY-NC-SA 4.0 ข่าวเกี่ยวกับสินทรัพย์โลกจริง (RWA) เน้นย้ำความก้าวหน้านี้ในด้านการสร้างแบบจำลอง 3 มิติที่ขับเคลื่อนด้วย AI

ข้อความจาก AIMPACT เมื่อวันที่ 28 เมษายน (UTC+8) ตามการติดตามของ Beating ทีมจากห้องปฏิบัติการ Microsoft และมหาวิทยาลัย Cheung Kong ได้เสนอ World-R1 ซึ่งใช้การเรียนรู้แบบเสริมแรงเพื่อให้โมเดลการสร้างวิดีโอจากข้อความเรียนรู้ความสอดคล้องทางเรขาคณิต 3 มิติ โดยไม่ต้องปรับโครงสร้างโมเดลหรือพึ่งพาชุดข้อมูล 3 มิติ แนวคิดหลัก: หลังจากสร้างวิดีโอแล้ว ใช้โมเดลพื้นฐาน 3 มิติที่ฝึกไว้ล่วงหน้า Depth Anything 3 เพื่อสร้างแบบจำลอง 3D Gaussian (3DGS) ของฉาก จากนั้นเรนเดอร์จากมุมมองใหม่และเปรียบเทียบกับวิดีโอต้นฉบับ โดยรวมสัญญาณรางวัลจากข้อผิดพลาดในการสร้างใหม่ การเบี่ยงเบนของเส้นทาง และความน่าเชื่อถือทางความหมายของมุมมองใหม่ (ซึ่งได้รับการให้คะแนนโดย Qwen3-VL) จากนั้นส่งสัญญาณย้อนกลับไปยังโมเดลวิดีโอผ่าน Flow-GRPO (อัลกอริธึมการเรียนรู้แบบเสริมแรงที่ปรับให้เหมาะกับโมเดลการจับคู่การไหล) โมเดลพื้นฐานคือ Wan 2.1 (1.3B และ 14B) ซึ่งเป็นแบบเปิดแหล่งที่มา โดยฝึกเป็น World-R1-Small และ World-R1-Large ข้อมูลการฝึกมีเพียงประมาณ 3,000 ตัวอย่างพรอมต์ข้อความบริสุทธิ์ที่สร้างโดย Gemini โดยไม่ใช้ทรัพยากร 3 มิติใดๆ ระหว่างการฝึก จะแทรกการปรับแต่งแบบไดนามิกทุกๆ 100 ขั้นตอน โดยปิดรางวัลด้านเรขาคณิต 3 มิติชั่วคราวและคงไว้เฉพาะรางวัลด้านคุณภาพภาพ เพื่อป้องกันไม่ให้โมเดลกดทับการเคลื่อนไหวแบบไม่แข็งตัว เช่น การเคลื่อนไหวของมนุษย์ เพื่อให้ได้ความแข็งแรงทางเรขาคณิต ดัชนีความสอดคล้องทาง 3 มิติ: World-R1-Large เพิ่ม PSNR (Peak Signal-to-Noise Ratio) ขึ้น 7.91dB เมื่อเทียบกับ Wan 2.1 14B ส่วนรุ่น Small เพิ่มขึ้น 10.23dB คุณภาพวิดีโอทั่วไปบน VBench ไม่ลดลงแต่กลับเพิ่มขึ้น ในแบบทดสอบแบบไม่เปิดเผยตัวตนโดยผู้ทดสอบ 25 คน อัตราการชนะด้านความสอดคล้องทางเรขาคณิตอยู่ที่ 92% และความชอบโดยรวมอยู่ที่ 86% โค้ดได้เปิดแหล่งที่มาบน GitHub โดยมีใบอนุญาต CC BY-NC-SA 4.0 (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ

คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา