HWM ขับเคลื่อนการวางแผนระยะยาวในโมเดลโลก

บทนำ

ในปีที่ผ่านมา จุดสนใจหลักของการวิจัยโมเดลโลกอยู่ที่การเรียนรู้การแทนค่าและการพยากรณ์อนาคต โมเดลจะเข้าใจโลกก่อน แล้วจึงจำลองสถานการณ์อนาคตภายในตัวเอง เส้นทางนี้ได้ผลลัพธ์ที่เป็นตัวแทนหลายชิ้นแล้ว V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — โมเดลโลกวิดีโอที่ Meta เปิดตัวในปี 2025) ได้รับการฝึกล่วงหน้าด้วยวิดีโออินเทอร์เน็ตมากกว่า 1 ล้านชั่วโมง แล้วจึงรวมกับข้อมูลการโต้ตอบของหุ่นยนต์จำนวนน้อย ซึ่งแสดงให้เห็นศักยภาพของโมเดลโลกในการเข้าใจ พยากรณ์ และวางแผนหุ่นยนต์แบบศูนย์ตัวอย่าง

แต่การพยากรณ์ของโมเดลไม่ได้หมายความว่าโมเดลจะจัดการงานระยะยาวได้ เมื่อเผชิญกับการควบคุมหลายขั้นตอน ระบบมักจะเผชิญกับแรงกดดันสองประการ ประการแรกคือข้อผิดพลาดในการพยากรณ์จะสะสมอย่างต่อเนื่องในช่วง rollout ระยะยาว (การพยากรณ์หลายขั้นตอนต่อเนื่อง) ทำให้เส้นทางทั้งหมดมีแนวโน้มเบี่ยงเบนจากเป้าหมายมากขึ้น ประการที่สองคือพื้นที่การค้นหาการกระทำจะขยายตัวอย่างรวดเร็วตามความยาวของ horizon (ระยะการวางแผน) ทำให้ต้นทุนการวางแผนเพิ่มขึ้นอย่างต่อเนื่อง HWM ไม่ได้เขียนใหม่เส้นทางการเรียนรู้พื้นฐานของโมเดลโลก แต่เพิ่มโครงสร้างการวางแผนแบบชั้นวางบนโมเดลโลกที่มีเงื่อนไขการกระทำอยู่แล้ว เพื่อให้ระบบจัดระเบียบเส้นทางแต่ละขั้นตอนก่อนจัดการการกระทำในระดับท้องถิ่น

ในเชิงเทคนิค V-JEPA 2 (https://ai.meta.com/research/vjepa/) มุ่งเน้นที่การแทนค่าโลกและการพยากรณ์พื้นฐาน ในขณะที่ HWM มุ่งเน้นที่การวางแผนระยะยาว และ WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) มุ่งเน้นที่การระบุและแก้ไขความผิดเพี้ยนของการพยากรณ์ของโมเดลเอง ทั้งสามแนวทางกำลังค่อยๆ รวมเข้าด้วยกัน จุดเน้นของการวิจัยโมเดลโลกได้เปลี่ยนจากแค่การพยากรณ์อนาคตไปสู่การแปลงความสามารถในการพยากรณ์ให้เป็นความสามารถของระบบที่สามารถดำเนินการ แก้ไข และตรวจสอบได้

หนึ่ง ทำไมการควบคุมระยะยาวจึงยังคงเป็นข้อจำกัดของโมเดลโลก

在机器人任务中，长期控制的难点更容易显现。以机械臂操作为例，拿起一个杯子并将其放入抽屉，并非单一动作，而是一连串连续步骤：系统需靠近物体、调整姿态、完成抓取、移动至目标位置，再处理抽屉与放置动作。一旦链条变长，两个问题便会同时出现：一是预测误差会沿 rollout 持续累积，二是动作搜索空间会迅速扩大。

สิ่งที่ระบบขาดหายไปมักไม่ใช่ความสามารถในการพยากรณ์แบบท้องถิ่น แต่เป็นความสามารถในการจัดระเบียบเป้าหมายระยะไกลให้เป็นเส้นทางขั้นตอน

ในงานแสดงผล แบบจำลองโลกสามารถให้การพยากรณ์ที่สอดคล้องกันได้แล้ว แต่เมื่อเข้าสู่สถานการณ์ควบคุมจริง ประสิทธิภาพเริ่มลดลง และปัญหาต่างๆ ก็เริ่มปรากฏขึ้น แรงกดดันไม่ได้มาแค่จากการแสดงผลเอง แต่ยังมาจากการวางแผนที่ยังไม่สุกงอม

สอง、HWM จะปรับโครงสร้างกระบวนการวางแผนอย่างไร

HWM แยกกระบวนการวางแผนที่เดิมทำในขั้นตอนเดียวออกเป็นสองชั้น ชั้นบนรับผิดชอบทิศทางของแต่ละระยะในขอบเขตเวลาที่ยาวกว่า ส่วนชั้นล่างรับผิดชอบการดำเนินการในระดับท้องถิ่นในขอบเขตเวลาที่สั้นกว่า โมเดลไม่ได้วางแผนด้วยจังหวะเดียว แต่วางแผนพร้อมกันด้วยจังหวะเวลาสองแบบที่ต่างกัน

เมื่อใช้วิธีแบบชั้นเดียวในการจัดการงานที่ยาวนาน มักต้องค้นหาสายการกระทำทั้งหมดในพื้นที่การกระทำระดับล่าง โดยยิ่งงานยาวเท่าใด ต้นทุนการค้นหาก็ยิ่งสูงขึ้น และข้อผิดพลาดในการพยากรณ์ก็ยิ่งมีแนวโน้มที่จะแพร่กระจายต่อเนื่องผ่านการ roll-out หลายขั้นตอน หลังจากที่ HWM แยกกระบวนการออกแล้ว ระดับสูงจะจัดการเฉพาะการเลือกเส้นทางบนช่วงเวลาที่ยาวนานกว่า ส่วนระดับล่างจะจัดการเฉพาะการดำเนินการช่วงปัจจุบันเท่านั้น งานที่ยาวนานทั้งหมดจึงถูกแบ่งออกเป็นหลายส่วนที่สั้นกว่า ทำให้ความซับซ้อนของการวางแผนลดลง

ยังมีการออกแบบสำคัญอีกข้อหนึ่ง คือการกระทำระดับสูงไม่ได้แค่บันทึกความแตกต่างระหว่างสองสถานะ แต่ใช้ตัวเข้ารหัสเพื่อบีบอัดชุดการกระทำระดับล่างให้เป็นตัวแทนการกระทำระดับสูง สำหรับงานที่ยาวนาน สิ่งสำคัญไม่ได้อยู่ที่ความแตกต่างระหว่างจุดเริ่มต้นและจุดสิ้นสุดเท่านั้น แต่อยู่ที่ว่าขั้นตอนระหว่างทางถูกจัดเรียงอย่างไร หากการกระทำระดับสูงมองแค่ความแตกต่างของตำแหน่ง จะสูญเสียข้อมูลเส้นทางภายในโซ่การกระทำนี้

HWM แสดงถึงวิธีการจัดระเบียบงานแบบชั้นวาง สำหรับงานที่มีหลายขั้นตอน ระบบจะไม่เปิดใช้งานทุกการกระทำพร้อมกันทั้งหมด แต่จะเริ่มด้วยการสร้างเส้นทางขั้นตอนที่กว้างกว่าก่อน แล้วจึงดำเนินการและปรับปรุงทีละส่วน เมื่อความสัมพันธ์แบบชั้นวางนี้ถูกนำเข้าสู่โมเดลโลก ความสามารถในการทำนายจะเริ่มเปลี่ยนเป็นความสามารถในการวางแผนอย่างมั่นคงยิ่งขึ้น

สาม จาก 0% ถึง 70% ผลการทดลองบ่งชี้อะไร

ในงานจับและวางในโลกจริงที่ตั้งค่าในเอกสารวิจัย ระบบได้รับเฉพาะเงื่อนไขเป้าหมายสุดท้าย โดยไม่ได้รับเป้าหมายระหว่างทางที่ถูกแยกออกโดยมนุษย์ ในเงื่อนไขนี้ ความสำเร็จของ HWM อยู่ที่ 70% ในขณะที่ world model แบบชั้นเดียวมีอัตราความสำเร็จเป็น 0% งานระยะยาวที่ก่อนหน้านี้แทบทำไม่ได้ กลับกลายเป็นผลลัพธ์ที่มีโอกาสสูงจะสำเร็จหลังจากนำการวางแผนแบบชั้นวางมาใช้

เอกสารวิจัยยังทดสอบงานจำลองต่างๆ เช่น การผลักวัตถุและการนำทางในเขาวงกต ผลลัพธ์แสดงว่าการวางแผนแบบชั้นวางไม่เพียงแต่เพิ่มอัตราความสำเร็จ แต่ยังลดต้นทุนการคำนวณในขั้นตอนการวางแผน ในการบางสภาพแวดล้อม ต้นทุนการคำนวณในขั้นตอนการวางแผนสามารถลดลงได้ถึงประมาณหนึ่งในสี่ของเดิม ในขณะที่ยังคงอัตราความสำเร็จที่สูงขึ้นหรือเท่าเดิม

สี่: จาก V-JEPA ไปยัง HWM แล้วไปยัง WAV

V-JEPA 2 แสดงถึงแนวทางการแทนค่าโลก โดย V-JEPA 2 ถูกฝึกล่วงหน้าด้วยวิดีโออินเทอร์เน็ตมากกว่า 1 ล้านชั่วโมง แล้วจึงใช้วิดีโอหุ่นยนต์น้อยกว่า 62 ชั่วโมงในการฝึกเพิ่มเติม (post-training) เพื่อสร้าง world model ที่สามารถเข้าใจ ทำนาย และวางแผนโลกทางกายภาพแบบ latent action-conditioned (โมเดลโลกที่ทำนายในพื้นที่การแทนค่าเชิงนามธรรมพร้อมข้อมูลการกระทำ) มันแสดงให้เห็นว่าโมเดลสามารถรับรู้การแทนค่าโลกผ่านการสังเกตในขนาดใหญ่ และถ่ายโอนการแทนค่านี้ไปใช้ในการวางแผนหุ่นยนต์

HWM อยู่ในขั้นถัดไป โมเดลได้รับการแทนค่าโลกและมีความสามารถในการพยากรณ์พื้นฐานแล้ว แต่เมื่อเข้าสู่การควบคุมหลายขั้นตอน ปัญหาการสะสมข้อผิดพลาดและการขยายพื้นที่การค้นหาจะเกิดขึ้น HWM ไม่ได้เปลี่ยนเส้นทางการเรียนรู้การแทนค่าพื้นฐาน แต่เพิ่มโครงสร้างการวางแผนหลายช่วงเวลาลงบนโมเดลโลกที่มีเงื่อนไขการกระทำอยู่แล้ว ปัญหาที่มันจัดการคือ โมเดลจะจัดระเบียบเป้าหมายระยะไกลให้เป็นชุดขั้นตอนกลาง และผลักดันทีละช่วงได้อย่างไร

WAV ยังเน้นที่ความสามารถในการตรวจสอบเพิ่มเติม โมเดลโลกไม่สามารถแค่ทำนายได้เท่านั้น แต่ต้องสามารถระบุได้ว่าตนเองมีความผิดเพี้ยนในพื้นที่ใด และปรับแก้ตามนั้น มันให้ความสนใจกับวิธีที่โมเดลตรวจสอบตัวเอง

V-JEPA มุ่งเน้นที่การแทนค่าโลก HWM มุ่งเน้นที่การวางแผนงาน WAV มุ่งเน้นที่การตรวจสอบผลลัพธ์ แม้ทั้งสามจะมีจุดสนใจต่างกัน แต่ทิศทางโดยรวมนั้นสอดคล้องกัน ขั้นตอนถัดไปของโมเดลโลกไม่ได้จำกัดอยู่แค่การพยากรณ์ภายใน แต่รวมถึงการพยากรณ์ การวางแผน และการตรวจสอบที่ค่อยๆ เชื่อมต่อเป็นความสามารถของระบบ

ห้า: จากการพยากรณ์ภายในสู่ระบบที่สามารถดำเนินการได้

งานก่อนหน้านี้เกี่ยวกับโมเดลโลกส่วนใหญ่มุ่งเน้นที่การปรับปรุงความต่อเนื่องของการพยากรณ์สถานการณ์ในอนาคต หรือการเพิ่มความมั่นคงของตัวแทนโลกภายใน แต่จุดสนใจของการวิจัยในปัจจุบันเริ่มเปลี่ยนไป: ระบบต้องไม่เพียงแต่สร้างการตัดสินใจเกี่ยวกับสภาพแวดล้อม แต่ยังต้องแปลงการตัดสินใจเหล่านั้นเป็นการกระทำ และปรับแก้การกระทำถัดไปหลังจากผลลัพธ์ปรากฏขึ้น เพื่อให้ใกล้เคียงกับการใช้งานจริง จำเป็นต้องควบคุมการแพร่กระจายของข้อผิดพลาด บีบอัดขอบเขตการค้นหา และลดต้นทุนการให้เหตุผลในงานระยะยาว

การเปลี่ยนแปลงเหล่านี้ยังส่งผลกระทบต่อ AI agent โดยระบบ agent จำนวนมากสามารถดำเนินการงานที่มีเส้นทางสั้นได้ เช่น การเรียกใช้เครื่องมือ การอ่านไฟล์ หรือการดำเนินคำสั่งหลายขั้นตอน แต่เมื่องานกลายเป็นเส้นทางยาว หลายขั้นตอน และต้องมีการวางแผนใหม่ระหว่างทาง ประสิทธิภาพจะลดลง ซึ่งไม่แตกต่างจากความท้าทายในควบคุมหุ่นยนต์ คือความสามารถในการจัดระเบียบเส้นทางระดับสูงไม่เพียงพอ ทำให้เกิดช่องว่างระหว่างการดำเนินการในระดับท้องถิ่นกับเป้าหมายโดยรวม

แนวคิดการแบ่งชั้นของ HWM คือชั้นบนรับผิดชอบเส้นทางและเป้าหมายในแต่ละขั้นตอน ส่วนชั้นล่างรับผิดชอบการกระทำในระดับท้องถิ่นและการจัดการข้อมูลย้อนกลับ พร้อมทั้งเพิ่มการตรวจสอบผลลัพธ์ โครงสร้างการแบ่งชั้นแบบนี้จะยังคงปรากฏอยู่ในระบบต่างๆ มากขึ้นในอนาคต ขั้นต่อไปของโมเดลโลกจะไม่เน้นแค่การพยากรณ์อนาคตอีกต่อไป แต่จะเน้นการจัดระเบียบการพยากรณ์ การดำเนินการ และการแก้ไขให้เป็นเส้นทางที่สามารถทำงานได้