Fei-Fei Li เผยแพร่กรอบงานสำหรับโมเดลโลกในหุ่นยนต์และเกม

เฟย-เฟย ลี่ ต้องการแก้ข้อถกเถียงที่กำลังคุกรุ่นอยู่ในชุมชนปัญญาประดิษฐ์มานานแล้ว: อะไรกันแน่ที่นับว่าเป็น “โมเดลของโลก” และอะไรแค่เครื่องสร้างวิดีโอที่ดูดีแต่ใส่เสื้อโค้ตแล็บ

ศาสตราจารย์จากสแตนฟอร์ดและซีอีโอของ World Labs ได้เผยแพร่ “A Functional Taxonomy of World Models” เมื่อวันที่ 3 มิถุนายน 2026 โดยนำเสนอกรอบการทำงานที่จัดหมวดหมู่โมเดลโลกออกเป็นสามหน้าที่หลัก: renderer, simulator และ planner บทความนี้โต้แย้งว่าหน้าที่ทั้งสามนี้สร้างเป็นวงจรที่เชื่อมโยงกันซึ่งเป็นรากฐานของสิ่งที่หลี่เรียกว่า “spatial intelligence” หรือปัญญาประดิษฐ์ที่สามารถเข้าใจและมีปฏิสัมพันธ์กับสภาพแวดล้อมทางกายภาพได้จริง

สามงาน หนึ่งโมเดล

ฟังก์ชันเรนเดอร์จัดการการสร้างภาพเชิงภาพ มันสร้างตัวแทนภาพที่มีความละเอียดสูงจากข้อมูลนำเข้า นี่คือสิ่งที่ “โมเดลโลก” ปัจจุบันส่วนใหญ่ทำจริงๆ และหลี่ชี้ให้เห็นอย่างชัดเจนว่า ระบบใดๆ ที่ติดอยู่ที่ระดับนี้ไม่ใช่โมเดลโลกที่แท้จริง

ฟังก์ชันจำลองลึกซึ้งยิ่งขึ้น มันไม่ได้แค่แสดงให้คุณเห็นว่าสิ่งใดสิ่งหนึ่งดูเหมือนอะไร แต่ยังจำลองฟิสิกส์ ความสัมพันธ์ระหว่างเหตุและผล และวิธีที่วัตถุโต้ตอบกันตามเวลา ตัวเรนเดอร์สามารถแสดงลูกบอลที่กลิ้งเข้าหาขอบหน้าผา แต่ตัวจำลองรู้ว่าลูกบอลจะตกลงไป

โฆษณา

ฟังก์ชันผู้วางแผนใช้ความเข้าใจของตัวจำลองเกี่ยวกับวิธีการทำงานของโลกเพื่อวางแผนเส้นทางการกระทำ มันคือความแตกต่างระหว่าง AI ที่แค่สังเกตครัว กับ AI ที่สามารถคิดออกว่าจะทำแซนด์วิชให้คุณโดยไม่ต้องแตกจานทั้งตู้

ฟังก์ชันทั้งสามนี้ไม่ได้ทำงานอย่างโดดเดี่ยว บทความของหลี่อธิบายว่ามันสร้างเป็นวงจรต่อเนื่อง โดยความสามารถแต่ละอย่างจะสนับสนุนและเสริมสร้างซึ่งกันและกัน ตัวเรนเดอร์แจ้งข้อมูลบริบททางภาพให้กับตัวจำลอง ตัวจำลองให้การคาดการณ์ที่อิงตามฟิสิกส์แก่ตัววางแผน และเป้าหมายของตัววางแผนกำหนดว่าตัวเรนเดอร์และตัวจำลองควรให้ความสำคัญกับอะไร

ทำไมหุ่นยนต์จึงต้องการสิ่งนี้อย่างเร่งด่วน

หลี่ได้โต้แย้ง รวมถึงในเอกสารแถลงการณ์ก่อนหน้าเมื่อเดือนพฤศจิกายน 2025 ว่า แบบจำลองโลกสามารถเชื่อมช่องว่างระหว่างการจำลองกับความเป็นจริงได้ หากคุณสามารถสร้างแบบจำลองดิจิทัลที่แม่นยำเพียงพอของโลกทางกายภาพ หุ่นยนต์สามารถฝึกซ้อมที่นั่นก่อน

World Labs ได้เริ่มนำทฤษฎีนี้ไปใช้จริงแล้ว บริษัทเปิดตัว Marble ผลิตภัณฑ์เชิงพาณิชย์ชิ้นแรกของตนในเดือนพฤศจิกายน 2025 Marble สร้างโลก 3 มิติที่คงอยู่และมีความละเอียดสูงจากคำสั่งแบบหลายรูปแบบ หมายความว่าคุณสามารถอธิบายสภาพแวดล้อมด้วยข้อความ รูปภาพ หรืออินพุตอื่นๆ และ Marble จะสร้างพื้นที่ 3 มิติที่สามารถนำทางได้จากคำอธิบายนั้น ระบบดังกล่าวได้รับการใช้งานแล้วในสภาพแวดล้อมการจำลองหุ่นยนต์

ต่างจากวิดีโอที่เป็นลำดับเฟรมที่คงที่ Marble’s worlds รักษาเรขาคณิตและฟิสิกส์ให้คงที่ขณะคุณเคลื่อนที่ผ่านโลกเหล่านั้น หุ่นยนต์ที่ฝึกในสภาพแวดล้อมของ Marble สามารถเข้าใกล้ชั้นวางเดียวกันจากมุมต่างๆ และพบวัตถุเดียวกันในตำแหน่งเดียวกัน

เงินทุนสนับสนุนภารกิจ

World Labs ระดมทุนได้ 1 พันล้านดอลลาร์สหรัฐในเดือนกุมภาพันธ์ 2026 โดยขยายจากวงเงินก่อนหน้า 230 ล้านดอลลาร์สหรัฐ ผู้ลงทุนรวมถึง AMD, Autodesk, NVIDIA และ Fidelity

การระดมทุนรวม 1.23 พันล้านดอลลาร์สหรัฐทำให้ World Labs อยู่ในกลุ่มที่หายากสำหรับสตาร์ทอัพด้านปัญญาประดิษฐ์ที่มุ่งเน้นไปที่สติเชิงพื้นที่ แทนที่จะเป็นการแข่งขันด้านแบบจำลองภาษาขนาดใหญ่ที่ครองหัวข้อข่าวมาโดยตลอด