ทีมหลี่เฟยเฟยชี้แจงแนวคิดเรื่อง 'World Model' โดยจัดให้ Sora เป็นตัวเรนเดอร์

วันที่ 3 มิถุนายน 2026 ทีม World Labs ร่วมกับศาสตราจารย์ Li Fei-Fei จากมหาวิทยาลัยสแตนฟอร์ดได้เผยแพร่บทความวิเคราะห์แนวคิดที่มีชื่อตรงไปตรงมาจนแทบไม่มีการตกแต่ง: “การจัดหมวดหมู่ฟังก์ชันของโมเดลโลก” ประโยคแรกของบทความเปิดเผยว่า “โมเดลโลกเป็นหนึ่งในคำศัพท์ที่สำคัญที่สุดและถูกใช้อย่างไม่เหมาะสมที่สุดในวงการปัญญาประดิษฐ์ในปัจจุบัน”

บริบทของประโยคนี้ เป็นสิ่งที่ทุกคนที่ติดตามอุตสาหกรรม AI ต่างก็คุ้นเคย

ในเดือนกุมภาพันธ์ 2024 OpenAI เปิดตัวโมเดลการสร้างวิดีโอ Sora โดยหัวข้อของรายงานทางเทคนิคเขียนไว้อย่างชัดเจนว่า “โมเดลการสร้างวิดีโอในฐานะตัวจำลองโลก” ในขณะนั้น Jim Fan ผู้อำนวยการหุ่นยนต์ของ NVIDIA ได้留下ความคิดเห็นบน LinkedIn ที่ถูกอ้างอิงซ้ำแล้วซ้ำเล่า: “Sora โดยพื้นฐานแล้วเป็น ‘โมเดลโลกที่อนุญาตให้มีการกระทำเดียวเท่านั้น คือการไม่กระทำใดๆ’” ในอีกด้านหนึ่ง ตามรายงานที่เปิดเผย ทีม AI ของ Tesla ได้เรียกส่วนการพยากรณ์ภายในระบบขับขี่อัตโนมัติเต็มรูปแบบว่า “โมเดลโลก” หรือ “ตัวจำลองโลก” มาหลายครั้งในที่สาธารณะ เครื่องมือเกม เครื่องมือสร้าง 3D และโมเดลเอ็มบอดี้อินเทลลิเจนซ์ ผลิตภัณฑ์และเทคโนโลยีต่างๆ ถูกบรรจุไว้ในถุงเดียวกันและติดป้ายแท็กเดียวกัน

ตัวสร้างวิดีโอ เครือข่ายทำนายการขับขี่อัตโนมัติ แบบจำลองควบคุมหุ่นยนต์ และเครื่องจำลองฟิสิกส์ มีจุดร่วมกันอะไรบ้าง? แทบไม่มีเลย แต่ทั้งหมดนี้ถูกเรียกว่า “โมเดลของโลก”

หลังจากความสับสนทางแนวคิดที่ยืดเยื้อมาเกินสองปี ตอนนี้ก็มีใครบางคนพยายามจัดระบบให้ชัดเจนแล้ว ทีมของหลี่เฟยเฟยไม่ได้เปิดตัวโมเดลใหม่ ไม่ได้เปิดเผยมาตรฐานใหม่ และไม่ได้สาธิตฟีเจอร์ผลิตภัณฑ์ใดๆ พวกเขาทำสิ่งที่พื้นฐานกว่านั้น: กลับไปที่แหล่งกำเนิดทางทฤษฎีของกระบวนการตัดสินใจมาร์คอฟที่สังเกตไม่สมบูรณ์ และลดระบบทั้งหมดที่เรียกว่า “โมเดลโลก” บนตลาดให้กลายเป็นการฉายภาพสามรูปแบบของวงจรการรับรู้เดียวกัน

การคาดการณ์ทั้งสามประเภทคือ: เรนเดอร์เดอร์, ซิมูเลเตอร์, และพลาเนอร์ ในกรอบการจัดหมวดหมู่ของ World Labs, Sora และโมเดลสร้างวิดีโอประเภทเดียวกันอยู่ในหมวดเรนเดอร์เดอร์

ทำไมคำศัพท์หนึ่งคำถึงสามารถบรรจุความหมายที่ขัดแย้งกันมากมายได้

เพื่อเข้าใจต้นกำเนิดของความสับสนนี้ ต้องตั้งคำถามพื้นฐานกว่าก่อน: เมื่อบริษัทหนึ่งกล่าวว่า “เรากำลังทำโมเดลโลก” พวกเขากำลังหมายถึงอะไรกันแน่?

เป้าหมายของ Sora สำหรับ OpenAI คือ “การเข้าใจและแสดงโลกทางกายภาพในวิดีโอ” จากรายงานทางเทคนิค Sora สามารถสร้างภาพที่สอดคล้องกับความเข้าใจเชิงภาพโดยเรียนรู้รูปแบบทางสถิติจากข้อมูลวิดีโอจำนวนมาก เช่น ถ้วยที่ตกลงพื้นจะแตก เครื่องบินกระดาษที่ปล่อยออกไปจะบิน และคนที่เดินจะสลับขยับขาทั้งสองข้าง ภาพเหล่านี้ดูเหมือน “เข้าใจฟิสิกส์”

สำหรับเทสล่า “โลกแบบจำลอง” คือเครือข่ายประสาทเทียมในระบบ FSD ที่ทำนายเส้นทางการเคลื่อนที่ของผู้ใช้ถนนในอีกไม่กี่วินาทีข้างหน้า มันต้องให้ผลลัพธ์เป็นตำแหน่ง 3 มิติ ความเร็ว และทิศทางที่แม่นยำ เพื่อให้โมดูลการวางแผนเส้นทางสามารถคำนวณการตัดสินใจขับขี่ที่ปลอดภัย แบบจำลองนี้ไม่จำเป็นต้องส่งออกพิกเซล แต่ส่งออกเวกเตอร์และการแจกแจงความน่าจะเป็น

สำหรับบริษัทหุ่นยนต์ “โมเดลโลก” คือกลไกการจำลองภายในที่ทำให้แขนหุ่นยนต์สามารถคาดการณ์ได้ว่า “ถ้าฉันผลักถ้วยนี้ไปทางซ้าย 5 เซนติเมตร มันจะล้มไหม” มันต้องเข้าใจคุณสมบัติของวัตถุ กลศาสตร์การสัมผัส และความเสถียร โดยให้ผลลัพธ์เป็นการประเมินความเป็นไปได้ของการกระทำ

เป้าหมายของบริษัทสามประเภทนี้ต่างกันโดยสิ้นเชิง บริษัทที่สร้างวิดีโอให้ความสำคัญกับความถูกต้องของพิกเซล บริษัทขับขี่อัตโนมัติให้ความสำคัญกับความแม่นยำของการพยากรณ์สถานะทางกายภาพ และบริษัทหุ่นยนต์ให้ความสำคัญกับความสามารถในการอนุมานผลลัพธ์ของการเคลื่อนไหว พวกเขากำลังทำ “โมเดลของโลก” แต่ไม่ได้ทำสิ่งเดียวกันเลย

World Labs ชี้ให้เห็นแก่นปัญหาในบทความว่า: ระบบเหล่านี้ถูกเรียกชื่อเดียวกันทั้งหมด เพราะจริงๆ แล้วแต่ละระบบต่างก็สะท้อนมุมมองหนึ่งของ “การเข้าใจโลก” แต่ละระบบกลับแค่เสร็จสิ้นเพียงหนึ่งขั้นตอนในวงจรการรับรู้ที่สมบูรณ์ ซึ่งถูกปกปิดด้วยภาษาทางการตลาด รายงานข่าว และเรื่องเล่าของทุนให้ดูเหมือนเป็นแบบจำลองโลกที่สมบูรณ์

อีกปัจจัยหนึ่งที่ทำให้เกิดความสับสนในแนวคิดคือความตึงเครียดของคำศัพท์เอง คำว่า “โมเดลโลก” มีลักษณะเชิงเรื่องเล่าขนาดใหญ่ ฟังดูมีจินตนาการมากกว่า “โมเดลการสร้างวิดีโอ” หรือ “โมเดลการพยากรณ์วิดีโอ” และสามารถสนับสนุนการประเมินมูลค่าสูงและเรื่องราวการระดมทุนได้ดีกว่า เมื่อความสามารถทางเทคนิคไม่สามารถตอบสนองความคาดหวังของสาธารณชนได้ การที่แนวคิดกลายเป็นเครื่องมือทางการตลาดจึงเป็นเรื่องหลีกเลี่ยงไม่ได้

ในยุคปี 1960 แบบจำลองโลกที่สมบูรณ์ควรเป็นอย่างไร

กรอบการจัดหมวดหมู่ของ World Labs ถูกสร้างขึ้นบนทฤษฎีที่ดูเหมือนล้าสมัย: กระบวนการตัดสินใจมาร์คอฟที่สังเกตได้บางส่วน

กรอบนี้อธิบายวงจรการโต้ตอบทั้งหมดระหว่างตัวแทนกับสภาพแวดล้อม ตัวแทนอยู่ในสถานะสภาพแวดล้อมหนึ่ง ดำเนินการกระทำหนึ่ง ซึ่งเปลี่ยนแปลงสถานะสภาพแวดล้อม ตัวแทนรับรู้ข้อมูลบางส่วนผ่านเซนเซอร์ ข้อมูลการรับรู้นี้กระตุ้นการอัปเดตสถานะภายใน การรับรู้ที่อัปเดตแล้วขับเคลื่อนการกระทำถัดไป วนซ้ำไปเรื่อยๆ

ภายใต้กรอบนี้ ฟังก์ชันที่สมบูรณ์ของ “โมเดลโลก” ควรประกอบด้วยสามขั้นตอน: การสร้างการสังเกตจากสถานะ (พิกเซล จุดคลาวด์ ฯลฯ ที่มนุษย์มองเห็นหรือเซนเซอร์เก็บรวบรวม) การพยากรณ์สถานะถัดไปจากพฤติกรรมและสถานะปัจจุบัน (การพยากรณ์การเปลี่ยนแปลงทางฟิสิกส์) และการสร้างพฤติกรรมจากการสังเกตและเป้าหมาย (การตัดสินใจและวางแผน)

โมเดลภาษาเรียนรู้รูปแบบทางสถิติของลำดับข้อความ ขณะที่โมเดลโลกเรียนรู้คุณลักษณะทางสถิติของพื้นที่และเวลา แสงจะสะท้อนบนพื้นผิววัสดุต่างๆ อย่างไร วัตถุเคลื่อนที่อย่างไรภายใต้แรงโน้มถ่วง พลังงานจะถ่ายโอนอย่างไรหลังการชนกันของวัตถุที่แข็ง นี่คือรูปแบบที่โมเดลโลกต้องจับให้ได้

ทีม World Labs ชี้ในบทความว่า ระบบใดๆ ที่ถูกเรียกว่า “โมเดลของโลก” ในตลาดปัจจุบัน แท้จริงแล้วเป็นเพียงการฉายภาพของแต่ละส่วนในวงจรสมบูรณ์ข้างต้น บางระบบทำเฉพาะการเรนเดอร์ “จากสถานะไปยังการสังเกต” บางระบบทำเฉพาะการพยากรณ์สถานะ “จากพฤติกรรมไปยังสถานะถัดไป” และบางระบบทำเฉพาะการวางแผน “จากการสังเกตไปยังพฤติกรรม” แต่ละระบบต่างตัดส่วนโค้งหนึ่งส่วนของวงจรมา และกลับติดป้ายที่แทนวงกลมสมบูรณ์ให้กับตนเอง

คุณค่าของกรอบการวิเคราะห์นี้อยู่ที่มันให้ระบบการเปรียบเทียบที่เหนือกว่าคำพูดทางการตลาด ไม่ว่าบริษัทใดจะบรรจุผลิตภัณฑ์ของตนอย่างไร ก็เพียงแค่นำกลับมาวางไว้ในวงจร POMDP เพื่อดูว่ามันรับเข้าอะไร ให้ผลลัพธ์อะไร และขาดส่วนใดไป ขอบเขตของความสามารถก็จะเปิดเผยอย่างชัดเจน

ขอบเขตของความสามารถในการฉายผลของเครื่องเรนเดอร์ เครื่องจำลอง และเครื่องวางแผน

ในระบบการจัดหมวดหมู่ของ World Labs หมวดแรกถูกกำหนดว่า “เรนเดอร์” เป้าหมายหลักของมันคือการสร้างเอาต์พุตพิกเซลที่มีความละเอียดสูงเพื่อการรับรู้ทางสายตาของมนุษย์ อินพุตคือการแทนค่าของสถานะสภาพแวดล้อมบางอย่าง (อาจเป็นคำอธิบายข้อความ พารามิเตอร์ฉาก 3D หรือการเข้ารหัสแบบนิ่ง) และเอาต์พุตคือภาพที่ต่อเนื่องเป็นเฟรมต่อเฟรม

ทิศทางการปรับปรุงเรนเดอร์เนอร์คือความสมจริงทางภาพ ไม่ใช่ความแม่นยำทางฟิสิกส์ บทความของ World Labs ระบุชัดเจนว่า เรนเดอร์เนอร์อาจสร้างอาคารที่ “สั่นคลอน” เพราะมันไม่ได้คำนวณสมการกลศาสตร์โครงสร้างอย่างแท้จริง; ของเหลวที่มันสร้างขึ้นอาจดูสมจริง แต่ปริมาตรของของเหลว อัตราการไหล และแรงกระแทกอาจไม่สอดคล้องกับค่าทางฟิสิกส์จริงเลย ดังนั้น โมเดลประเภทนี้จึงไม่สามารถใช้ในการออกแบบอาคาร ไม่สามารถใช้ในการฝึกหุ่นยนต์ หรืองานใดๆ ที่ต้องการการจำลองทางฟิสิกส์อย่างแม่นยำ

Genie 3 ของ Google แบบจำลองการแปลงข้อความเป็นวิดีโอต่างๆ และเครื่องมือสร้างวิดีโอ AI แทบทั้งหมด อยู่ในหมวดนี้ Sora ก็อยู่ในนั้นเช่นกัน

ประเภทที่สองคือ “ตัวจำลอง” เป้าหมายหลักของมันไม่ใช่การสร้างภาพที่มองเห็นได้สำหรับมนุษย์ แต่คือการสร้างสถานะที่แม่นยำซึ่งสามารถใช้ในการคำนวณต่อไปได้ อินพุตคือสถานะของสภาพแวดล้อมปัจจุบันและแรงภายนอก (หรือการกระทำ) ส่วนเอาต์พุตคือสถานะถัดไปที่สอดคล้องกับกฎของโลกแห่งความเป็นจริงทั้งด้านฟิสิกส์และเรขาคณิต สถานะที่ตัวจำลองให้ผลลัพธ์สามารถใช้ในการวิเคราะห์ความเครียด คำนวณการใช้พลังงาน และตรวจจับการชน หรือแม้แต่ใช้เป็นอินพุตสำหรับตัวเรนเดอร์เพื่อสร้างภาพที่มองเห็นได้ แต่คุณค่าหลักของมันอยู่ที่ความสามารถในการคำนวณของสถานะเอง

NVIDIA Omniverse เป็นตัวแทนที่ชัดเจนของระบบประเภทนี้ มันไม่ใช่โมเดลที่ออกแบบมาเพื่อ AI โดยตรง แต่เป็นแพลตฟอร์มดิจิทัลทวินที่รวมเอาเครื่องยนต์ฟิสิกส์แบบดั้งเดิมกับการคำนวณที่เร่งด้วย AI World Labs ประเมินในบทความว่า ตัวจำลองเป็นสะพานเชื่อมระหว่างการเรนเดอร์และการวางแผน แต่ข้อจำกัดหลักคือข้อมูลการติดป้ายกำกับฟิสิกส์ 3D คุณภาพสูงที่มีอยู่อย่างจำกัด ตามการประมาณการของ World Labs ในบทความ ข้อมูลที่ใช้ฝึกโมเดลประเภทนี้น้อยกว่าข้อมูลวิดีโอที่สามารถเข้าถึงได้บนอินเทอร์เน็ตหลายระดับขนาด

ประเภทที่สามคือ “ผู้วางแผน” ซึ่งรับข้อมูลการสังเกต (เช่น ภาพจากกล้อง จุดคลาวด์เลเซอร์เรดาร์ อ่านค่าเซนเซอร์สัมผัส ฯลฯ) และคำสั่งเป้าหมาย โดยส่งออกว่าควรดำเนินการใดต่อไป โมเดล VLA (Vision-Language-Action) และ World Action Models อยู่ในหมวดนี้

ความแตกต่างระหว่างสามหมวดหลัก ไม่ใช่เพียงความแตกต่างเล็กน้อยในเส้นทางเทคโนโลยี แต่เป็นการแยกฟังก์ชันพื้นฐานกันอย่างชัดเจน: เครื่องเรนเดอร์ส่งพิกเซลออกมายังมนุษย์ดู เครื่องจำลองส่งสถานะออกมายังเครื่องจักรคำนวณ และเครื่องวางแผนส่งการกระทำออกมายังตัวขับเคลื่อนดำเนินการ ระบบหนึ่งสามารถมีความสามารถหลายอย่างพร้อมกันได้ แต่เมื่อระบบส่วนใหญ่ที่ถูกเรียกว่า “โมเดลของโลก” โดยพื้นฐานแล้วทำเพียงการเรนเดอร์เท่านั้น การถือว่า “การเรนเดอร์” เท่ากับ “การเข้าใจโลก” คือความเข้าใจผิดอย่างรุนแรง

การอภิปรายที่ kéo dàiสองปี ว่า Sora จริงๆ แล้วเป็นโมเดลของโลกหรือไม่

ในเดือนกุมภาพันธ์ 2024 OpenAI เปิดตัว Sora โดยหัวข้อรายงานทางเทคนิคเขียนไว้ตรงๆ ว่า “โมเดลการสร้างวิดีโอเป็นตัวจำลองโลก” คำศัพท์นี้ทันทีทำให้เกิดการถกเถียงอย่างรุนแรงในวงการวิชาการและชุมชนนักพัฒนา

ผู้สนับสนุนเชื่อว่าวิดีโอที่ Sora สร้างขึ้นแสดงให้เห็นถึงความสอดคล้องของพื้นที่ 3 มิติ ความต่อเนื่องของวัตถุ และความเข้าใจเชิงอินทิวิทีฟบางอย่างเกี่ยวกับการโต้ตอบทางฟิสิกส์ แฮมเบอร์เกอร์ที่ถูกกัดแล้วจะมีรอยฟัน หมาที่วิ่งในหิมะจะทำให้หิมะกระเซ็น รายละเอียดเหล่านี้ดูเหมือนบ่งชี้ว่าโมเดลได้เรียนรู้กฎทางฟิสิกส์บางประการ

ข้อโต้แย้งหลักของผู้คัดค้านมาจากการนิยามแบบดั้งเดิมของโมเดลโลกในสาขาการเรียนรู้แบบเสริมแรง: โมเดลโลกต้องสามารถทำนายการเปลี่ยนแปลงสถานะตามการกระทำได้ กล่าวคือ เมื่อให้สถานะปัจจุบันและอินพุตการกระทำ โมเดลควรส่งออกสถานะถัดไปหลังจากการกระทำนั้น Sora ไม่สามารถทำสิ่งนี้ได้ ผู้ใช้ไม่สามารถบอก Sora ว่า “ผลักถ้วยนั้นทางซ้าย” แล้วสังเกตว่าถ้วยจะล้มหรือไม่ ล้มไปทางไหน และเศษชิ้นส่วนจะกระเด็นไปที่ไหน

คำวิจารณ์ของ Jim Fan จับประเด็นความขัดแย้งนี้ได้อย่างแม่นยำ: “Sora โดยพื้นฐานแล้วเป็นโมเดลของโลก แต่มันอนุญาตให้ใช้การกระทำแบบไม่ทำอะไรเลย (no-op) เป็นการกระทำเดียวเท่านั้น” หมายความว่า Sora จริงๆ แล้วกำลังพยากรณ์การเปลี่ยนแปลงของสภาพแวดล้อมตามเวลา แต่การเปลี่ยนแปลงนี้ไม่ได้รับผลกระทบจากการแทรกแซงภายนอกใดๆ และสามารถดำเนินไปได้เฉพาะตามสายเหตุและผลที่มีอยู่ในข้อมูลวิดีโอเท่านั้น มันไม่ได้ทำการจำลองแบบโต้ตอบ แต่กำลังขยายลำดับการสังเกตแบบเฉยๆ

บนฟอรัม r/MachineLearning ของ Reddit นักวิจัยด้านการเรียนรู้แบบเสริมแรงจำนวนมากได้แสดงความวิจารณ์ที่รุนแรงกว่า: ระบบใดก็ตามที่ไม่สามารถทำนายการเปลี่ยนแปลงสถานะจาก hành động ไม่สามารถเรียกว่า “world model” ได้ แต่ควรเรียกว่า “video prediction model” เท่านั้น

กรอบการจัดหมวดหมู่ของ World Labs ให้คำตอบที่ชัดเจนต่อการถกเถียงนี้ ในวัฏจักร POMDP การกระทำเป็นอินพุตหลักที่ขับเคลื่อนการเปลี่ยนแปลงสถานะ ระบบใดก็ตามที่ขาดอินพุตนี้ จึงเป็นเพียงการฉายภาพของส่วน “การสร้างการสังเกต” ในวัฏจักรการรับรู้ที่สมบูรณ์ Sora เป็นตัวเรนเดอร์ ไม่ใช่แบบจำลองโลกที่สมบูรณ์ และยิ่งไม่ใช่ตัวจำลองโลก

แต่นี่ไม่ได้หมายความว่า Sora ไม่มีคุณค่า เครื่องเรนเดอร์แก้ปัญหาที่ต่างออกไป: วิธีการสร้างภาพที่สอดคล้องกับความคาดหวังทางสายตาของมนุษย์ ปัญหานี้เองก็ยากมากและมีคุณค่าทางธุรกิจอย่างมหาศาล ปัญหาอยู่ที่การบรรจุความสามารถในการเรนเดอร์ให้ดูเหมือนเป็น “ความสามารถในการเข้าใจโลก” ซึ่งจะทำให้ผู้ตัดสินใจทางเทคโนโลยีและนักลงทุนเข้าใจผิดว่าโมเดลเหล่านี้มีความสามารถในการจำลองฟิสิกส์หรือการมีปฏิสัมพันธ์แบบมีร่างกายแล้ว

คุณค่าอุตสาหกรรมของการชี้แจงแนวคิด

การกำหนดขอบเขตของนิยาม “โมเดลโลก” ไม่ใช่การถกเถียงทางวิชาการเรื่องถ้อยคำ แต่มีผลโดยตรงต่อการเลือกเทคโนโลยี การตัดสินใจด้านการลงทุน และระดับความเข้าใจของสาธารณชนเกี่ยวกับศักยภาพของ AI

สำหรับบริษัทผู้ผลิตที่กำลังประเมินว่าจะใช้ “โมเดลโลก” ใดๆ ในการฝึกฝนหุ่นยนต์หรือไม่ การทำความเข้าใจว่าโมเดลดังกล่าวเป็นเรนเดอร์ ซิมูเลเตอร์ หรือผู้วางแผน เป็นเงื่อนไขจำเป็นเพื่อหลีกเลี่ยงค่าใช้จ่ายหลายล้านดอลลาร์จากการทดลองผิดพลาด โมเดลที่สามารถสร้างภาพวิดีโอได้เพียงอย่างเดียว ไม่ว่าภาพจะสมจริงเพียงใด ก็ไม่สามารถแทนที่การคำนวณที่แม่นยำเกี่ยวกับแรงที่กระทำต่อวัตถุ เส้นทางการเคลื่อนที่ และผลลัพธ์ของการชนกันได้

สำหรับสถาบันการลงทุน การแยกแยะการคาดการณ์สามประเภทหมายถึงสามารถระบุตำแหน่งของเทคโนโลยีสแต็กที่โครงการอยู่ได้อย่างแม่นยำยิ่งขึ้น บริษัทสตาร์ทอัพที่อ้างว่าเป็น “โมเดลโลก” แต่ผลิตภัณฑ์ของมันเป็นเพียงเรนเดอร์เท่านั้น จะมีคู่แข่งเป็นบริษัทสร้างวิดีโอ ไม่ใช่แพลตฟอร์มดิจิทัลทวินหรือโมเดลควบคุมหุ่นยนต์ สิ่งนี้ส่งผลโดยตรงต่อวิธีการประมาณขนาดตลาดและการเลือกบริษัทเปรียบเทียบ

สำหรับวงการวิชาการ การจัดหมวดหมู่อย่างชัดเจนเป็นเงื่อนไขเบื้องต้นในการสร้างมาตรฐานเปรียบเทียบ หากคำว่า “โมเดลโลก” ยังคงถูกใช้อย่างกว้างขวางเกินไป นักวิจัยจะพบความยากลำบากในการกำหนดว่าอะไรคือการปรับปรุงหรือความก้าวหน้า ซึ่งจะทำให้การทบทวนโดยผู้เชี่ยวชาญอิงอยู่บนพื้นฐานของความคลุมเครือ

เวิลด์ แล็บส์ ยังชี้ในบทความว่า การชี้แจงแนวคิดไม่ได้มีจุดประสงค์เพื่อสร้างความขัดแย้ง ทิศทางการพัฒนาในอนาคตจะเป็นการรวมตัวของสามประเภทการฉายภาพ โมเดลที่เข้าใจคุณสมบัติทางฟิสิกส์ของถ้วยอย่างแท้จริง ควรสามารถเรนเดอร์รูปลักษณ์เชิงภาพ จำลองกระบวนการทางฟิสิกส์เมื่อถ้วยล้ม และวางแผนวิธีการจับถ้วยอย่างมั่นคงด้วยหุ่นยนต์ แต่ก่อนที่เทคโนโลยีจะก้าวไปถึงขั้นนั้น การเข้าใจขอบเขตของแต่ละด้านมีความหมายเชิงปฏิบัติมากกว่าการจินตนาการถึงการรวมตัว

ตามการประมาณการของ World Labs ในบทความ ระบบที่มี NVIDIA Omniverse เป็นตัวแทน รวมถึงเทคโนโลยีดิจิทัลทวิน มุ่งเป้าไปที่ตลาดที่มีศักยภาพเกินกว่าล้านล้านดอลลาร์สหรัฐในสาขาต่างๆ เช่น โรงงาน คลังสินค้า และห่วงโซ่อุปทาน ตัวเลขนี้มาจากความเห็นของผู้ผลิตเอง ส่วนเวลาที่ตลาดจะบรรลุขนาดนี้จริงๆ ขึ้นอยู่กับว่าระบบจำลองจะสามารถก้าวข้ามอุปสรรคของข้อมูลฟิสิกส์ 3 มิติคุณภาพสูงที่มีอยู่อย่างจำกัดได้หรือไม่

สำหรับอุตสาหกรรมปัญญาประดิษฐ์ในขั้นตอนปัจจุบัน การรับรู้ที่สำคัญที่สุดอาจเรียบง่ายมาก: สามารถสร้างวิดีโอที่สมจริง ไม่ได้หมายความว่าเข้าใจโลกทางกายภาพ; ถูกเรียกว่าโมเดลโลก ไม่ได้หมายความว่ากำลังจำลองโลกอย่างแท้จริง การเจาะผ่านภาษาการตลาด และพิจารณาว่าระบบหนึ่งๆ รับอินพุตอะไร ส่งเอาต์พุตอะไร และขาดส่วนใดในวงจร POMDP เป็นวิธีการประเมินขอบเขตของความสามารถทางเทคนิคอย่างซื่อสัตย์ที่สุด