Nilinaw ng Team ni Li Fei-Fei ang Konsepto ng 'World Model', Ipinagkakailang ang Sora bilang Renderer

Noong Hunyo 3, 2026, ang ekipa ng World Labs at ang propesor ng Stanford University, Fei-Fei Li, ay naglabas ng isang artikulong pagsusuri ng konsepto na may pamagat na diretso at walang anumang pagpapalambot: “Isang Taxonomy ng Mga Paggawa ng Mundo.” Ang unang pangungusap ng artikulo ay agad na binuksan ang isang pagsang-ayon sa industriya: “Ang mga mundo model ay isa sa pinakamahalagang at pinakamalimitang ginagamit na termino sa kasalukuyang larangan ng artificial intelligence.”

Ang pangungusap na ito, anumang sinasalubong sa industriya ng AI ay pamilyar na.

Noong Pebrero 2024, inilabas ng OpenAI ang video generation model na Sora, na may pamagat ng teknikal na ulat na “Video Generation Models as World Simulators.” Noong panahong iyon, ang direktor ng robotics ng NVIDIA, Jim Fan, ay nag-iwan ng isang komento sa LinkedIn na naging paulit-ulit na binanggit: “Ang Sora ay isang ‘world model na nagpapahintulot lamang sa paggawa ng walang aksyon bilang tanging aksyon.’” Sa kabilang dulo, ayon sa mga pampublikong ulat, ang AI team ng Tesla ay paulit-ulit nang tinawag ang prediction component ng kanilang internal Full Self-Driving system bilang “world model” o “world simulator.” Ang mga game engine, 3D generation tools, at embodied intelligence models ay lahat ay isinaksak sa iisang kahon at itinapat ang iisang label.

Isang video generator, isang autonomous driving prediction network, isang robot control model, isang physics engine, ano ang kanilang pagkakatulad? Halos walang. Ngunit lahat sila ay tinatawag na “world models”.

Matapos ang dalawang taon at higit pa ng kalituhan sa konsepto, mayroon na ngayong sumubok na maayos na i-organisa ito. Hindi naglabas ang koponan ni Li Fei-Fei ng bagong modelo, hindi ipinahayag ang bagong benchmark, at hindi ipinakita ang anumang tampok ng produkto. Ginawa nila ang isang mas pangunahing bagay: bumalik sa teoretikal na pinagmulan ng partially observable Markov decision process, at isinama nila ang lahat ng mga sistema na tinatawag na “world models” sa merkado bilang tatlong iba’t ibang proyeksyon ng isang parehong cognitive loop.

Ang tatlong projection ay: renderer, simulator, at planner. Sa framework ng paghahati ng World Labs, ang Sora at ang mga katulad nito sa mga modelong pagbuo ng video, ay kabilang sa renderer.

Bakit isang termino ang kayang maglalaman ng maraming kahulugan na magkakasalungat?

Upang maunawaan ang pinagmulan ng gulo, kailangan munang tanungin ang isang mas pangunahing tanong: Kapag sinasabi ng isang kumpanya na “Ginagawa namin ang mundo model,” ano nga ba ang kanilang ibig sabihin?

Ang layunin ng Sora para sa OpenAI ay “unawain at ipakita ang pisikal na mundo sa mga video.” Batay sa teknikal na ulat, nakakagawa ang Sora ng mga larawang sumusunod sa visual na karaniwan sa pamamagitan ng pag-aaral ng mga statistical pattern sa malaking dami ng video data—tulad ng pagkakasira ng baso kapag nalulugod sa lupa, pagpapalipad ng papel na eroplano kapag itinapon, at paggalaw ng mga paa nang palitan habang tao ay naglalakad. Ang mga larawang ito ay tila “naiintindihan ang pisika.”

Para sa Tesla, ang "World Model" ay ang neural network sa FSD system na nagtataya ng mga trajektoriya ng paggalaw ng mga participant sa daan sa susunod na ilang segundo. Kailangan nito na maglabas ng eksaktong 3D position, velocity, at orientation para sa path planning module upang kalkulahin ang mga ligtas na desisyon sa pagmamaneho. Ang modelo na ito ay hindi kailangang maglabas ng pixel; ito ay naglalabas ng vectors at probability distributions.

Para sa mga kompanya ng robot, ang "world model" ay ang loob na simulasyon na nagpapahintulot sa mga robotic arm na makapaghula kung "kung ipipilit ko ang baso 5 sentimetro patungo sa kaliwa, babagsak ba ito?" Kailangan nito na maunawaan ang mga katangian ng bagay, ang mekaniks ng pagkakapit, at ang pagkakaroon ng katatagan, at ang output nito ay ang pagtataya ng kakayahang gawin ang galaw.

Ang layunin ng tatlong uri ng kumpanya ay lubos na iba. Ang mga kumpanya sa paggawa ng video ay nag-aalala sa pagkakatulad ng pixel, ang mga kumpanya sa autonomous driving ay nag-aalala sa pagkakatumpak ng paghuhula ng pisikal na estado, at ang mga kumpanya sa robotika ay nag-aalala sa pagkakamaliwanag ng mga epekto ng galaw. Lahat sila ay gumagawa ng “world model,” ngunit hindi sila gumagawa ng parehong bagay.

Tinutukoy ng World Labs sa artikulo ang core ng problema: ang mga sistema na ito ay lahat tinatawag na iisang pangalan dahil totoo naman na bawat isa ay nagtataglay ng isang aspeto ng “pag-unawa sa mundo.” Ngunit bawat isa ay nagawa lamang ang isang bahagi ng buong siklo ng pagkakaintindi, at pinakita ito bilang isang kompletong modelo ng mundo sa pamamagitan ng mga marketing message, media coverage, at mga kuwento ng kapital.

Ang isa pang nagpapalakas sa kalituhan ng konsepto ay ang tensyon sa sariling termino. Ang terminong “world model” ay may natural na katangian ng malaking kuwento; ito ay may higit na imahe kaysa sa “video generation model” o “video prediction model,” at mas nakakatulong sa mas mataas na valuation at kuwento ng pagsasapalaran. Kapag hindi kayang tugunan ng teknikal na kakayahan ang mga inaasahan ng publiko, ang konsepto ay naging kasangkapan sa pagpapalaganap nang walang pag-aalinlangan.

Ano ang dapat maging kompletong “world model” noong 1960s?

Ang framework ng pagkakasunod-sunod ng World Labs ay batay sa isang teoryang tila lumang: Partially Observable Markov Decision Process.

Ang framework na ito ay naglalarawan ng isang buong siklo ng interaksyon sa pagitan ng isang agent at ng kalikasan. Ang agent ay nasa isang partikular na estado ng kalikasan, ito ay nagpapagawa ng isang aksyon, na nagbabago sa estado ng kalikasan; ang agent ay nakakakuha ng bahagyang obserbasyon sa pamamagitan ng mga sensor, na nagpapalitaw sa pag-update ng panloob na estado; at ang updated na kognisyon ay nagpapagalaw sa susunod na aksyon. Ang siklo ay paulit-ulit.

Sa ilalim ng framework na ito, ang buong paggana ng “world model” ay dapat maglalaman ng tatlong yugto: pagbuo ng obserbasyon mula sa estado (mga pixel, point cloud, atbp. na nakikita ng mata ng tao o nakukuha ng sensor), pagpapahiwatig ng susunod na estado mula sa aksyon at kasalukuyang estado (paghuhula sa pagbabago sa pisika), at pagbuo ng aksyon mula sa obserbasyon at layunin (paggawa ng desisyon at pagpaplano).

Ang mga language model ay natututo ng mga statistical pattern sa mga sequence ng teksto, habang ang world models ay natututo ng mga statistical特性 sa espasyo at panahon. Kung paano nagrereplekta ang ilaw sa iba't ibang uri ng surface, kung paano gumagalaw ang mga bagay sa ilalim ng gravity, at kung paano napapadala ang enerhiya pagkatapos ng pagkakatapon ng rigid bodies—ito ang mga pattern na dapat makuha ng world models.

Tinukoy ng team ng World Labs sa artikulo na ang lahat ng sistemang tinatawag na “world models” sa kasalukuyan ay tunay na mga proyeksyon lamang ng isang tiyak na bahagi ng buong siklo. May ilang sistema na nagpapakita lamang ng “mula sa estado patungo sa obserbasyon,” may ilang isa pang nagpapakita lamang ng “mula sa aksyon patungo sa susunod na estado,” at may ilang isa pang nagpaplano lamang ng “mula sa obserbasyon patungo sa aksyon.” Bawat isa ay nagkuha ng isang bahagi ng siklo, ngunit pinagsama-sama nila ang label na kumakatawan sa buong bilog.

Ang halaga ng framework na ito ay nag-aalok ng isang komparatibong sistema na hihigit sa mga marketing claims. Anuman ang paraan kung paano isinasaayos ng isang kumpanya ang kanyang produkto, kung ilalagay mo ito sa loob ng POMDP cycle at titingnan mo kung ano ang input, output, at ang nawawalang bahagi, ipapakita nito nang malinaw ang mga hangganan ng kanyang kakayahan.

Mga kapasidad ng mga renderer, simulator, at planner

Sa klasipikasyon ng World Labs, ang unang kategorya ay tinukoy bilang “renderer.” Ang pangunahing layunin nito ay mag-generate ng mataas na pagkakatulad na pixel output na nakatuon sa tao’s visual perception. Ang input ay isang representasyon ng environment state (maaaring text description, 3D scene parameters, o implicit encoding), at ang output ay isang serye ng mga frame.

Ang direksyon ng optimization ng renderer ay ang visual na katotohanan, hindi ang pisikal na eksakto. Malinaw na sinasabi ng artikulo ng World Labs na ang mga gusali na ginawa ng renderer ay maaaring “maging mahina,” dahil hindi ito talagang naglulutas ng mga equation ng structural mechanics; ang mga splashes ng likido na ito ay maaaring mukhang totoo, ngunit ang volume, flow rate, at impact force ng likido ay maaaring hindi magkakaugnay sa mga totoong pisikal na halaga. Kaya, ang ganitong uri ng model ay hindi maaaring gamitin para sa disenyo ng gusali, para sa pagtuturo ng robot, o sa anumang gawain na nangangailangan ng pisikal na eksaktong simulasyon.

Ang Google's Genie 3, mga iba’t ibang text-to-video model, at halos lahat ng AI video generation tools ay kabilang sa kategoryang ito. Kasama rin dito ang Sora.

Ang ikalawang uri ay ang "simulator." Ang pangunahing layunin nito ay hindi magbuo ng mga imahe para sa pagmamasid, kundi magbuo ng eksaktong estado na maaaring gamitin sa susunod na pagkalkula. Ang input ay ang kasalukuyang estado ng kapaligiran at mga panlabas na puwersa (o aksyon), habang ang output ay ang sumusunod na estado na tiyak na sumusunod sa mga batas ng totoong mundo. Ang estado na binibigay ng simulator ay maaaring gamitin para sa stress analysis, pagkalkula ng enerhiyang ginagamit, at pagdetekta ng pagkakatagpo, o maaari ring gamitin bilang input ng renderer upang magbuo ng mga visualisasyon, ngunit ang pangunahing halaga nito ay ang kalkulasyon ng estado mismo.

Ang NVIDIA Omniverse ay isang klasikong halimbawa ng ganitong uri ng sistema. Hindi ito isang AI-native na modelo, kundi isang digital twin platform na nagtatampok ng tradisyonal na physical engine at AI-accelerated computing. Ayon sa World Labs sa artikulo, ang simulator ay ang tulay na nag-uugnay sa rendering at planning, ngunit ang kakulangan ng mataas na kalidad na 3D physical annotation data ay ang pangunahing hadlang. Ayon sa pagtatantiya ng World Labs sa artikulo, ang data na ginagamit para sa pag-train ng ganitong uri ng modelo ay mas kaunti sa ilang ordeng-pamamaraan kaysa sa mga video data na available sa internet.

Ang ikatlong klase ay ang “planner.” Ang input nito ay ang mga观测数据 (tulad ng mga larawan mula sa camera, point cloud mula sa lidar, mga basa mula sa tactile sensors, atbp.) at ang target instruction, habang ang output nito ay ang susunod na aksyon na dapat gawin. Kasama sa kategoryang ito ang VLA (visual-language-action) models at ang World Action Models.

Ang pagkakaiba sa pagitan ng tatlong kategorya ay hindi mga maliit na pagkakaiba sa teknikal na direksyon, kundi isang pangunahing pagkakahati-hati ng mga punsiyon. Ang renderer ay naglalabas ng pixels para sa tao, ang simulator ay naglalabas ng estado para sa machine na kalkulahin, at ang planner ay naglalabas ng aksyon para sa executor na panaood. Maaaring magkaroon ng isang sistema ng maraming kakayahan nang sabay-sabay, ngunit kapag ang karamihan sa mga sistema na tinatawag na “world model” ay nagtatrabaho lamang sa rendering, ang pagkakapantay-pantay ng “rendering” at “pag-unawa sa mundo” ay isang malubhang pagkakamali sa pagkaunawa.

Isang talakayan na nagtrabaho ng dalawang taon, kung ang Sora ay isang world model o hindi

Noong Pebrero 2024, inilabas ng OpenAI ang Sora, kung saan direktang isinulat sa pamagat ng teknikal na ulat ang “Video Generation Model as a World Simulator.” Ang paggamit ng terminong ito ay agad na nagdulot ng malakas na pagtalakay sa loob ng akademikong komunidad at ng developer community.

Ang mga tagasuporta ay naniniwala na ang mga video na ginawa ng Sora ay nagpapakita ng 3D space consistency, object persistence, at isang uri ng intuitibong pag-unawa sa pisikal na interaksyon. Ang isang hamburger na may bite marks ay nananatiling may mga bakas ng ngipin, at ang isang aso na tumatakbo sa snow ay naglalabas ng mga balat ng snow—ang mga detalyeng ito ay tila nagpapakita na natutunan ng model ang ilang mga batas ng pisika.

Ang pangunahang argumento ng mga kaalaman ay batay sa klasikong depinisyon ng world model sa larangan ng reinforcement learning: dapat makapag-predict ang isang world model ng state transition batay sa aksyon. Ibig sabihin, ibinibigay ang kasalukuyang estado at isang input ng aksyon, dapat maglabas ang modelo ng susunod na estado pagkatapos ng aksyon. Hindi kayang gawin nang Sora ito. Hindi kayang sabihin ng user sa Sora na “hikayatin ang baso mula sa kaliwa,” at pagkatapos ay obserbahan kung lalabas ang baso, saan ito lalabas, at kung saan magkakalat ang mga piraso.

Tama ang komento ni Jim Fan: "Ang Sora ay isang world model, ngunit pinapayagan lamang nito ang no-op bilang tanging aksyon." Ibig sabihin nito, talagang hinuhula ng Sora ang pagbabago ng kapaligiran sa paglipas ng panahon, ngunit ang proseso ng pagbabago ay hindi naapektuhan ng anumang panlabas na interbensyon; ito ay nagpapatuloy lamang sa pamamagitan ng inherenteng causal chain sa mga video data. Hindi ito nagpapakita ng interaktibong pagpapalawak, kundi nagpapatuloy lamang sa isang pasibong pagkakasunod-sunod ng obserbasyon.

Sa subreddit na r/MachineLearning ng Reddit, maraming mga researcher sa reinforcement learning ang nag表达了 mas matinding kritika: ang mga sistema na hindi nakapagpapalaya ng state transition batay sa action ay hindi maaaring tawaging world model, kundi kailangang tawaging video prediction model.

Ang framework ng pagkakasuri ng World Labs ay nagbibigay ng malinaw na sagot sa debate na ito. Sa loob ng POMDP cycle, ang mga aksyon ay ang mahalagang input na nagpapagalaw sa pagbabago ng estado; ang isang sistema na kulang sa input na ito ay kakaunti lamang ang projection ng “pagbuo ng obserbasyon” sa buong cognitive cycle. Ang Sora ay isang renderer, hindi isang kompletong world model, at lalong hindi isang world simulator.

Ngunit hindi ito nangangahulugan na walang halaga ang Sora. Sinosolvo ng renderer ang isang iba’t ibang problema: kung paano lumikha ng mga imahe na sumusunod sa mga inaasahan ng tao sa paningin. Ang problema na ito mismo ay napakahirap at may malaking komersyal na halaga. Ang problema ay ang pagpapakita ng kakayahan sa rendering bilang “pag-unawa sa mundo,” na nagdudulot ng maling pagkaunawa sa mga tagapagdesisyon at investor, na nag-iisip na ang mga modelo ay may kakayahang mag-isip o mag-interactive sa pisikal na mundo.

Industry value of conceptual clarification

Linawin ang hangganan ng depinisyon ng “world model,” hindi ito isang akademikong pagmamalabis sa salita. Direktang nakakaapekto ito sa pagpili ng teknolohiya, pagdedesisyon sa pag-invest, at antas ng pag-unawa ng publiko sa kakayahan ng AI.

Para sa isang gawaan na nag-e-evaluate kung gagamitin ang isang “world model” para sa pagtuturo ng robot, mahalaga na maunawaan kung ang modelo ay isang renderer, simulator, o planner upang maiwasan ang milyon-milyong dolyar na pagkakamali. Ang isang modelo na nagpapakita lamang ng mga video frame, kahit gaano pa katalino ang mga ito, ay hindi makakapalit sa eksaktong pagkalkula ng puwersa, track ng galaw, at mga epekto ng pagkakatagpo.

Para sa mga institusyonal na investor, ang pagkakaiba-iba sa tatlong uri ng projection ay nagpapahintulot sa mas akurat na pagkilala sa posisyon ng proyekto sa teknikal na stack. Isang startup na nag-uugnay na “world model” kung ang produkto nito ay isang renderer lamang, ang kanyang mga kalaban ay ang mga kompanya sa video generation, hindi ang mga digital twin platform o robot control models. Ito ay direktang nagdedesisyon sa paraan ng pagtatantiya ng laki ng merkado at pagpili ng mga kompanya na ginagawang benchmark.

Para sa akademya, ang malinaw na klasipikasyon ay ang pangunahing kondisyon para sa pagbuo ng makukumpara na batayan. Kung patuloy na maipapalawak ang terminong “world model,” mahihirapan ang mga mananaliksik na tukuyin kung ano ang pagpapabuti at ano ang pagbubukas, at ang pagrerebyu ng mga kapwa ay magiging batay sa kalituhan.

Tinukoy din ng World Labs sa artikulo na ang paglilinaw ng konsepto ay hindi para maglikha ng pagkakahiwalay. Ang hinaharap na direksyon ay ang pagkakaisa ng tatlong uri ng projection. Dapat makapag-render ng visual na anyo nito, makapagsimula ng pisikal na proseso nang ito ay mabagsak, at makapaghanda kung paano ang robot arm na mahawakan ito nang matatag ang isang modelo na talagang nauunawaan ang pisikal na mga katangian ng baso. Ngunit bago makamit ang teknolohiyang iyon, mas may kahalagahan ang pagkilala sa mga hangganan nito kaysa sa paghanga sa pagkakaisa.

Ayon sa pagtataya ng World Labs sa artikulo, ang mga simulator at teknolohiya ng digital twin, tulad ng NVIDIA Omniverse, ay nakatutok sa isang potensyal na merkado na hihigit sa isang trilyon dolyar sa mga sektor tulad ng mga gawaan, warehouse, at supply chain. Ang bilang na ito ay batay sa sariling pagtataya ng mga manufacturer, at kung kailan makakamit ng merkado ang ganitong sukat ay naka-ugnay sa kakayahan ng mga simulator na lutasin ang kawalan ng sapat na mataas na kalidad na 3D physical data.

Sa kasalukuyang yugto ng industriya ng AI, ang pinakamahalagang pag-unawa ay maaaring simpleng ito: ang kakayahan na lumikha ng mga tunay na video ay hindi katumbas ng pag-unawa sa pisikal na mundo; ang pagkakatawag bilang world model ay hindi katumbas ng tunay na pag-simula sa mundo. Ang pagtemo sa mga salitang pang-marketing, at ang pagsusuri kung ano ang input at output ng isang sistema sa isang POMDP cycle, at kung anong bahagi ang kulang, ay ang pinakatotoong paraan upang masukat ang hangganan ng teknikal na kakayahan.