Ang artikulo ay tumatalakay sa mga landas ng pag-unlad ng world models sa larangan ng embodied intelligence. Kasalukuyang may dalawang direksyon: ang “pang-alis” mula sa Silicon Valley na naglalayong palitan ang VLA nang buo gamit ang WAM, at ang pangunahing “pagsasama” sa bansa na ginagamit ang world model bilang komplemento ng kakayahan ng VLA. Ipinapakita ng artikulo na ang world model ay nakakaranas ng tatlong bubble—pangkalahatang depinisyon, mataas na pagkakaroon ng computing power, at mahirap i-implement. Naniniwala ang artikulo na ang totoong world model ay dapat isama sa tunay na business loop upang tulungan ang mga machine na gumawa sa pisikal na mundo, at hindi lamang maglalayong makagawa ng mga imahe na may mataas na realismo.

May-akda ng artikulo, pinagmulan: A Priori Lab

Mula sa VLA hanggang WAM, isang overhyped na revolusyon at underappreciated na evolusyon.

Sa nakalipas na kalahati ng taon, may dalawang pinakamalaking pagdiriwang sa opinyon sa larangan ng embodied intelligence. Ang isa ay para sa screen: mula sa Sora hanggang sa iba’t ibang video generation models na patuloy na ipinakikita ang kanilang lakas, ang detalye ng isang baso ng tubig na ibinuhos at lumalawak, ang galaw ng mga tao sa patuloy na espasyo, na nagdala sa kuwento ng “AI na bumubuo muli ng realidad” sa pinakamataas na punto, at ang mga sigaw na “Narito na ang world model!” ay nagsisikat nang patuloy. Ang isa pang pagdiriwang ay para sa pamana: gamit ang isang meme na nagpapakita ni Jim Fan, pangunahing siyentipiko ng NVIDIA, na nakaupo sa harap ng pamana ng VLA (Visual-Language-Action Model) habang may WAM (World Action Model), ipinahayag niya na “Namatay na ang VLA, mabuhay ang world model!” at direkta nitong isinampa ang digmaan ng direksyon. (Ang artikulong ito ay tanging pinag-uusapan ang world model ng embodied intelligence.)

Dalawang pagdiriwang na nagbabahagi ng parehong pangunahing salita: World Model.

Ngunit ang kakaibang bagay ay, ang mas maraming tao ang nagsasalita tungkol sa embodied intelligence, ang mas malabo ang kanyang anyo—mayroong mga tao na tinatawag na world model ang paggawa ng makatotohanang video, mayroong mga tao na tinatawag na world model ang pagpapahalaga ng galaw ng robot, at mayroong mga tao na tinatawag din na world model ang simulation environment para sa autonomous driving. Sa ilalim ng iisang konsepto, mayroong ganap na iba’t ibang teknikal na layunin at komersyal na pangangailangan.

Ang pinakamalaking panganib sa kasalukuyang mga modelo ng mundo ay hindi ang “kakulangan sa kahulugan,” kundi ang paggamit ng lahat ng tao sa pinakamadaling ipakita at magbigay ng viral na aspeto nito upang tukuyin ang buong halaga nito. Kapag ang pagpapakita ng “pagbuo ng mundo” ay lalong lumalampas sa pangunahing layunin ng “paggamit ng mundo,” ang mga modelo ng mundo ay hinaharap na inilalayo sa tamang direksyon nito ng mga pinakamahusay na mananalita: ang totoong pisikal na mga senaryo ng Physical AI.

Kailangan ng world model ang kakayahang “gumawa ng mundo.” Walang mga nakakagulat na generative demo, hindi ito mabilis na makakapasok sa paningin ng publiko at kapital. Ngunit para sa Physical AI industry, ang paggawa ng isang mundo ay palaging nagsisimula lamang sa problema. Dapat kontrolin, patunayan, at iayos ang mundo, upang maging espasyo ng pagsusuri at batayan ng desisyon bago gumalaw ang machine. Ang video generation ay maaaring buksan ang pinto ng world model, ngunit hindi ito makakatapos sa daan patungo sa totoong pisikal na mundo.

Hindi kailanman nawawala ang mga bagong konsepto at bagong kuwento; ang embodied intelligence ay magiging sariling universal na daan. Sa panahong iyon, kung tatawagin ang daang ito bilang VLA, WAM, o anumang iba pang pangalan, baka hindi na mahalaga.

After all, it has been embedded in our lives.

Hindi kumpleto ang world model na katumbas ng “pagbuo ng imahe”

Nalalaman mo pa ba ang Sora?

Noong unang panahon, nang ipinakilala ni OpenAI ang Sora, ang pamagat ng ulat ay “Video generation models as world simulators”, na nagpapahayag na ang mga modelo ng paggawa ng video ay may potensyal na maging isang makatotohanang daan patungo sa “universal simulator ng pisikal na mundo”. Ang mga kakayahan ng Sora noong panahong iyon sa pagpapakita ng mahabang video, tulad ng paggalaw ng kamera, lokal na 3D consistency, at pagpapanatili ng estado ng mga bagay, ay nagbigay sa publiko ng unang direktang pakiramdam na: ang AI ay tila talagang natututo na “bumuo ng isang mundo”. Kumpara sa teksto at larawan, ang video ay natural na nauugnay sa intuisyong pantao tungkol sa “mundo”— may oras, espasyo, galaw, at tuloy-tuloy na pagbabago, kaya madaling magdulot ng maling paniniwala na “ang modelo ay naiintindihan na ang mga batas ng pisika”.

Ang ganitong kakayahan ay naturally angkop para sa mga pagpapakita at madaling tarhain ang atensyon ng kapital at media. Sa paglipas ng panahon, naging default na pagsisimula ng maraming tao ang “video generation = world model.”

Hindi ito mali. Sa digital-native na mga senaryo, ang mga solusyon na batay sa paggawa ng video ay naturally epektibo, at mayroon nang maraming unicorn companies. Ang kanilang mga produkto ay maaaring gamitin sa industriya ng mga laro para sa real-time paggawa ng dinamikong mga eksena, na nagbabawas sa gastos sa art at nagpapalakas ng kalayaan ng mga manlalaro; sa mga larangan na may mataas na gastos sa pagsubok tulad ng aerospace at advanced manufacturing, ginagamit ito upang palawakin ang mga hangganan ng pagsubok at mapalawak ang mga simulation scenario, na may malinaw na komersyal na halaga. Ang “daigdig” na ginawa dito ay hindi isang larawan para sa mga manonood, kundi isang interactive at maaaring subukan na simulation environment.

Ang totoong maling pag-unawa ay nangyayari sa pagitan ng mga disiplina, kapag ang mga modelo ng mundo ay nakakatagpo sa embodied intelligence, kung saan marami ang nagpapalagay na kung ang isang modelo ay kayang magbuo ng isang tuloy-tuloy at makatotohanang digital na mundo, ay katumbas na ito ay may pag-unawa, pagbibilang, at kakayahang mag-aksyon sa pisikal na mundo.

Ang pagsusuri ni Wang Zhongyuan, Punong-eksekutibo ng Beijing Academy of Artificial Intelligence, ay diretso: Ang teknolohiya ng paggawa ng video na kilala ngayon bilang representasyon ng mundo, ay sa katotohanan ay isang simulasyon sa antas ng pixel. “Makakagawa ang mga modelo ng paggawa ng video ng isang grupo ng baboy na lumulutang sa langit kasama ang eroplano dahil ang kanilang mga datos sa pagtuturo ay naglalaman ng maraming nilalaman mula sa mga pelikulang siyentipikong fiksyon; ang kanilang layunin ay hindi kailanman ang pagpapakita ng mga batas ng tunay na pisikal na mundo.”

Sapat ang isang klasikong embodied scenario upang ipakita ang pagkakaiba: ang paghawak sa baso. Maaari ng modelong magsagawa ng mga imahe ng baso na may magkakaparehong anyo mula sa iba’t ibang pananaw—ito ay visual consistency, na natutunan nito mula sa video data; ngunit ano ang dami ng friction kapag itinutok ang kamay? Maaari bang tanggapin ng materyal ang kinakailangang lakas ng paghawak? Kapag bumaba ang baso sa mesa, dahil ba ito sa pagtala ng modelong “karaniwang nasa mesa ang baso”, o dahil sa tunay na pag-unawa sa gravity, normal force, at contact constraints? Ang mga komplikadong mechanical response, pagbabago ng estado pagkatapos ng contact, at causal constraints ng mga totoo at pisikal na batas—hindi ito nasasakop ng isang nagpe-generate na video. Kapag isang kotse na naglalakad nang patayong direksyon ay ginawa at diretso na isinama sa training pipeline ng autonomous driving nang walang pag-verify, ang totoo at pisikal na mundo ay magkakaroon ng malubhang konsekwensya.

Sa ibang salita, ang video generation ay isang anyo ng world model na nagsasagawa na sa maraming escenario, ngunit hindi ito ang world model na kailangan ng embodied intelligence, at mas hindi ito ang pangunahing anyo sa konteksto ng Physical AI. Ang paggamit ng visual na epekto ng “pagbuo ng mundo” upang tukuyin ang world model ng embodied intelligence ay pangunahing paggamit ng sukat ng digital na mundo upang sukatin ang mga problema sa pisikal na mundo.

Nasawi na ba ang VLA? Ang world model ay hindi isang revolusyon, kundi isang pagpapuno

Ang “VLA ay patay, WAM ang sumusunod” ay ang pinakapopular na kuwento sa industriya.

Sa nakalipas na dalawang taon, ang VLA ay naging pangunahing paraan sa embodied intelligence. Ito ay sumusunod sa pagpapalawig ng malalaking language model, at sa pamamagitan ng malaking dami ng remote operation data, itinatayo ang pagkakaugnay ng “pagsasalita - utos - kilos” upang gawing mas natural at makapag-decompose ng mga kumplikadong gawain ang mga robot. Lahat ng pangunahing player sa industriya ay nagamit ang VLA bilang pangunahing teknikal na batayan.

Ngunit ang kahinaan ng VLA ay malinaw: ito ay batay sa pag-aaral sa pamamagitan ng pagkakatanda at pag-uugnay, na kulang sa pangunahing pag-unawa sa mga batas ng pisika; kapag makakatok sa bagong sitwasyon o bagong bagay na hindi nakikita sa data, mabilis na mawawala ang kakayahang mag-pagpapalawak. Ang WAM route na inilahad ni Jim Fan ay direktang tumutok sa puntong ito. Ang pangunahin nitong lohika ay ang paglipat mula sa “semantikong pag-unawa” patungo sa “pisikal na paghula”: hindi na direktang naglalabas ng aksyon, kundi una ay hinihula ang hinaharap na kalagayan ng mundo, at pagkatapos ay bumabalik sa isang serye ng mga aksyon, parang pinapayagan ang robot na “mag-rehearsal” muna sa isip nito ang mga epekto bago gumawa ng galaw, upang mapabuti ang kakayahang umangkop sa mga bagong sitwasyon.

Kaya agad umusbong ang “teorya ng pagbabago,” ang VLA ay isang lumang paraan, at ang world model ang susunod na sagot sa embodied intelligence. Ngunit sa tunay na industriyal na pagpapatupad, ang bagay ay malayong hindi ganito simpleng “o buhay o patay.”

Ang industriya ay nagkakaroon ng dalawang malinaw na direksyon, na may nakalalalim na iba't ibang teknikal na pilosopiya at negosyong pangangailangan:

Isang grupo ay ang “alternatibong” pangkat na pinamumunuan ng Silicon Valley. Kabilang dito ang NVIDIA at Google DeepMind, na nagtataguyod ng sapat na computing power at data reserves upang abutin ang ganap na pagbabago ng paradigma. Sa Cosmos 3, ang NVIDIA ay isinama ang wika, imahe, video, at sequence ng galaw sa iisang framework ng Physical AI world model, na naglalayong gawing hindi hiwalay ang paggawa, pag-simula, at paghula ng galaw; ang Waymo World Model na inilabas ng Waymo at Google DeepMind, na gumagamit ng kakayahan ng Genie 3 model, ay hindi lamang ginagamit para sa paggawa ng mga rare scenario tulad ng kakaibang panahon o pagpasok ng mga hayop, kundi pangunahing ginagamit upang kontrolin ang mga scenario na ito sa pamamagitan ng mga galaw ng pagmamaneho, layout ng kalsada, at mga kondisyon sa wika, upang subukan ang reaksyon ng autonomous driving system sa counterfactual na sitwasyon.

Ang daan na ito ay may pinakamalaking pangarap at pinakamalapit sa “naratibong rebolusyonaryo,” ngunit sobrang mataas ang hadlang—ito ay laruan ng mga pangunahing kalahok.

Ang isa pang pangunahing direksyon ay ang “integrasyon” na mas karaniwan sa bansa. Ang karamihan sa mga player ay hindi pumili na muling buuin ang lahat, kundi ginamit ang world model bilang komplemento ng kakayahan ng VLA at isinama ito sa umiiral na arkitektura. Ipinakilala ng Zhifangping ang VLA embodied large model na AlphaBrain noong Mayo 2026. Ipinagmamalaki nito ang pagkakahati-hati ng tao sa “utak-kaliskis-katawan” at gumagamit ng “mabilis at mabagal na sistema” upang isama ang “pagsusuri” na kakayahan ng world model sa loob ng arkitektura ng VLA—ang mabagal na sistema ay responsable sa pagmamasid sa kalagayan ng kapaligiran at pagpaplano ng mataas na antas ng pagkilos, habang ang mabilis na sistema ay responsable sa detalyadong pagmamasid at mabilis na tugon. Ang pananaw ni Guo Yandong, ang tagapagtatag ng Zhifangping, ay diretso: “Hindi nagkakasalungat ang world model at VLA; pareho sila ng sangay ng iisang teknikal na landas. Kung nais mong gawin ang mas mahabang pag-iisip, kailangan mo ang world model + VLA, o i-merge ang world model at VLA.”

Ang Galaxy General ay nagsagawa rin ng malalim na pag-unlad; ang kanilang LDA-1B model na ipinakilala noong Abril ng taong ito ay nagpapatupad nang sabay-sabay ng pagkatuto ng estratehiya, pisikal na paghuhula, at visual na pagkilala sa isang iisang framework, at unang nagtagumpay na i-unify ang world model at action model sa industrial-scale na 1 bilyon parameter, kung saan ang mga resulta ay napili na para sa RSS, ang pinakamataas na konperensya sa robotics. Ang mga weights ng model at ang training code ay nasa open source. Hindi sila nag-aalala kung piliin ang VLA o world model, kundi mas praktikal sila—pinapayagan nilang magbahagi ng iisang model ang paghuhula at pagpapatupad, upang makakuha ng mga kalakasan at mapuno ang mga kahinaan.

Sa aming pananaw, ang “pagsisilbing alternatibo” at “pagsasama” ay walang tiyak na tama o mali—ito ay iba’t ibang pagpili sa iba’t ibang yugto. Hindi talaga “mamatay” ang VLA, at ang world model ay hindi isang revolusyon na nagbabago lahat; ito ay nagpapakumpleto sa pinakamalaking kakulangan ng VLA—ang kanyang kakayahang mag-predict sa pisikal na mundo. Ang huling ugnayan ng dalawa ay mas posibleng isang layered collaboration, kaysa isang pakikidigma na may pagkamatay. Ang tunay na nagdedesisyon kung sino ang mananalo sa ruta ay hindi ang pagiging bagong-bago ng konsepto, kundi sino ang makakapagpapatakbo muna ng chain ng data, simulation, at real-world deployment, upang maipasok ang robot sa totoong mga skena.

Hindi pa nagkakaroon ng real-world application ang world model, ngunit ang konsepto ay nagsisimula nang magpalipas-lipas.

Kapag ang pagiging popular ng isang konsepto ay nagsasagawa sa pagpapatupad ng teknolohiya, ang bubble ay halos tiyak na produkto. Sa kasalukuyang larangan ng world models, mayroon nang kahit tatlong uri ng bubble na dapat bantayan.

Ang unang antas ay ang pagtukoy sa bulsa. Ang kasalukuyang “world model” ay naging isang baskol kung saan maaaring ilagay ang anumang bagay. Ang Yann LeCun ay itinuturing ito bilang abstraktong paghuhula ng estado ng mundo, habang inilalarawan ito ni Fei-Fei Li bilang isang interaktibong 3D representation ng espasyo, at inilalagay ng NVIDIA ito bilang isang physical AI generative simulator. Sa ilang startups, mayroong nagpapakita ng video generation bilang world model, at mayroon ding nagpapalit ng pangalan sa tradisyonal na simulation engine at tinatawag itong world model. Mayroon nang mga dozens na kompanya sa bansa na nagsasabing naglalayong mag-deploy ng world model, ngunit maaaring hindi sila nagsasalita tungkol sa parehong bagay. Kapag isang teknikal na konsepto ay maaaring ipaliwanag nang walang hanggan, karaniwang nawawala ang kahalagahan nito bilang teknikal na pamantayan. Sa likod ng pagpapalawak ng depinisyon ay ang pagkikita ng pondo at pagpapalaganap ng marketing narrative—dahil mas halaga ang tawag na “world model” kaysa sa “video generation tool” o “simulation optimization solution.”

Ang pangalawang bubuksan ay ang bubble ng computing power. Ang pangunahing paraan sa pag-train ng mga world model ay nakabatay sa malaking dami ng video data at sobrang malaking computing power, at ito ay eksaktong teritoryo ni NVIDIA. Sinabi ni Jensen Huang sa GTC conference na hanggang 2027, ang mga chip na Blackwell at Rubin, kasama ang mga kasunod na sistema na disenyo para sa mga embodied intelligence model, ay magdadala ng kahit anong $1 trilyon sa kita ni NVIDIA. Sa isang paraan, ang pagtutulak ng mga pangunahing player sa Silicon Valley sa landas ng “full-modal general world model” ay lubos na sumasalungat sa negosyong lohika ni NVIDIA na “bumebenta ng computing infrastructure.” Ngunit ang antas ng pagsisikap para sa karamihan sa mga kumpanya ay parang walang hanggan—ang mga maliit na grupo na nakapokus sa VLA ay kahit na kailangan ng malaking sunk cost, at mas higit pa ang pagpasok sa larangan ng world model mula sa sero. Kapag lahat ay nagsasalita tungkol sa parehong mataas na computing power na landas, ngunit kaunti lamang ang nakakalkula ng ratio ng input at output, ito mismo ay isang signal ng bubble.

Ang ikatlo at pinakamatinding panganib ay ang pagbagsak ng bubble. Lahat ng mga konseptong naratibo ay kailangang sagutin ang iisang tanong: kaya ba talaga nito palakasin ang tunay na pagganap? Ngunit ang katotohanan ay, ang pagitan sa simulasyon at sa realidad ay hindi magtatanggal nang dahil sa pagbabago ng pangalan ng modelo mula sa VLA patungo sa WAM. Ang isang maliit na pagkakamali sa video, tulad ng pagtemo, paglabag sa gravity, o pagkakalat ng hangganan, ay maaaring magiging matatag na maling pag-unawa sa pisika sa pagtuturo ng robot; ang isang makatotohanang tingin ngunit lumalabag sa mga batas ng pisika na paghula ay maaaring mas masamang magmali sa tunay na robot kaysa sa paggamit ng walang modelo.

Ang pangunahing siyentipiko ng Ant Group, si Shen Yujun, ay nagtukoy sa pangunahing pagkakaiba: ang mga generatibong modelo sa digital na mundo ay maaaring maglalayon sa mataas na kalidad at realismo, at ang pagiging mabagal ay hindi isyu; ngunit ang mga modelo sa pisikal na mundo, ang pangunahing hiling ay mabilis, matatag, at tama—kailangan nito na magbigay ng real-time na feedback at suporta sa mga aksyon. Maraming koponan ay nagpupursige na gawing mas totoo ang mga escena sa digital na mundo, ngunit nagkakamali sa pag-iisip na ang mga data sa tunay na pisikal na interaksyon ang pinakamahalagang mapagkukunan. Ang mundo ng modelo ay maaaring magbigay ng magagandang指标 sa simulation, ngunit habang hindi pa ito nasusuri sa mga produksyon na linya ng pabrika, mga warehouse ng logistics, o mga bukas na kalsada, ito ay nananatiling isang teknikal na pag-aaral sa laboratorio, hindi pa isang infrastruktura sa antas ng industriya.

Kaya, ano ba talaga ang dapat na anyo ng world model para sa Physical AI o embodied intelligence? Ang sagot ay hindi nasa mga demo video sa mga pagpapakilala, kundi sa mga pangangailangan sa totoong sitwasyon. Ang pangunahing pamantayan sa pagtataya ay hindi ang “sapat ba ang katotohanan ng nabuong mundo,” kundi kung “nakakatulong ba ito sa mga makina na mas mabuti pang gumalaw sa pisikal na mundo,” kung nakakabawas ba ito ng gastos sa pagkakamali, nakakapagpapataas ba ito ng kakayahang magpapaliwanag, at nakakapag-embed ba ito sa totoong business loop.

Batay sa kasalukuyang praktika ng industriya, ang mga aktor na talagang nasa tamang direksyon ay gumagawa ng iisang bagay: pagbabago ng world model mula sa “display-oriented” patungo sa “task-oriented”; sa madaling salita, ang huling anyo ng world model ay hindi isang independiyenteng “produkto,” kundi isang pangunahing kakayahan na nakapaloob sa iba’t ibang pisikal na sistema. Ito ay nakatago sa back-end ng simulation sa autonomous driving, sa module ng motion planning ng robot, at sa predictive system ng production line sa gawaan, na tahimik na nagtatapos ng prediction, trial and error, at correction. Sa karamihan ng mga pagkakataon, hindi makikita ng user ang pagkakaroon nito.

Iyon ang panahon ng world model, at natural na maaari itong hindi tawaging world model.

Mga World Model sa Embodied Intelligence: Isang Landas Patungo sa Labas ng Visual Generation

Hindi kumpleto ang world model na katumbas ng “pagbuo ng imahe”

Nasawi na ba ang VLA? Ang world model ay hindi isang revolusyon, kundi isang pagpapuno

Hindi pa nagkakaroon ng real-world application ang world model, ngunit ang konsepto ay nagsisimula nang magpalipas-lipas.