Artikel ini membahas jalur pengembangan model dunia di bidang kecerdasan tubuh. Saat ini ada dua pendekatan: "pendekatan pengganti" dari Silicon Valley yang mengejar penggantian total VLA oleh WAM, dan "pendekatan integrasi" yang dominan di dalam negeri, yang menjadikan model dunia sebagai pelengkap kemampuan VLA. Artikel ini menunjukkan bahwa model dunia menghadapi tiga gelembung—definisi yang terlalu luas, hambatan kekuatan komputasi tinggi, dan kesulitan penerapan. Artikel berpendapat bahwa model dunia yang sejati harus tertanam dalam siklus bisnis nyata, membantu mesin bertindak di dunia fisik, bukan hanya mengejar realisme visual.

Penulis artikel, sumber: A Priori Lab

Dari VLA ke WAM, revolusi yang dilebih-lebihkan dan evolusi yang diremehkan.

Dalam enam bulan terakhir, ada dua gelombang hiruk-pikuk publik yang paling ramai di bidang kecerdasan tubuh. Yang satu milik layar: dari Sora hingga berbagai model generasi video yang secara berturut-turut memamerkan kekuatan mereka, detail air yang tumpah dan gerakan karakter dalam ruang kontinu, membuat narasi “AI menciptakan ulang realitas” mencapai puncaknya, dengan seruan “Model dunia telah tiba!” bergema di mana-mana. Yang lainnya milik nisan: ilmuwan peneliti utama NVIDIA, Jim Fan, menggunakan meme yang menampilkan WAM (World Action Model) berdiri di depan nisan VLA (Visual-Linguistic-Action Model), mengumumkan “VLA telah mati, hiduplah model dunia!”, langsung membawa perdebatan jalur ke permukaan. (Artikel ini hanya membahas model dunia dalam kecerdasan tubuh.)

Dua pesta besar berbagi kata kunci utama yang sama: model dunia.

Namun, yang ironis adalah semakin banyak orang membicarakan bidang embodied intelligence, semakin kabur wujudnya. Ada yang menyebut video yang dihasilkan secara realistis sebagai world model, ada yang menyebut simulasi gerakan robot sebagai world model, dan ada pula yang menyebut lingkungan simulasi mobil otonom sebagai world model. Di bawah konsep yang sama, terdapat tujuan teknis dan kebutuhan bisnis yang sama sekali berbeda.

Bahaya terbesar model dunia saat ini bukanlah “definisi yang tidak jelas”, melainkan semua orang menggunakan sisi paling mudah dipertunjukkan dan paling mudah menciptakan titik viralnya untuk mendefinisikan seluruh nilai model tersebut. Ketika pertunjukan teknis “menciptakan dunia” mengalahkan esensi “menggunakan dunia”, model dunia sedang dibawa jauh dari tujuan sejatinya oleh para pemilik cerita paling piawai: skenario fisik nyata dari Physical AI.

Model dunia tentu memerlukan kemampuan untuk "menciptakan dunia". Tanpa demonstrasi generasi yang mengesankan, ia tidak akan secepat ini memasuki pandangan publik dan modal. Namun bagi industri Physical AI, menciptakan dunia hanyalah awal dari masalah. Dunia akhirnya harus dikendalikan, diverifikasi, dan diperbaiki, sehingga menjadi ruang simulasi dan dasar pengambilan keputusan sebelum mesin bertindak. Generasi video dapat membuka pintu menuju model dunia, tetapi tidak dapat menyelesaikan seluruh perjalanan menuju dunia fisik yang nyata.

Kami tidak pernah kekurangan konsep baru dan narasi baru; kecerdasan tubuh pasti akan menemukan jalur umumnya sendiri. Pada saat itu, apakah jalan itu disebut VLA, WAM, atau nama lainnya, mungkin sama sekali tidak lagi penting.

After all, it has been embedded in our lives.

Model dunia tidak sama persis dengan "menghasilkan gambar"

Apakah Anda masih mengingat Sora?

Pada masa itu, ketika OpenAI merilis Sora, judul laporannya adalah “Video generation models as world simulators”, yang menyatakan bahwa model generasi video berpotensi menjadi jalur yang layak menuju “simulator universal dunia fisik”. Kemampuan Sora pada saat itu, seperti gerakan kamera, konsistensi 3D lokal, dan pemeliharaan status objek dalam video panjang, membuat publik secara intuitif merasakan bahwa AI tampaknya benar-benar sedang belajar “membangun sebuah dunia”. Dibandingkan teks dan gambar, video secara alami selaras dengan persepsi intuitif manusia terhadap “dunia”—memiliki waktu, ruang, gerakan, dan perubahan berkelanjutan, sehingga mudah menimbulkan ilusi bahwa model telah menguasai hukum fisika.

Kemampuan semacam ini secara alami cocok untuk ditampilkan di acara peluncuran, dan paling mudah menarik perhatian modal dan media. Seiring waktu, “generasi video = model dunia” menjadi pintu masuk pemahaman yang dianggap default oleh banyak orang.

Ini tentu bukan kesalahan. Dalam skenario natively digital, pendekatan berbasis generasi video sudah menjadi solusi yang efisien, dan telah muncul banyak perusahaan unicorn. Produk-produk mereka dapat digunakan di industri game untuk menghasilkan adegan dinamis secara real-time, sekaligus mengurangi biaya seni dan meningkatkan kebebasan pemain; di bidang-bidang dengan biaya percobaan tinggi seperti kedirgantaraan dan manufaktur canggih, penggunaannya memperluas batas pengujian dan memperkaya skenario simulasi, yang juga memiliki nilai bisnis yang jelas. Pada saat ini, "dunia" yang dihasilkan bukanlah gambar yang hanya dilihat penonton, melainkan lingkungan simulasi yang dapat diinteraksi dan diuji coba.

Kesalahpahaman sejati terjadi saat batas antar bidang dilanggar, ketika model dunia bertemu dengan kecerdasan terwujud; banyak orang secara default menganggap bahwa jika model dapat menghasilkan dunia digital yang kontinu dan realistis, maka model tersebut telah menguasai pemahaman, prediksi, dan kemampuan tindakan terhadap dunia fisik.

Wang Zhongyuan, Direktur Institut Riset Kecerdasan Buatan Beijing Zhiyuan, memberikan penilaian yang tepat sasaran: teknologi generasi video yang saat ini secara luas dianggap sebagai representasi model dunia pada dasarnya hanyalah simulasi dunia pada tingkat piksel. “Model generasi video dapat menghasilkan sekelompok babi yang terbang bersama pesawat di langit, karena data pelatihannya mencakup banyak konten film fiksi ilmiah, dan tujuannya sama sekali bukan mereproduksi hukum alam semesta yang sebenarnya.”

Sebuah skenario tubuh klasik cukup untuk menjelaskan kesenjangan ini: mengambil cangkir. Model dapat menghasilkan cangkir dengan penampilan konsisten dari berbagai sudut pandang—ini adalah konsistensi visual, yang dapat dipelajari dari data video; tetapi setelah tangan menyentuhnya, seberapa besar gaya geseknya? Apakah materialnya mampu menahan kekuatan genggaman yang sesuai? Ketika cangkir jatuh di atas meja, apakah itu karena model mengingat “cangkir biasanya berada di atas meja,” atau benar-benar memahami gravitasi, gaya dukung, dan batasan kontak? Respons mekanis yang kompleks, perubahan status setelah kontak, serta batasan kausal dari hukum fisika nyata—semuanya tidak dapat dicakup oleh satu video generatif. Ketika sebuah mobil yang bergerak menyamping dihasilkan dan langsung dimasukkan ke dalam rantai pelatihan mobil otonom tanpa verifikasi, dunia fisik nyata pasti akan memberikan balasan menyakitkan.

Dengan kata lain, generasi video adalah bentuk ekspresi dari model dunia yang telah diterapkan di banyak skenario, tetapi sama sekali bukan model dunia yang dimiliki oleh kecerdasan terwujud, apalagi bentuk inti dalam konteks Physical AI. Mendefinisikan model dunia kecerdasan terwujud dengan visualisasi “menciptakan dunia” pada dasarnya adalah menggunakan ukuran dunia digital untuk mengukur masalah dunia fisik.

VLA sudah mati? Model dunia bukan revolusi, tapi pengganti

"VLA sudah mati, WAM menggantikan" adalah narasi paling populer di industri ini.

Dua tahun terakhir, VLA menjadi jalur utama dalam kecerdasan tubuh. Mengikuti pendekatan pelatihan awal model bahasa besar, VLA membangun pemetaan "persepsi - perintah - tindakan" melalui data operasi jarak jauh dalam jumlah besar, sehingga robot dapat beralih dari gerakan berulang yang kaku menuju pemahaman bahasa alami dan pemecahan tugas kompleks. Semua pemain utama di industri pernah menjadikan VLA sebagai fondasi teknologi utama.

Namun, kelemahan VLA juga sangat jelas: pada dasarnya merupakan memori dan pemetaan yang dihasilkan dari pembelajaran imitasi, tanpa pemahaman mendalam terhadap hukum fisika; ketika menghadapi skenario atau objek baru yang tidak pernah dilihat dalam data, kemampuan generalisasinya akan cepat gagal. Jalur WAM yang diajukan oleh Jim Fan justru menargetkan titik lemah ini. Logika intinya adalah beralih dari "pemahaman semantik" menjadi "prediksi fisik": bukan langsung menghasilkan tindakan, tetapi terlebih dahulu memprediksi keadaan masa depan dunia, lalu menghitung ulang urutan tindakan—seolah-olah robot melakukan "latihan mental" terlebih dahulu sebelum bertindak, untuk meningkatkan kemampuannya beradaptasi terhadap skenario asing.

Sehingga teori “revolusi” cepat berkembang, VLA adalah paradigma lama yang usang, sedangkan world model adalah jawaban generasi berikutnya untuk embodied intelligence. Namun dalam praktik industri nyata, masalahnya jauh lebih rumit daripada sekadar “hidup atau mati”.

Industri sedang terbagi menjadi dua jalur jelas, yang didorong oleh filosofi teknologi dan kebutuhan bisnis yang berbeda:

Satu jalur dipimpin oleh Silicon Valley, yang disebut "aliran alternatif". Diwakili oleh NVIDIA dan Google DeepMind, mengandalkan kapasitas komputasi dan cadangan data yang melimpah, mengejar rekonstruksi paradigma yang menyeluruh. NVIDIA dalam Cosmos 3 menggabungkan bahasa, gambar, video, dan urutan gerakan ke dalam satu kerangka kerja model dunia Physical AI yang sama, berusaha menjadikan generasi, simulasi, dan prediksi gerakan bukan lagi modul yang terpisah; Waymo dan Google DeepMind bekerja sama meluncurkan Waymo World Model, memanfaatkan kemampuan model Genie 3, tidak hanya untuk menghasilkan skenario ekstrem seperti cuaca langka atau hewan yang masuk ke jalan, tetapi lebih penting lagi, membuat skenario-skenario ini dikendalikan oleh tindakan mengemudi, tata letak jalan, dan kondisi bahasa, untuk menguji respons sistem mobil otonom dalam situasi kontrafaktual.

Jalan ini paling ambisius dan paling sesuai dengan "narasi revolusioner", tetapi memiliki ambang batas yang sangat tinggi, dan merupakan permainan para raksasa teratas.

Satu lagi adalah "gabungan" yang lebih umum di dalam negeri. Sebagian besar pemain tidak memilih untuk menghancurkan dan membangun ulang, melainkan menjadikan model dunia sebagai komplementer kemampuan VLA, yang diintegrasikan ke dalam arsitektur yang sudah ada. Zhi Square meluncurkan model besar VLA berwujud AlphaBrain pada Mei 2026. Model ini mengadopsi mekanisme pembagian tugas "otak-serebelum-tubuh" pada manusia, dengan menggabungkan sistem "cepat-lambat" untuk menanamkan kemampuan "simulasi" model dunia ke dalam arsitektur VLA—sistem lambat bertanggung jawab atas persepsi situasi lingkungan dan perencanaan perilaku tingkat tinggi, sementara sistem cepat bertanggung jawab atas sensorik halus dan umpan balik cepat. Penilaian pendiri Zhi Square, Guo Yandong, sangat langsung: "Model dunia dan VLA sama sekali tidak saling bertentangan; keduanya merupakan cabang dari satu jalur teknologi yang sama. Jika ingin melakukan tugas penalaran jangka panjang, diperlukan model dunia + VLA, atau menggabungkan model dunia dengan VLA."

Galaxy General juga telah mencapai kemajuan signifikan; model LDA-1B yang mereka rilis pada April tahun ini secara bersamaan melakukan pembelajaran strategi, prediksi fisika, dan persepsi visual dalam satu kerangka kerja terpadu, pertama kalinya menggabungkan model dunia dan model tindakan pada skala parameter miliaran tingkat industri. Hasil terkait telah dipilih untuk konferensi robotika terkemuka RSS, dan bobot model serta kode pelatihan telah dirilis secara terbuka. Mereka tidak memperdebatkan "memilih VLA atau model dunia", tetapi lebih pragmatis dengan membagi prediksi dan eksekusi melalui model yang sama, memanfaatkan kekuatan masing-masing dan menutupi kelemahannya.

Menurut kami, “penggantian” dan “fusi” tidak memiliki benar atau salah mutlak, hanya pilihan berbeda di tahap berbeda. VLA tidak akan benar-benar “mati”, dan model dunia bukanlah revolusi yang menghancurkan segalanya; ia mengisi kemampuan prediksi fisik yang paling hilang dari VLA. Hubungan akhir antara keduanya lebih mungkin berupa kolaborasi berlapis, bukan saling mematikan. Yang benar-benar menentukan kemenangan jalur, selalu bukan seberapa baru konsepnya, tetapi siapa yang pertama kali bisa menghubungkan rantai data, simulasi, dan penerapan nyata, sehingga robot benar-benar dapat masuk ke skenario nyata.

Model dunia belum diterapkan, tetapi sudah ditiupkan semangat konsep yang berlebihan

Ketika popularitas konsep berjalan lebih cepat daripada penerapan teknis, gelembung hampir pasti menjadi hasilnya. Di lintasan model dunia saat ini, setidaknya telah muncul tiga gelembung yang perlu diwaspadai.

Tahap pertama adalah mendefinisikan gelembung. "Model dunia" hari ini telah menjadi keranjang yang bisa diisi apa saja. Yann LeCun menganggapnya sebagai prediksi keadaan dunia pada lapisan abstrak, Li Feifei mendefinisikannya sebagai representasi ruang 3D yang dapat diinteraksi, NVIDIA menempatkannya sebagai simulator generatif AI fisika, sementara perusahaan rintisan ada yang mengandalkan generasi video sebagai pengganti, dan ada pula yang hanya mengganti nama mesin simulasi tradisional lalu menyebutnya model dunia. Di Tiongkok, sudah ada puluhan perusahaan yang mengklaim sedang mengembangkan model dunia, tetapi mungkin mereka sama sekali tidak membicarakan hal yang sama. Ketika sebuah konsep teknis dapat dijelaskan tanpa batas, ia sering kali kehilangan makna sebagai tolok ukur teknis. Di balik generalisasi definisi ini, ada dorongan bersama dari kebutuhan pendanaan dan narasi pemasaran, karena menyebutnya "model dunia" jelas lebih bernilai daripada menyebutnya "alat generasi video" atau "solusi optimasi simulasi".

Tahap kedua adalah gelembung daya komputasi. Jalur pelatihan utama untuk model dunia didasarkan pada data video dalam jumlah besar dan daya komputasi super besar, yang justru menjadi kekuatan utama NVIDIA. Jensen Huang secara terbuka menyatakan di konferensi GTC bahwa chip Blackwell dan Rubin, serta sistem pendukungnya yang dirancang untuk model kecerdasan tubuh, setidaknya akan menghasilkan pendapatan sebesar satu triliun dolar AS bagi NVIDIA hingga tahun 2027. Dalam arti tertentu, dorongan para pemain utama Silicon Valley terhadap jalur “model dunia universal multimodal” sangat selaras dengan logika bisnis NVIDIA yang berfokus pada “penjualan infrastruktur daya komputasi.” Namun, ambang batas investasi jalur ini bagi sebagian besar perusahaan benar-benar tak terhingga; tim-tim kecil yang sebelumnya berinvestasi pada VLA saja sudah kesulitan menanggung biaya tenggelam sebesar ini, apalagi memulai dari nol di lintasan model dunia. Ketika semua orang membahas jalur berdaya komputasi tinggi yang sama, tetapi hampir tidak ada yang mampu menghitung rasio investasi terhadap hasil, inilah sinyal adanya gelembung.

Yang ketiga dan paling mematikan adalah gelembung yang mendarat. Semua narasi konsep pada akhirnya harus menjawab pertanyaan yang sama: apakah benar-benar dapat meningkatkan kinerja nyata? Namun kenyataannya, kesenjangan migrasi dari simulasi ke dunia nyata tidak akan hilang secara otomatis hanya karena nama model berubah dari VLA menjadi WAM. Detail halus seperti penetrasi objek, gaya gravitasi terbalik, atau batas yang kabur dalam video akan mengkristal menjadi pemahaman fisika yang salah dalam pelatihan robot; prediksi yang tampak masuk akal tetapi melanggar hukum fisika dapat menyesatkan robot nyata bahkan lebih parah daripada tidak menggunakan model sama sekali.

Ilmuwan utama Antelope Wave, Shen Yujun, pernah menunjukkan perbedaan intinya: model generatif di dunia digital dapat mengejar realisme dan resolusi tinggi, sedikit lambat tidak masalah; namun model di dunia fisik, persyaratan utamanya adalah cepat, stabil, dan akurat, mampu memberikan umpan balik secara real-time dan mendukung tindakan. Banyak tim terlalu fokus pada membuat simulasi di dunia digital semakin realistis, tetapi mengabaikan bahwa data interaksi fisik nyata adalah sumber daya paling langka. Model dunia dapat menghasilkan indikator yang bagus dalam simulasi, tetapi selama belum diverifikasi nilai nyatanya di lini produksi pabrik, gudang logistik, atau jalan terbuka, ia tetap hanya merupakan eksplorasi teknis di laboratorium, bukan infrastruktur tingkat industri.

Jadi, model dunia yang dibutuhkan untuk Physical AI atau kecerdasan tubuh seharusnya seperti apa? Jawabannya tidak pernah ada di video demo peluncuran, tetapi di kebutuhan nyata di lapangan. Standar evaluasi intinya bukanlah “seberapa realistis dunia yang dihasilkan”, melainkan “apakah bisa membantu mesin bergerak lebih baik di dunia fisik”, apakah bisa mengurangi biaya percobaan dan kesalahan, apakah bisa meningkatkan kemampuan generalisasi, dan apakah bisa terintegrasi dalam siklus bisnis nyata.

Dari praktik industri saat ini, pemain yang benar-benar berada di jalur yang tepat semuanya melakukan hal yang sama: mengubah model dunia dari "berorientasi presentasi" menjadi "berorientasi tugas". Dengan kata lain, bentuk akhir dari model dunia bukanlah sebuah "produk" independen, melainkan kemampuan dasar yang tertanam dalam berbagai sistem fisik. Ia tersembunyi di latar belakang simulasi kendaraan otonom, di modul perencanaan gerak robot, dan di sistem prediksi lini produksi pabrik, secara diam-diam melakukan tugas prediksi, percobaan, dan koreksi. Sebagian besar waktu, pengguna bahkan tidak menyadari keberadaannya.

Itu adalah era model dunia, meskipun model itu juga bisa disebut bukan model dunia.

Model Dunia dalam Kecerdasan Terwujud: Sebuah Jalur Maju di Luar Generasi Visual

Model dunia tidak sama persis dengan "menghasilkan gambar"

VLA sudah mati? Model dunia bukan revolusi, tapi pengganti

Model dunia belum diterapkan, tetapi sudah ditiupkan semangat konsep yang berlebihan