Artikel ini membincangkan lintasan perkembangan model dunia dalam bidang kecerdasan tubuh. Saat ini terdapat dua pendekatan: "pendekat pengganti" dari Silicon Valley yang mengejar penggantian sepenuhnya VLA dengan WAM, manakala "pendekatan integrasi" yang dominan di dalam negara memandang model dunia sebagai pelengkap kemampuan VLA. Artikel ini menunjukkan bahawa model dunia menghadapi tiga gelembung—definisi yang terlalu luas, rintangan komputasi yang tinggi, dan kesukaran pelaksanaan. Artikel ini berpendapat bahawa model dunia yang sebenarnya harus tertanam dalam lingkaran bisnis nyata, membantu mesin bertindak di dunia fizikal, bukan sekadar mengejar realisme visual.

Penulis artikel, sumber: A Priori Lab

Dari VLA ke WAM, sebuah revolusi yang terlalu dilebih-lebihkan dan evolusi yang terlalu diremehkan.

Dalam separuh tahun terakhir, terdapat dua gelombang perbincangan paling hangat dalam bidang kecerdasan berbadan. Satu berpusat pada skrin: dari Sora hingga pelbagai model penghasilan video yang terus memamerkan kekuatan mereka, butiran halus air yang tumpah dan pergerakan watak dalam ruang berterusan, membawa naratif “AI mencipta semula realiti” ke puncaknya, dengan seruan “Model dunia telah tiba” yang berterusan. Yang lain berpusat pada batu nisan: ilmuwan penyelidik utama NVIDIA, Jim Fan, menggunakan gambar meme yang menunjukkan WAM (World Action Model) berdiri di hadapan batu nisan VLA (Visual-Linguistic-Action Model), mengumumkan “VLA telah mati, hiduplah model dunia”, secara langsung membawa perjuangan jalan kepada permukaan. (Artikel ini hanya membincangkan model dunia dalam kecerdasan berbadan.)

Dua perayaan berkongsi kata kunci utama yang sama: model dunia.

Namun, secara paradoks, semakin banyak orang membincangkan kecerdasan terwujud, semakin kaburlah wajahnya: ada yang memanggil video yang dihasilkan secara realistik sebagai model dunia, ada yang memanggil simulasi gerakan robot sebagai model dunia, dan ada yang memanggil persekitaran simulasi kereta tanpa pemandu sebagai model dunia. Di bawah konsep yang sama, terdapat matlamat teknikal dan tuntutan perniagaan yang sama sekali berbeza.

Bahaya terbesar model dunia semasa ini bukanlah “definisi yang tidak jelas”, tetapi semua orang menggunakan sisi paling mudah dipamerkan dan paling mudah mencipta titik penyebaran untuk mentakrifkan seluruh nilaiinya. Apabila pameran kemahiran “mencipta dunia” mengalahkan esensi “menggunakan dunia”, model dunia sedang dibawa jauh dari tempat sebenarnya yang sepatutnya ia tuju: skenario fizikal sejati AI Fizikal.

Model dunia tentu memerlukan kemampuan untuk “menciptakan dunia”. Tanpa demonstrasi generasi yang menakjubkan itu, ia tidak akan secepat ini memasuki pandangan awam dan modal. Namun, bagi industri Physical AI, menciptakan dunia selalu hanya permulaan masalah. Dunia akhirnya perlu dikendalikan, diverifikasi, dan diperbaiki, sehingga menjadi ruang simulasi dan dasar pengambilan keputusan sebelum mesin bertindak. Generasi video boleh membuka pintu kepada model dunia, tetapi tidak mampu menyelesaikan perjalanan menuju dunia fizikal yang sebenar.

Kita tidak pernah kekurangan konsep baru dan naratif baru; kecerdasan tubuhan pasti akan menemui jalan universalnya sendiri. Pada masa itu, sama ada jalan ini dipanggil VLA, WAM, atau nama lain, mungkin tidak lagi penting.

Setelah semua, ia telah tertanam dalam kehidupan kita.

Model dunia tidak sama dengan "menghasilkan gambar"

Ingat Sora?

Pada masa itu, apabila OpenAI mengeluarkan Sora, tajuk laporannya ialah “Video generation models as world simulators”, yang menyatakan bahawa model penghasilan video berpotensi menjadi jalan yang boleh dilalui menuju “simulator universal dunia fizikal”. Kemampuan Sora pada masa itu dalam menunjukkan video panjang, gerakan kamera, konsistensi 3D tempatan, dan pemeliharaan keadaan objek, membuatkan orang awam merasai secara langsung bahawa AI seolah-olah benar-benar sedang belajar “membina sebuah dunia”. Berbanding teks dan gambar, video secara semula jadi selari dengan persepsi intuitif manusia terhadap “dunia”—ia mempunyai masa, ruang, pergerakan, dan perubahan berterusan, yang mudah mencipta ilusi bahawa model telah menguasai hukum fizikal.

Kemampuan semacam ini secara semula sesuai untuk pameran di acara pelancaran, dan paling mudah menarik perhatian modal dan media. Seiring masa, “penghasilan video = model dunia” menjadi pintu masuk pemahaman yang dianggap biasa oleh ramai orang.

Ini tentu bukan kesalahan. Dalam konteks nombor asli, pendekatan penghasilan video adalah penyelesaian yang cekap, dan sudah muncul banyak syarikat unicorn. Produk mereka boleh digunakan dalam industri permainan untuk menghasilkan adegan dinamik secara masa nyata, mengurangkan kos seni serta meningkatkan kebebasan pemain; dalam bidang-bidang dengan kos percubaan tinggi seperti aerospace dan pembuatan tinggi, ia digunakan untuk memperluas sempadan ujian dan memperkaya skenario simulasi, dengan nilai perniagaan yang jelas. "Dunia" yang dihasilkan pada masa ini bukanlah gambar untuk ditonton penonton, tetapi persekitaran simulasi yang boleh diinteraksi dan diuji secara percubaan.

Salah tafsir sebenar berlaku semasa melintasi batas, apabila model dunia bertemu dengan kecerdasan berbadan, ramai secara lalai menganggap bahawa kerana model mampu menghasilkan dunia digital yang berterusan dan realistik, ia bermakna ia memahami, meramal, dan memiliki kemampuan bertindak dalam dunia fizikal.

Pengesah Institut Penyelidikan Kecerdasan Buatan Zhiyuan Beijing, Wang Zhongyuan, membuat penilaian yang tepat: Teknologi penghasilan video yang kini secara meluas dianggap sebagai perwakilan model dunia, pada dasarnya hanyalah simulasi dunia pada peringkat piksel. “Model penghasil video boleh menghasilkan sekumpulan babi terbang bersama pesawat, kerana data latihannya mengandungi banyak kandungan filem sains fiksyen; matlamatnya bukanlah untuk mengembalikan hukum dunia fizikal yang sebenar.”

Satu skenario tubuh klasik cukup untuk menunjukkan jurangnya: mengambil cawan. Model mampu menghasilkan cawan yang konsisten secara visual dari pelbagai sudut pandang—ini adalah konsistensi visual, yang dipelajari daripada data video; tetapi apabila tangan meregang untuk menyentuhnya, berapa besar geseran? Bahan tersebut mampukah menahan daya genggaman yang sesuai? Apabila cawan jatuh ke atas meja, adakah kerana model mengingat “cawan biasanya berada di atas meja”, atau benar-benar memahami graviti, daya sokongan, dan batasan sentuhan? Respons mekanikal yang kompleks, perubahan keadaan selepas sentuhan, dan batasan sebab-akibat undang-undang fizikal sebenar—semuanya tidak dapat dicakup oleh satu video generatif. Apabila kereta yang bergerak melintang dihasilkan dan dimasukkan ke dalam rantai latihan autonoma tanpa pengesahan, dunia fizikal sebenar pasti akan memberikan balasan yang menyedihkan.

Dengan kata lain, penghasilan video adalah satu bentuk model dunia yang telah diterapkan dalam banyak skenario, tetapi bukan model dunia yang dimaksudkan oleh kecerdasan tubuhan, dan lebih lagi bukan bentuk utama dalam konteks Physical AI. Mendefinisikan model dunia kecerdasan tubuhan dengan efek visual “menciptakan dunia” pada dasarnya menggunakan ukuran dunia digital untuk mengukur masalah dunia fizikal.

VLA sudah mati? Model dunia bukan revolusi, tetapi pengganti

“VLA sudah mati, WAM menggantikan” adalah narasi paling popular di dalam industri.

Dalam dua tahun terakhir, VLA telah menjadi jalan utama dalam kecerdasan berbadan. Ia mengikuti pendekatan pra-pelatihan model bahasa besar, membina pemetaan "persepsi - arahan - tindakan" melalui data pengendalian jauh dalam jumlah besar, membolehkan robot berpindah dari tindakan berulang yang kaku kepada pemahaman bahasa semula jadi dan penguraian tugas yang kompleks. Semua pemain utama dalam industri pernah menggunakan VLA sebagai asas teknologi utama.

Namun, kelemahan VLA sangat jelas: pada dasarnya ia adalah pembelajaran tiruan yang mengandalkan memori dan pemetaan, tanpa pemahaman mendalam terhadap hukum fisika. Ketika menghadapi skenario atau objek baru yang tidak pernah dilihat dalam data, kemampuan generalisasinya akan cepat gagal. Jalur WAM yang diusulkan oleh Jim Fan secara tepat menargetkan titik lemah ini. Logika intinya adalah beralih dari “pemahaman semantik” ke “ramalan fisik”: bukan langsung menghasilkan tindakan, tetapi terlebih dahulu memprediksi keadaan dunia di masa depan, lalu menghitung urutan tindakan secara terbalik—seolah-olah robot tersebut “mengulang ulang” konsekuensi di dalam pikirannya sebelum bertindak, untuk meningkatkan kemampuan beradaptasi terhadap skenario asing.

Oleh itu, teori "revolusi" dengan cepat berkembang, VLA adalah paradigma lama yang usang, sedangkan model dunia adalah jawapan generasi seterusnya untuk kecerdasan berbadan. Namun, dalam amalan industri yang sebenar, perkara jauh lebih rumit daripada sekadar "hidup atau mati".

Industri ini sedang memisahkan menjadi dua lintasan yang jelas, yang didorong oleh falsafah teknologi dan keperluan perniagaan yang berbeza:

Satu aliran dipimpin oleh Silicon Valley, yang diwakili oleh NVIDIA dan Google DeepMind, memanfaatkan kekuatan komputasi dan simpanan data yang melimpah untuk mengejar rekonstruksi paradigma sepenuhnya. NVIDIA dalam Cosmos 3 menggabungkan bahasa, gambar, video, dan urutan tindakan ke dalam satu kerangka model dunia Physical AI yang seragam, berusaha menjadikan generasi, simulasi, dan ramalan tindakan bukan lagi modul yang terpisah; Waymo World Model yang dilancarkan bekerjasama antara Waymo dan Google DeepMind, dengan memanfaatkan kemampuan model Genie 3, tidak hanya digunakan untuk menghasilkan skenario ekstrem seperti cuaca langka atau hewan yang masuk ke jalan, tetapi lebih penting lagi, memastikan skenario-skenario ini dikendalikan oleh tindakan mengemudi, tata letak jalan, dan kondisi bahasa, untuk menguji reaksi sistem pengemudi otonom dalam situasi kontrafaktual.

Jalan ini paling ambisius dan paling sesuai dengan "narasi revolusi", tetapi palang masuknya sangat tinggi, ia adalah permainan raksasa terkemuka.

Satu lagi ialah “gabungan” yang lebih biasa di dalam negara. Kebanyakkan pemain tidak memilih untuk membina semula dari awal, tetapi menggabungkan model dunia sebagai set pelengkap kemampuan VLA, dan memasukkannya ke dalam arsitektur sedia ada. Zhi Square melancarkan model besar VLA berbadan, AlphaBrain, pada Mei 2026. Ia mengambil inspirasi daripada mekanisme pembahagian tugas “otak-serebelum-tubuh” manusia, dengan menggabungkan sistem “cepat-lambat” untuk memasukkan kemampuan “simulasi” model dunia ke dalam arsitektur VLA—sistem lambat bertanggungjawab atas kesedaran situasi persekitaran dan perancangan tingkat tinggi, manakala sistem cepat bertanggungjawab atas pengesanan halus dan maklum balas pantas. Penemui Zhi Square, Guo Yandong, membuat penilaian yang terus terang: “Model dunia dan VLA tidak bertentangan sama sekali; ia sebenarnya merupakan cabang daripada satu garis teknologi yang sama. Jika anda ingin melaksanakan tugas penalaran jangka panjang, anda memerlukan model dunia + VLA, atau menggabungkan model dunia dengan VLA.”

Galaxy General juga mencapai kemajuan yang jauh; model LDA-1B yang mereka rilis pada April tahun ini secara serentak melakukan pembelajaran strategi, ramalan fizikal, dan persepsi visual dalam kerangka seragam, pertama kali menggabungkan model dunia dan model tindakan pada skala parameter 1 miliar peringkat industri. Hasil berkaitan telah dipilih untuk konferensi robotik terkemuka RSS, dan berat model serta kod latihan telah dibuka sumber. Mereka tidak mempersoalkan “pilih VLA atau model dunia”, tetapi lebih praktikal dengan membiarkan ramalan dan pelaksanaan berkongsi model yang sama, masing-masing mengambil kekuatan dan memperbaiki kelemahan.

Dalam pandangan kami, “penggantian” dan “integrasi” tidak memiliki benar atau salah mutlak, hanya pilihan berbeza pada peringkat yang berbeza. VLA tidak akan benar-benar “mati”, dan model dunia bukanlah revolusi yang menghancurkan segalanya; ia mengisi kelemahan paling besar VLA iaitu kemampuan meramal fizikal. Hubungan akhir antara keduanya lebih mungkin merupakan kerjasama bertingkat, bukan saling memusnahkan. Yang benar-benar menentukan keberjayaan jalan ini, bukanlah seberapa moden konsepnya, tetapi siapa yang mampu menghubungkan rantai data, simulasi, dan pelaksanaan mesin sebenar terlebih dahulu, membolehkan robot benar-benar memasuki skenario sebenar.

Model dunia belum dilaksanakan, tetapi konsepnya sudah ditiupkan secara berlebihan

Apabila populariti konsep melangkaui pelaksanaan teknologi, gelembung hampir pasti menjadi hasilnya. Dalam lintasan model dunia semasa, sekurang-kurangnya telah muncul tiga gelembung yang perlu diwaspadai.

Tahap pertama ialah mentakrif gelembung. "Model dunia" hari ini telah menjadi bakul yang boleh memuatkan apa sahaja. Yann LeCun menganggapnya sebagai ramalan keadaan dunia pada lapisan abstrak, Li Feifei mentakrifkannya sebagai perwakilan ruang 3D yang boleh diinteraksi, NVIDIA menempatkannya sebagai simulator generatif AI fizikal, sementara syarikat rintisan ada yang menggunakan penghasilan video sebagai pengganti, dan ada yang hanya menukar nama enjin simulasi tradisional menjadi "model dunia". Di dalam negara, sudah ada puluhan syarikat yang mengumumkan pelaburan dalam model dunia, tetapi mungkin mereka tidak membicarakan perkara yang sama. Apabila satu konsep teknologi boleh ditafsirkan tanpa had, ia sering kehilangan makna sebagai tolok ukur teknikal. Di sebalik generalisasi definisi ini terdapat dorongan bersama daripada keperluan pembiayaan dan naratif pemasaran, kerana memanggilnya "model dunia" jauh lebih bernilai berbanding "alat penghasilan video" atau "penyelesaian pengoptimuman simulasi".

Tahap kedua ialah gelembung kuasa pengiraan. Jalur latihan utama untuk model dunia berdasarkan pada data video dalam jumlah besar dan kuasa pengiraan yang sangat tinggi, yang mana inilah medan utama NVIDIA. Huang Jensen secara terus terang menyatakan di konvensyen GTC bahawa chip Blackwell dan Rubin, serta sistem pelengkap yang direka untuk model kecerdasan badani dan sebagainya, akan membawa pendapatan sekurang-kurangnya $1 trilion kepada NVIDIA pada tahun 2027. Dalam beberapa segi, pendekatan “model dunia universal multimodal” yang didorong oleh pemain utama di Silicon Valley sendiri sangat sejajar dengan logik perniagaan NVIDIA “menjual infrastruktur kuasa pengiraan”. Namun, ambang masuk ke jalur ini merupakan jurang tanpa dasar bagi kebanyakan syarikat; pasukan kecil yang sebelumnya menumpukan pada VLA pun sudah sukar menanggung kos terbenam sebesar ini, apatah lagi memulakan dari sifar dalam litar model dunia. Apabila semua orang membincangkan jalur kuasa pengiraan tinggi yang sama, tetapi sedikit sekali yang mampu mengira nisbah input terhadap output, inilah isyarat gelembung itu sendiri.

Yang ketiga dan paling mematikan ialah gelembung yang meletus. Semua naratif konsep akhirnya harus menjawab satu soalan yang sama: adakah ia benar-benar dapat meningkatkan prestasi mesin sebenar? Namun, kenyataannya, jurang perpindahan dari simulasi ke dunia nyata tidak akan hilang secara automatik hanya kerana nama model berubah dari VLA kepada WAM. Satu kesalahan halus seperti tembusan, anti-graviti, atau sempadan kabur dalam video akan menjadi kepercayaan fizikal yang salah apabila diterapkan dalam latihan robot; satu ramalan yang kelihatan munasabah tetapi bertentangan dengan hukum fizik boleh menyesatkan mesin sebenar lebih teruk daripada tidak menggunakan model untuk latihan sama sekali.

Ahli sains utama Ant Spirit Wave, Shen Yujun, pernah menekankan perbezaan utama: model generatif di dunia digital boleh mengejar ketajaman dan realisme tinggi, sedikit perlahan tidak menjadi masalah; tetapi model di dunia fizikal, keperluan utama ialah pantas, stabil, dan tepat, mampu mengeluarkan maklum balas secara masa nyata dan menyokong tindakan. Banyak pasukan terlalu fokus pada merender skenario semakin realistik di dunia digital, tetapi mengabaikan data interaksi fizikal sebenar sebagai sumber yang paling langka. Model dunia boleh mencapai indikator yang cantik dalam simulasi, tetapi selagi belum menguji nilai sebenar di lini pengeluaran pabrik, gudang logistik, atau jalan terbuka, ia tetap merupakan eksplorasi teknologi di makmal, bukan infrastruktur perindustrian.

Jadi, model dunia yang diperlukan untuk AI fizikal atau kecerdasan berajen sepatutnya seperti apa? Jawapannya tidak pernah terdapat dalam video demonstrasi pelancaran, tetapi dalam keperluan skenario sebenar. Kriteria penilaian utamanya bukanlah “seberapa realistik dunia yang dihasilkan”, tetapi “mampukah ia membantu mesin bergerak lebih baik di dunia fizikal”, mampukah ia mengurangkan kos percubaan dan kesilapan, meningkatkan kemampuan generalisasi, dan menyatu dalam kitaran perniagaan sebenar.

Dari amalan semasa dalam industri, pemain yang benar-benar berada di arah yang betul semuanya melakukan perkara yang sama: mengubah model dunia dari "berorientasikan paparan" kepada "berorientasikan tugas". Dengan kata lain, bentuk akhir model dunia bukanlah sebuah "produk" yang berdiri sendiri, tetapi kemampuan asas yang tertanam dalam pelbagai sistem fizikal. Ia tersembunyi di latar belakang simulasi pemanduan autonomi, di modul perancangan gerakan robot, dan di sistem ramalan lini pengeluaran kilang, secara diam-diam menjalankan tugas ramalan, percubaan, dan penyesuaian. Pada kebanyakan masa, pengguna bahkan tidak menyedari kehadirannya.

Itu adalah zaman model dunia, walaupun ia juga boleh tidak dipanggil model dunia.

Model Dunia dalam Kecerdasan Berbadan: Jalan Maju Melampaui Penghasilan Visual

Model dunia tidak sama dengan "menghasilkan gambar"

VLA sudah mati? Model dunia bukan revolusi, tetapi pengganti

Model dunia belum dilaksanakan, tetapi konsepnya sudah ditiupkan secara berlebihan