Pasukan Li Fei-Fei Mengklarifikasikan Konsep 'Model Dunia', Sora Diklasifikasikan Sebagai Pemproses Gambar

Pada 3 Jun 2026, pasukan World Labs bekerjasama dengan Profesor Li Fei-Fei dari Universiti Stanford menerbitkan satu artikel analisis konsep dengan tajuk yang langsung tanpa sebarang penyempurnaan: “Klasifikasi Fungsi Model Dunia.” Ayat pertama artikel tersebut secara terus menyingkap satu kesepakatan industri: “Model dunia adalah salah satu istilah paling penting dan paling disalahgunakan dalam bidang kecerdasan buatan semasa ini.”

Latar belakang ayat ini, siapa sahaja yang memperhatikan industri AI tidak akan asing dengannya.

Pada Februari 2024, OpenAI melancarkan model penghasil video Sora, dengan tajuk laporan teknikalnya yang secara jelas menyatakan: “Model Penghasil Video sebagai Simulator Dunia”. Pada masa yang sama, Jim Fan, Pengarah Robotik NVIDIA, meninggalkan satu komen di LinkedIn yang kemudian sering dikutip: Sora pada dasarnya adalah “model dunia yang hanya membenarkan tindakan tanpa tindakan sebagai satu-satunya tindakan”. Di sisi lain, menurut laporan awam, pasukan AI Tesla telah berulang kali merujuk kepada komponen ramalan dalam sistem pemanduan penuh automatik mereka sebagai “model dunia” atau “simulator dunia”. Pelbagai produk dan teknologi—seperti enjin permainan, alat penghasilan 3D, dan model kecerdasan berbadan—semuanya dimasukkan ke dalam satu kotak yang sama dan diberi label yang sama.

Sebuah penghasil video, sebuah rangkaian ramalan auto-pemandu, sebuah model kawalan robot, sebuah enjin fizikal, apakah persamaan mereka? Hampir tiada. Tetapi semuanya dipanggil “model dunia”.

Selepas lebih dari dua tahun kekeliruan konsep, akhirnya ada yang cuba mengaturkannya secara sistematik. Pasukan Li Fei-Fei kali ini tidak melancarkan model baru, tidak mengumumkan piawaian baru, dan tidak mempersembahkan sebarang fungsi produk. Mereka melakukan perkara yang lebih asas: kembali kepada sumber teori proses keputusan Markov yang sebahagian boleh dilihat, dan mereduksikan semua sistem yang dipanggil “model dunia” di pasaran kepada tiga projeksi fungsi berbeza dalam satu kitaran kognitif yang sama.

Tiga projeksi ialah: renderer, simulator, perancang. Dalam kerangka klasifikasi World Labs, Sora dan model penghasil video sejenisnya termasuk dalam renderer.

Mengapa satu istilah boleh memuatkan begitu banyak maksud yang saling bertentangan?

Untuk memahami punca kekacauan ini, perlu terlebih dahulu menanyakan soalan yang lebih asas: Apa yang dimaksudkan oleh sebuah syarikat apabila ia berkata, “Kami sedang membuat model dunia”?

Bagi OpenAI, matlamat Sora ialah “memahami dan mempersembahkan dunia fizikal dalam video”. Berdasarkan laporan teknikal, Sora mampu menghasilkan gambar yang selaras dengan akal visual melalui pembelajaran pola statistik daripada data video dalam jumlah besar: cawan yang jatuh ke lantai akan pecah, kapal kertas yang dilepaskan akan terbang, dan orang yang berjalan akan mengayunkan kaki secara bergantian. Gambar-gambar ini kelihatan “memahami fizik”.

Bagi Tesla, "world model" ialah rangka saraf dalam sistem FSD yang meramalkan trajektori pergerakan peserta jalan dalam beberapa saat ke depan. Ia perlu menghasilkan posisi 3D, kelajuan, dan arah yang tepat untuk modul perancangan laluan mengira keputusan memandu yang selamat. Model ini tidak perlu menghasilkan piksel; ia menghasilkan vektor dan taburan kebarangkalian.

Bagi syarikat robot, "model dunia" adalah mekanisme simulasi dalaman yang membolehkan lengan robot meramal "Jika saya tolak cawan ini ke kiri sejauh 5 cm, ia akan terjatuhkah?" Ia perlu memahami sifat objek, mekanik sentuhan, dan kestabilan, dengan output berupa penilaian kebolehlaksanaan tindakan.

Tujuan tiga jenis syarikat ini sama sekali berbeza. Syarikat penghasilan video mengutamakan ketepatan pixel, syarikat pengendalian automatik mengutamakan ketepatan ramalan keadaan fizikal, dan syarikat robotik mengutamakan kebolehterbitan kesan tindakan. Ketiga-tiganya melakukan “model dunia”, tetapi mereka tidak melakukan perkara yang sama.

World Labs dalam artikelnya secara langsung menyoroti inti masalah: sistem-sistem ini diberi nama yang sama kerana memang masing-masing membawa satu aspek daripada "memahami dunia". Namun, setiap sistem hanya menyelesaikan satu peringkat dalam kitaran pemahaman yang lengkap, tetapi diubah menjadi model dunia yang lengkap melalui bahasa pemasaran, liputan media, dan naratif modal.

Pendorong lain kekeliruan konsep ialah ketegangan dalam terminologi itu sendiri. Istilah "model dunia" membawa sifat naratif besar, terdengar lebih imaginatif berbanding "model penghasilan video" atau "model ramalan video", dan lebih mampu menyokong penilaian tinggi serta cerita pembiayaan. Apabila kemampuan teknikal tidak sejajar dengan harapan awam, konsep tersebut menjadi alat promosi adalah suatu kepastian.

Pada tahun 1960-an, apa yang sepatutnya menjadi “model dunia” yang lengkap?

Kerangka klasifikasi World Labs didasarkan pada teori yang kelihatannya sudah lama: Proses Keputusan Markov yang Sebahagian Dapat Dipantau.

Rangka ini menggambarkan kitaran penuh interaksi antara agen dan persekitaran. Agen berada dalam keadaan persekitaran tertentu, ia menjalankan tindakan, tindakan tersebut mengubah keadaan persekitaran, agen memperoleh pengamatan sebahagian melalui sensor, pengamatan tersebut memicu pembaharuan keadaan dalaman, dan kognisi yang telah diperbaharui mendorong tindakan seterusnya. Kitaran ini berulang.

Dalam kerangka ini, fungsi penuh "model dunia" harus merangkumi tiga peringkat: menghasilkan pengamatan daripada keadaan (pixel, titik awan, dsb. yang dilihat oleh mata manusia atau dikumpul oleh sensor), menghuraikan keadaan seterusnya daripada tindakan dan keadaan semasa (memprediksi perubahan fizikal), dan menghasilkan tindakan daripada pengamatan dan matlamat (perancangan keputusan).

Model bahasa mempelajari pola statistik urutan teks, manakala model dunia mempelajari ciri statistik ruang dan masa. Bagaimana cahaya dipantulkan pada permukaan bahan yang berbeza, bagaimana objek bergerak di bawah kesan graviti, dan bagaimana tenaga dipindahkan selepas perlanggaran benda tegar—inilah pola yang perlu ditangkap oleh model dunia.

Pasukan World Labs menunjukkan dalam artikel itu bahawa semua sistem yang kini dipanggil "model dunia" sebenarnya hanyalah proyeksi satu peringkat tertentu dalam kitaran penuh tersebut. Sesetengah sistem hanya melakukan pemerian "dari keadaan ke pengamatan", sesetengah hanya melakukan inferens keadaan "dari tindakan ke keadaan seterusnya", dan sesetengah hanya melakukan perancangan "dari pengamatan ke tindakan". Masing-masing mengambil sebahagian lengkung kitaran itu, tetapi diberi label yang mewakili bulatan penuh.

Nilai kerangka analisis ini terletak pada penyediaan sistem perbandingan yang melampaui retorika pemasaran. Tidak peduli bagaimana sebuah syarikat membungkus produknya, selagi ia diletakkan semula ke dalam kitaran POMDP, diperhatikan apa yang dimasukkan, apa yang dikeluarkan, dan bahagian mana yang hilang, batasan kemampuannya akan terdedah dengan jelas.

Tepi kemampuan tiga jenis proyeksi: renderer, simulator, planner

Dalam taksonomi World Labs, kelas pertama didefinisikan sebagai "renderer". Matlamat utamanya adalah menghasilkan output pixel beresolusi tinggi yang dirancang untuk persepsi visual manusia. Inputnya adalah representasi keadaan persekitaran (bisa berupa deskripsi teks, parameter adegan 3D, atau kod tersirat), dan outputnya adalah urutan gambar secara berterusan, frame demi frame.

Arah pengoptimuman renderer adalah realisme visual, bukan ketepatan fizikal. Artikel World Labs dengan jelas menyatakan bahawa bangunan yang dihasilkan oleh renderer mungkin “bergoyang-goyang” kerana ia tidak benar-benar menyelesaikan persamaan mekanik struktur; percikan cecair yang dihasilkan mungkin kelihatan realistik, tetapi isipadu cecair, kadar aliran, dan daya kesan mungkin tidak sepadan sama sekali dengan kuantiti fizikal sebenar. Oleh itu, model sebegini tidak boleh digunakan untuk reka bentuk bangunan, latihan robot, atau sebarang tugas yang memerlukan simulasi fizikal yang tepat.

Genie 3 Google, pelbagai model penukaran teks ke video, serta hampir semua alat penghasilan video AI, semuanya termasuk dalam kategori ini. Sora juga termasuk di dalamnya.

Kategori kedua ialah "simulator". Matlamat utamanya bukan untuk menghasilkan gambar yang ditujukan untuk dilihat oleh manusia, tetapi untuk menghasilkan keadaan yang tepat yang boleh digunakan untuk pengiraan seterusnya. Inputnya ialah keadaan persekitaran semasa dan daya luaran (atau tindakan), manakala outputnya ialah keadaan seterusnya yang setia secara fizikal dan geometri kepada hukum dunia nyata. Keadaan yang dihasilkan oleh simulator boleh digunakan untuk analisis tekanan, pengiraan penggunaan tenaga, dan pengesanan perlanggaran, serta boleh menjadi input kepada renderer untuk menghasilkan gambar visual, tetapi nilai utamanya terletak pada kebolehkomputasian keadaan itu sendiri.

NVIDIA Omniverse adalah contoh klasik sistem semacam ini. Ia bukan model asli AI, tetapi sebuah platform digital twin yang menggabungkan enjin fizik tradisional dengan pengiraan dipercepat AI. World Labs menilai dalam artikel tersebut bahawa simulator ialah jambatan yang menghubungkan rendering dan perancangan, tetapi kekurangan data pelabelan fizik 3D berkualiti tinggi merupakan halangan utama. Menurut anggaran World Labs dalam artikel tersebut, data yang digunakan untuk melatih model semacam ini kurang beberapa peringkat daripada data video yang boleh diperoleh di internet.

Kategori ketiga ialah “perancang”. Inputnya ialah data pengamatan (gambar kamera, awan titik lidar, bacaan sensor sentuhan, dsb.) dan arahan tujuan, manakala outputnya ialah tindakan seterusnya yang perlu dilaksanakan. Model VLA (visual-bahasa-tindakan) dan World Action Models termasuk dalam kategori ini.

Perbezaan antara tiga kategori bukanlah perbezaan halus dalam jalan teknikal, tetapi pemisahan fungsi yang mendasar. Renderer mengeluarkan piksel untuk dilihat oleh manusia, simulator mengeluarkan keadaan untuk dikira oleh mesin, dan perancang mengeluarkan tindakan untuk dijalankan oleh pelaksana. Satu sistem boleh memiliki pelbagai kemampuan secara serentak, tetapi apabila kebanyakan sistem yang dipanggil "model dunia" pada dasarnya hanya melakukan rendering, menganggap "rendering" sebagai "memahami dunia" adalah ketidaksesuaian kognitif yang serius.

Perdebatan yang berlangsung selama dua tahun, adakah Sora itu model dunia

Pada Februari 2024, OpenAI melancarkan Sora, dengan tajuk laporan teknikal yang secara langsung menyatakan “Model penghasilan video sebagai simulator dunia.” Penggunaan istilah ini segera memicu perdebatan sengit di kalangan akademik dan komuniti pembangun.

Pengikut percaya bahawa video yang dihasilkan oleh Sora menunjukkan konsistensi ruang 3D, kekalnya objek, dan pemahaman intuitif terhadap interaksi fizikal. Sebuah hamburger yang digigit akan meninggalkan kesan gigi, seekor anjing yang berlari di atas salji akan memercikkan kepingan salji—perincian ini kelihatan menunjukkan bahawa model telah mempelajari beberapa hukum fizikal.

Hujah utama lawan berasal dari definisi klasik model dunia dalam bidang pembelajaran berpenguatan: model dunia mesti mampu meramalkan peralihan keadaan berdasarkan tindakan. Dengan kata lain, diberikan keadaan semasa dan input tindakan, model harus menghasilkan keadaan seterusnya selepas tindakan tersebut. Sora tidak mampu melakukan ini. Pengguna tidak boleh memberi arahan kepada Sora untuk “menolak cawan itu dari sebelah kiri”, kemudian memantau sama ada cawan itu akan jatuh, ke arah mana ia jatuh, atau ke mana serpihannya terbang.

Ulasan Jim Fan secara tepat menangkap kontradiksi ini: “Sora pada dasarnya adalah model dunia, hanya sahaja ia hanya membenarkan no-op sebagai tindakan tunggal.” Maksudnya, Sora memang meramalkan perubahan persekitaran seiring masa, tetapi proses perubahan ini tidak dipengaruhi oleh sebarang campur tangan luaran, dan hanya boleh bergerak mengikut rantai sebab-akibat yang melekat dalam data video. Ia bukan melakukan inferensi interaktif, tetapi melanjutkan urutan pemerhatian pasif.

Di sub-reddit Reddit r/MachineLearning, ramai penyelidik pembelajaran penguatan mengungkapkan kritikan yang lebih tajam: sistem yang tidak mampu meramalkan peralihan keadaan berdasarkan tindakan tidak boleh dipanggil model dunia, hanya boleh dipanggil model ramalan video.

Kerangka klasifikasi World Labs memberikan jawapan definitif terhadap perdebatan ini. Dalam kitaran POMDP, tindakan adalah input penting yang mendorong peralihan keadaan; sistem yang kehilangan input ini hanyalah projeksi daripada bahagian "penghasilan pengamatan" dalam kitaran kognitif yang lengkap. Sora adalah renderer, bukan model dunia yang lengkap, dan lebih lagi bukan simulator dunia.

Tetapi ini tidak bermakna Sora tidak mempunyai nilai. Renderer menyelesaikan masalah yang berbeza: bagaimana menghasilkan gambar yang memenuhi jangkaan visual manusia. Masalah ini sendiri sangat sukar dan mempunyai nilai komersial yang besar. Masalahnya ialah, membungkus kemampuan rendering sebagai kemampuan “memahami dunia” akan menyesatkan pemutus teknologi dan pelabur, menyebabkan mereka menyangka model-model ini telah memiliki kemampuan penarikan fizikal atau interaksi berbadan.

Nilai industri dalam penerangan konsep

Mengklarifikasikan sempadan definisi "model dunia" bukanlah sekadar perdebatan akademik yang bersifat harfiah. Ia secara langsung mempengaruhi pemilihan teknologi, penilaian pelaburan, dan tahap persepsi awam terhadap kemampuan AI.

Bagi sebuah syarikat pembuatan yang sedang menilai sama ada menggunakan “model dunia” tertentu untuk latihan robot, memahami sama ada model tersebut adalah renderer, simulator, atau planner adalah syarat penting untuk mengelakkan kos percubaan dan kesilapan berjuta-juta dolar. Sebuah model yang hanya mampu menghasilkan gambar video, sekalipun sangat realistik, tidak boleh menggantikan pengiraan tepat mengenai daya, trajektori pergerakan, dan kesan perlanggaran objek.

Bagi institusi pelaburan, membezakan tiga kategori proyeksi bermaksud mampu mengenal pasti kedudukan teknologi projek dengan lebih tepat. Sebuah syarikat rintisan yang mengklaim dirinya sebagai “model dunia”, tetapi produknya pada dasarnya adalah renderer, pesaingnya ialah syarikat penghasilan video, bukan platform digital twin atau model kawalan robot. Ini secara langsung menentukan cara pengiraan saiz pasaran dan pemilihan syarikat pembanding.

Bagi kalangan akademik, pengelasan yang jelas adalah prasyarat untuk membina tolok ukur yang boleh dibandingkan. Jika istilah "model dunia" terus digunakan secara meluas, penyelidik akan mengalami kesukaran untuk menentukan apa yang dianggap sebagai peningkatan atau lompatan besar, dan penilaian rakan sebaya akan berasaskan keambiguan.

World Labs juga menunjukkan dalam artikel tersebut bahawa penjelasan konsep bukanlah untuk menciptakan pertentangan. Arah perkembangan masa depan akan menjadi perpaduan ketiga-tiga projeksi ini. Model yang benar-benar memahami sifat fizikal cawan seharusnya mampu merender penampilan visualnya, mensimulasikan proses fizikal apabila ia terjatuh, dan merancang bagaimana tangan mekanik boleh mengambilnya dengan stabil. Tetapi sebelum teknologi mencapai tahap itu, memahami sempadan masing-masing lebih bermakna secara praktikal daripada hanya membayangkan perpaduan.

Menurut perkiraan World Labs dalam artikel tersebut, teknologi simulasi dan digital twin, seperti NVIDIA Omniverse, menargetkan pasaran berpotensi lebih daripada trilion dolar AS di bidang-bidang seperti pabrik, gudang, dan rangkaian bekalan. Nombor ini berasal dari penilaian pihak pembuat sendiri, dan masa pasaran akan mencapai skala ini bergantung kepada sama ada simulasi mampu mengatasi halangan kekurangan data fizikal 3D berkualiti tinggi.

Bagi peringkat semasa industri AI, pemahaman paling penting mungkin sangat mudah: mampu menghasilkan video yang realistik tidak bermakna memahami dunia fizikal; dipanggil model dunia tidak bermakna benar-benar mensimulasikan dunia. Menembus bahasa pemasaran, memeriksa apa input yang diterima sistem dalam kitaran POMDP, hasil apa yang dihasilkan, dan bahagian mana yang hilang, adalah cara paling jujur untuk menilai sempadan kemampuan teknikal.