Tim Li Fei-Fei Menjelaskan Konsep 'World Model', Sora Diklasifikasikan sebagai Renderer

Pada 3 Juni 2026, tim World Labs bekerja sama dengan Profesor Li Fei-Fei dari Universitas Stanford merilis sebuah artikel analisis konseptual dengan judul yang sangat langsung tanpa banyak hiasan: “Klasifikasi Fungsional Model Dunia.” Kalimat pertama artikel tersebut langsung mengungkap sebuah kesepakatan industri: “Model dunia adalah salah satu istilah paling penting dan paling disalahgunakan di bidang kecerdasan buatan saat ini.”

Latar belakang kalimat ini, siapa pun yang pernah mengikuti industri AI pasti sudah tidak asing lagi.

Pada Februari 2024, OpenAI merilis model generasi video Sora, dengan judul laporan teknis yang secara jelas menyatakan: “Model Generasi Video sebagai Simulator Dunia.” Pada saat itu, Jim Fan, Direktur Robotika NVIDIA, meninggalkan komentar di LinkedIn yang kemudian sering dikutip ulang: Sora pada dasarnya adalah “model dunia yang hanya mengizinkan tidak melakukan apa-apa sebagai satu-satunya tindakan.” Di sisi lain, menurut laporan publik, tim AI Tesla telah berulang kali menyebut komponen prediksi dalam sistem self-driving penuh mereka sebagai “model dunia” atau “simulator dunia.” Mesin game, alat generasi 3D, dan model kecerdasan tubuh—berbagai produk dan teknologi—semuanya dimasukkan ke dalam satu keranjang dan diberi label yang sama.

Sebuah generator video, sebuah jaringan prediksi mobil otonom, sebuah model kontrol robot, dan sebuah mesin fisika—apa persamaan mereka? Hampir tidak ada. Tetapi semuanya disebut sebagai "world model".

Kebingungan konsep yang berlangsung lebih dari dua tahun ini akhirnya ada yang mencoba menyusunnya secara sistematis. Tim Li Fei-Fei kali ini tidak merilis model baru, tidak mengumumkan benchmark baru, dan tidak mendemonstrasikan fitur produk apa pun. Mereka melakukan sesuatu yang lebih mendasar: kembali ke sumber teoretis proses keputusan Markov sebagian teramati, dan mereduksi semua sistem yang disebut sebagai “model dunia” di pasar menjadi tiga proyeksi fungsional berbeda dari satu siklus kognitif yang sama.

Tiga proyeksi tersebut adalah: renderer, simulator, dan planner. Dalam kerangka klasifikasi World Labs, Sora dan model generasi video sejenisnya termasuk dalam kategori renderer.

Mengapa satu istilah bisa memuat begitu banyak makna yang saling bertentangan?

Untuk memahami akar kekacauan ini, perlu terlebih dahulu menanyakan pertanyaan yang lebih mendasar: ketika sebuah perusahaan mengatakan “Kami sedang membuat model dunia,” apa sebenarnya yang mereka maksud?

Bagi OpenAI, tujuan Sora adalah "memahami dan merepresentasikan dunia fisik dalam video". Dari laporan teknis, Sora mampu menghasilkan gambar yang sesuai dengan akal sehat visual dengan mempelajari pola statistik dari data video dalam jumlah besar: cangkir yang jatuh ke lantai akan pecah, pesawat kertas yang dilepaskan akan terbang, dan orang yang berjalan akan menggerakkan kaki secara bergantian. Gambar-gambar ini tampak "memahami fisika".

Bagi Tesla, "world model" adalah jaringan saraf dalam sistem FSD yang memprediksi lintasan pergerakan peserta jalan dalam beberapa detik ke depan. Model ini perlu menghasilkan posisi 3D, kecepatan, dan orientasi yang akurat, agar modul perencanaan jalur dapat menghitung keputusan mengemudi yang aman. Model ini tidak perlu menghasilkan piksel; ia menghasilkan vektor dan distribusi probabilitas.

Bagi perusahaan robot, "world model" adalah mekanisme simulasi internal yang memungkinkan lengan robot memprediksi "Jika saya mendorong cangkir ini ke kiri sejauh 5 cm, apakah ia akan jatuh?" Ini memerlukan pemahaman tentang sifat-sifat objek, mekanika kontak, dan stabilitas, dengan output berupa evaluasi kelayakan tindakan.

Tujuan ketiga jenis perusahaan ini sama sekali berbeda. Perusahaan generasi video peduli pada keakuratan piksel, perusahaan mobil otonom peduli pada akurasi prediksi keadaan fisik, dan perusahaan robotika peduli pada kemampuan menurunkan konsekuensi tindakan. Mereka semua melakukan "model dunia", tetapi sebenarnya tidak melakukan hal yang sama.

World Labs secara langsung menyoroti inti masalah dalam artikelnya: sistem-sistem ini diberi nama yang sama karena memang masing-masing membawa satu sisi dari "memahami dunia". Namun, masing-masing hanya menyelesaikan satu tahap dalam siklus pemahaman lengkap, namun diubah menjadi model dunia yang utuh melalui bahasa pemasaran, liputan media, dan narasi modal.

Pendorong lain dari kebingungan konsep adalah ketegangan dalam istilah itu sendiri. Istilah "world model" membawa atribut narasi besar, terdengar lebih imajinatif dibandingkan "video generation model" atau "video prediction model", dan lebih mampu mendukung valuasi tinggi serta cerita pendanaan. Ketika kemampuan teknis tidak dapat menyamai harapan publik, konsep tersebut tak terhindarkan menjadi alat promosi.

Pada tahun 1960-an, apa seharusnya "model dunia" yang lengkap

Kerangka klasifikasi World Labs didasarkan pada teori yang tampaknya kuno: proses keputusan Markov yang sebagian teramati.

Kerangka ini menggambarkan siklus lengkap interaksi antara agen dan lingkungan. Agen berada dalam keadaan lingkungan tertentu, melakukan tindakan yang mengubah keadaan lingkungan, lalu mendapatkan pengamatan sebagian melalui sensor, yang memicu pembaruan keadaan internal. Kognisi yang diperbarui kemudian mendorong tindakan berikutnya. Siklus ini berulang terus-menerus.

Dalam kerangka ini, fungsi lengkap dari "world model" harus mencakup tiga tahap: menghasilkan pengamatan dari keadaan (pixel, titik awan, dll. yang dilihat mata manusia atau dikumpulkan oleh sensor), memprediksi keadaan berikutnya dari tindakan dan keadaan saat ini (memprediksi perubahan fisik), serta menghasilkan tindakan dari pengamatan dan tujuan (perencanaan keputusan).

Model bahasa mempelajari pola statistik dari urutan teks, sedangkan model dunia mempelajari karakteristik statistik ruang dan waktu. Bagaimana cahaya memantul di permukaan berbagai bahan, bagaimana objek bergerak di bawah pengaruh gravitasi, dan bagaimana energi ditransfer setelah tabrakan benda kaku—inilah pola yang ingin ditangkap oleh model dunia.

Tim World Labs menunjukkan dalam artikelnya bahwa semua sistem yang saat ini disebut sebagai "model dunia" sebenarnya hanyalah proyeksi dari salah satu tahap dalam siklus lengkap tersebut. Beberapa sistem hanya melakukan rendering "dari status ke observasi", beberapa hanya melakukan inferensi status "dari tindakan ke status berikutnya", dan beberapa hanya melakukan perencanaan "dari observasi ke tindakan". Masing-masing memotong sebagian busur siklus, tetapi memberi label yang mewakili lingkaran penuh.

Nilai kerangka analisis ini terletak pada penyediaan sistem koordinat perbandingan yang melampaui narasi pemasaran. Tidak peduli bagaimana sebuah perusahaan membungkus produknya, selama ditempatkan kembali ke dalam siklus POMDP, dilihat apa yang menjadi inputnya, outputnya, dan bagian mana yang hilang, batasan kemampuannya akan terungkap secara jelas.

Batas kemampuan renderer, simulator, dan planner

Dalam taksonomi World Labs, kategori pertama didefinisikan sebagai "renderer". Tujuan utamanya adalah menghasilkan output piksel beresolusi tinggi yang dirancang untuk persepsi visual manusia. Inputnya adalah representasi dari keadaan lingkungan (bisa berupa deskripsi teks, parameter adegan 3D, atau encoding implisit), dan outputnya adalah rangkaian gambar berurutan frame per frame.

Arah optimasi renderer adalah realisme visual, bukan ketepatan fisik. Artikel World Labs secara jelas menyatakan bahwa bangunan yang dihasilkan renderer mungkin “tidak stabil”, karena tidak benar-benar menyelesaikan persamaan mekanika struktural; percikan cairan yang dihasilkan mungkin terlihat realistis, tetapi volume cairan, kecepatan aliran, dan gaya dampaknya mungkin sama sekali tidak sesuai dengan nilai fisik nyata. Oleh karena itu, model semacam ini tidak dapat digunakan untuk desain arsitektur, pelatihan robot, atau tugas-tugas yang memerlukan simulasi secara fisik akurat.

Genie 3 dari Google, berbagai model text-to-video, serta hampir semua alat generasi video AI termasuk dalam kategori ini. Sora juga termasuk di dalamnya.

Kategori kedua adalah "simulator". Tujuan utamanya bukan menghasilkan gambar yang dilihat manusia, melainkan menghasilkan status yang akurat untuk digunakan dalam perhitungan selanjutnya. Inputnya adalah status lingkungan saat ini dan gaya eksternal (atau tindakan), sedangkan outputnya adalah status berikutnya yang secara fisik dan geometris setia terhadap hukum dunia nyata. Status yang dihasilkan oleh simulator dapat digunakan untuk analisis tegangan, perhitungan konsumsi energi, deteksi tabrakan, atau sebagai input bagi renderer untuk menghasilkan visualisasi gambar, tetapi nilai intinya terletak pada kemampuan komputasi dari status itu sendiri.

NVIDIA Omniverse adalah contoh khas sistem semacam ini. Bukan model native AI, melainkan platform digital twin yang menggabungkan mesin fisika tradisional dan komputasi dipercepat AI. World Labs menilai dalam artikelnya bahwa simulator adalah jembatan yang menghubungkan rendering dan perencanaan, tetapi kelangkaan data pelabelan fisika 3D berkualitas tinggi merupakan hambatan utama. Menurut perkiraan World Labs dalam artikel tersebut, data yang digunakan untuk melatih model semacam ini jauh lebih sedikit beberapa orde dibandingkan data video yang tersedia di internet.

Kategori ketiga adalah "perencana". Inputnya adalah data pengamatan (gambar kamera, titik awan laser radar, pembacaan sensor sentuhan, dll.) dan perintah tujuan, sedangkan outputnya adalah tindakan berikutnya yang harus dilakukan. Model VLA (visual-language-action) dan World Action Models termasuk dalam kategori ini.

Perbedaan antara tiga kategori ini bukanlah perbedaan kecil dalam jalur teknis, melainkan diferensiasi fungsional yang mendasar. Renderer menghasilkan piksel untuk dilihat manusia, simulator menghasilkan status untuk dihitung mesin, dan planner menghasilkan tindakan untuk dijalankan aktuator. Sebuah sistem dapat memiliki berbagai kemampuan sekaligus, tetapi ketika sebagian besar sistem yang disebut "world model" pada dasarnya hanya melakukan rendering, menyamakan "rendering" dengan "memahami dunia" adalah kesalahan kognitif yang serius.

Perdebatan selama dua tahun, apakah Sora benar-benar model dunia

Pada Februari 2024, OpenAI merilis Sora, dengan judul laporan teknis yang secara langsung menyatakan “Model generasi video sebagai simulator dunia.” Penggunaan istilah ini segera memicu perdebatan sengit di kalangan akademisi dan komunitas pengembang.

Pendukung berpendapat bahwa video yang dihasilkan Sora menunjukkan konsistensi ruang 3D, keberlanjutan objek, dan pemahaman intuitif tertentu terhadap interaksi fisik. Sebuah hamburger yang telah digigit akan meninggalkan bekas gigi, seekor anjing yang berlari di salju akan menimbulkan percikan salju, detail-detail ini tampaknya menunjukkan bahwa model telah mempelajari beberapa hukum fisika.

Argumen inti para penentang berasal dari definisi klasik model dunia dalam bidang pembelajaran penguatan: sebuah model dunia harus mampu memprediksi transisi status berdasarkan tindakan. Artinya, diberikan status saat ini dan input tindakan, model harus menghasilkan status berikutnya setelah tindakan tersebut. Sora tidak dapat melakukan hal ini. Pengguna tidak dapat memerintahkan Sora “mendorong cangkir itu dari kiri”, lalu mengamati apakah cangkir akan jatuh, ke arah mana ia jatuh, atau ke mana pecahannya terbang.

Komentar Jim Fan secara tepat menangkap kontradiksi ini: “Sora pada dasarnya adalah model dunia, hanya saja ia hanya mengizinkan no-op sebagai satu-satunya tindakan.” Artinya, Sora memang memprediksi perubahan lingkungan seiring waktu, tetapi proses perubahan ini tidak dipengaruhi oleh intervensi eksternal apa pun, dan hanya dapat berkembang sepanjang rantai sebab-akibat yang melekat dalam data video. Ia tidak melakukan simulasi interaktif, melainkan melanjutkan urutan observasi pasif.

Di subreddit r/MachineLearning Reddit, banyak peneliti pembelajaran penguatan menyampaikan kritik yang lebih tajam: sistem yang tidak dapat memprediksi transisi status berdasarkan tindakan tidak bisa disebut model dunia, hanya bisa disebut model prediksi video.

Kerangka klasifikasi World Labs memberikan jawaban definitif terhadap perdebatan ini. Dalam siklus POMDP, tindakan adalah input kunci yang mendorong perpindahan status; sistem yang kehilangan input ini hanyalah proyeksi dari tahap "generasi observasi" dalam siklus kognitif lengkap. Sora adalah renderer, bukan model dunia lengkap, apalagi simulator dunia.

Namun, ini tidak berarti Sora tidak memiliki nilai. Renderer menyelesaikan masalah yang berbeda: bagaimana menghasilkan gambar yang sesuai dengan harapan visual manusia. Masalah ini sendiri sangat sulit dan memiliki nilai komersial yang besar. Masalahnya adalah, mengemas kemampuan rendering sebagai kemampuan "memahami dunia" dapat menyesatkan para pengambil keputusan teknis dan investor, membuat mereka salah paham bahwa model-model ini telah memiliki kemampuan inferensi fisik atau interaksi tubuh.

Nilai industri dari klarifikasi konsep

Mengklarifikasi batasan definisi "world model" bukanlah sekadar perdebatan akademis yang berfokus pada kata-kata. Ini secara langsung memengaruhi pemilihan teknologi, penilaian investasi, dan tingkat pemahaman publik terhadap kemampuan AI.

Bagi perusahaan manufaktur yang sedang mengevaluasi apakah akan menggunakan “model dunia” tertentu untuk pelatihan robot, memahami apakah model tersebut merupakan renderer, simulator, atau planner merupakan prasyarat penting untuk menghindari kesalahan berjuta-juta dolar. Sebuah model yang hanya dapat menghasilkan gambar video, seberapa realistis pun gambarnya, tidak dapat menggantikan perhitungan akurat mengenai gaya yang bekerja pada objek, lintasan gerak, dan konsekuensi tabrakan.

Bagi institusi investasi, membedakan tiga kategori proyeksi berarti dapat mengidentifikasi posisi teknologi proyek dengan lebih akurat. Sebuah startup yang menyebut dirinya "world model" tetapi produknya pada dasarnya adalah renderer, pesaingnya adalah perusahaan generasi video, bukan platform digital twin atau model kontrol robot. Ini secara langsung menentukan cara memperkirakan ukuran pasar dan memilih perusahaan pembanding.

Bagi dunia akademis, klasifikasi yang jelas adalah prasyarat untuk membangun tolok ukur yang dapat dibandingkan. Jika istilah "world model" terus digeneralisasi, para peneliti akan kesulitan menentukan apa yang dianggap sebagai kemajuan atau terobosan, dan tinjauan sejawat akan didasarkan pada ambiguitas.

World Labs juga menunjukkan dalam artikel tersebut bahwa klarifikasi konsep bukan untuk menciptakan kontradiksi. Arah pengembangan masa depan akan menjadi integrasi ketiga jenis proyeksi ini. Model yang benar-benar memahami sifat fisik cangkir seharusnya mampu merender penampilan visualnya, mensimulasikan proses fisik saat cangkir terjatuh, dan merencanakan bagaimana robot dapat mengambilnya dengan stabil. Namun, sebelum teknologi mencapai tahap tersebut, memahami batasan masing-masing lebih bermakna secara realistis daripada hanya membayangkan integrasi.

Menurut perkiraan World Labs dalam artikel tersebut, teknologi simulator dan digital twin, seperti NVIDIA Omniverse, menargetkan pasar potensial senilai lebih dari satu triliun dolar AS di bidang pabrik, gudang, dan rantai pasokan. Angka ini berasal dari penilaian pihak produsen sendiri, dan kapan pasar benar-benar mencapai skala ini tergantung pada apakah simulator mampu melewati hambatan kelangkaan data fisika 3D berkualitas tinggi.

Bagi industri AI pada tahap saat ini, pemahaman paling penting mungkin sangat sederhana: mampu menghasilkan video yang realistis tidak sama dengan memahami dunia fisik; disebut model dunia tidak berarti benar-benar mensimulasikan dunia. Menembus bahasa pemasaran, meninjau apa saja input yang diterima suatu sistem dalam siklus POMDP, hasil apa yang dihasilkan, dan bagian mana yang hilang, adalah cara paling jujur untuk menilai batasan kemampuan teknis.