Fei-Fei Li ingin menyelesaikan perdebatan yang telah berlangsung lama di komunitas AI: apa yang benar-benar dianggap sebagai "model dunia" dan apa yang hanyalah generator video mewah yang mengenakan jas laboratorium.
Profesor Stanford dan CEO World Labs menerbitkan “A Functional Taxonomy of World Models” pada 3 Juni 2026, yang menyusun kerangka yang mengklasifikasikan model dunia menjadi tiga fungsi berbeda: renderer, simulator, dan planner. Makalah ini berargumen bahwa ketiga peran ini membentuk siklus yang saling terhubung yang menjadi dasar apa yang disebut Li sebagai “spatial intelligence,” jenis AI yang benar-benar dapat memahami dan berinteraksi dengan lingkungan fisik.
Tiga pekerjaan, satu model
Fungsi renderer menangani generasi visual. Ia menciptakan representasi visual beresolusi tinggi dari input data. Ini adalah apa yang sebenarnya dilakukan oleh sebagian besar "model dunia" saat ini, dan Li membuat argumen tajam bahwa sistem yang terjebak pada level ini bukanlah model dunia sejati.
Fungsi simulator lebih mendalam. Ia tidak hanya menunjukkan seperti apa sesuatu itu. Ia memodelkan fisika, sebab-akibat, dan cara objek berinteraksi seiring waktu. Sebuah renderer dapat menunjukkan bola yang menggelinding menuju tepi tebing. Sebuah simulator tahu bahwa bola akan jatuh.
Fungsi perencana menggunakan pemahaman simulator tentang bagaimana dunia bekerja untuk merancang rangkaian tindakan. Ini adalah perbedaan antara AI yang hanya mengamati dapur dan AI yang bisa memahami cara membuat sandwich untuk Anda tanpa memecahkan semua piring di lemari.
Ketiga fungsi ini tidak beroperasi secara terpisah. Makalah Li menjelaskan bahwa ketiganya membentuk lingkaran kontinu, di mana setiap kemampuan saling mendukung dan memperkuat satu sama lain. Sebuah renderer memberi tahu simulator tentang konteks visual, simulator memberikan prediksi berbasis fisika kepada perencana, dan tujuan perencana membentuk prioritas yang perlu diperhatikan oleh renderer dan simulator.
Mengapa robotika sangat membutuhkan ini
Li telah berargumen, termasuk dalam manifesto sebelumnya pada November 2025, bahwa model dunia dapat menjembatani kesenjangan antara simulasi dan kenyataan. Jika Anda dapat membangun replika digital yang cukup akurat dari dunia fisik, robot dapat berlatih di sana terlebih dahulu.
World Labs telah mulai menerapkan teori ini ke dalam praktik. Perusahaan meluncurkan Marble, produk komersial pertamanya, pada November 2025. Marble menghasilkan dunia 3D persisten dengan kualitas tinggi dari petunjuk multimodal, artinya Anda dapat mendeskripsikan lingkungan menggunakan teks, gambar, atau input lainnya, dan Marble membangun ruang 3D yang dapat dinavigasi dari deskripsi tersebut. Sistem ini sudah digunakan dalam lingkungan simulasi robotik.
Berbeda dengan video, yang merupakan urutan frame yang tetap, dunia Marble mempertahankan geometri dan fisika yang konsisten saat Anda bergerak melaluinya. Sebuah robot yang dilatih di lingkungan Marble dapat mendekati rak yang sama dari sudut yang berbeda dan menemukan objek yang sama di posisi yang sama.
Uang di balik misi
World Labs mengumpulkan $1 miliar pada Februari 2026, membangun dari putaran sebelumnya sebesar $230 juta. Daftar investor mencakup AMD, Autodesk, NVIDIA, dan Fidelity.
Dana total sebesar $1,23 miliar menempatkan World Labs di kalangan yang sangat terbatas untuk startup AI yang berfokus pada kecerdasan spasial, bukan pada perlombaan model bahasa besar yang telah mendominasi berita utama.
