Fei-Fei Li ingin menyelesaikan perdebatan yang telah berlarut-larut dalam komuniti AI selama ini: apa sebenarnya yang dianggap sebagai “model dunia” dan apa yang hanyalah penghasil video mewah yang memakai jubah lab.
Profesor Stanford dan CEO World Labs menerbitkan “A Functional Taxonomy of World Models” pada 3 Jun 2026, membentangkan kerangka yang mengklasifikasikan model dunia kepada tiga fungsi berbeza: renderer, simulator, dan perancang. Kertas ini berhujah bahawa tiga peranan ini membentuk gelung yang saling berkaitan yang menjadi asas apa yang Li sebut sebagai “kecerdasan ruang,” jenis AI yang benar-benar boleh memahami dan berinteraksi dengan persekitaran fizikal.
Tiga pekerjaan, satu model
Fungsi renderer mengendalikan penghasilan visual. Ia menciptakan representasi visual berketepatan tinggi daripada input data. Ini adalah apa yang sebenarnya dilakukan oleh kebanyakan “model dunia” semasa ini, dan Li membuat hujah tajam bahawa sistem yang terperangkap pada tahap ini bukanlah model dunia yang sebenar.
Fungsi simulasi lebih mendalam. Ia tidak hanya menunjukkan bagaimana sesuatu kelihatan. Ia memodelkan fizik, sebab dan kesan, serta cara objek-objek berinteraksi seiring masa. Sebuah renderer boleh menunjukkan bola yang menggelinding ke arah tepi tebing. Sebuah simulasi tahu bahawa bola akan jatuh.
Fungsi perancang menggunakan pemahaman simulator tentang bagaimana dunia berfungsi untuk merancang rangkaian tindakan. Ia adalah perbezaan antara AI yang memantau dapur dan satu yang boleh menentukan cara membuat sandwich untuk anda tanpa memecahkan semua pinggan di dalam almari.
Ketiga-tiga fungsi ini tidak beroperasi secara berasingan. Kertas Li menggambarkan mereka sebagai membentuk satu gelung berterusan, di mana setiap kemampuan memberi kesan dan memperkuat yang lain. Sebuah perender memberitahu simulator mengenai konteks visual, simulator memberikan ramalan berdasarkan fizik kepada perancang, dan matlamat perancang membentuk apa yang perlu diprioritaskan oleh perender dan simulator.
Mengapa robotik sangat memerlukan ini
Li telah berhujah, termasuk dalam manifesto sebelumnya pada November 2025, bahawa model dunia boleh menjembatani jurang antara simulasi dan kenyataan. Jika anda dapat membina salinan digital yang cukup tepat bagi dunia fizikal, robot boleh melatih diri di sana terlebih dahulu.
World Labs telah mula mengamalkan teori ini. Syarikat tersebut melancarkan Marble, produk komersial pertamanya, pada November 2025. Marble menghasilkan dunia 3D yang berterusan dan berketepatan tinggi daripada petunjuk multimodal, bermakna anda boleh menggambarkan persekitaran menggunakan teks, gambar, atau input lain, dan Marble membina ruang 3D yang boleh dilalui daripada penerangan tersebut. Sistem ini sudah digunakan dalam persekitaran simulasi robotik.
Berbeza dengan video, yang merupakan urutan bingkai yang tetap, dunia Marble mengekalkan geometri dan fizik yang konsisten semasa anda bergerak melaluinya. Robot yang dilatih dalam persekitaran Marble boleh mendekati rak yang sama dari sudut yang berbeza dan menemui objek yang sama dalam kedudukan yang sama.
Duit di sebalik misi
World Labs mengumpulkan $1 bilion pada Februari 2026, membangun atas putaran sebelumnya sebanyak $230 juta. Senarai pelabur termasuk AMD, Autodesk, NVIDIA, dan Fidelity.
Pembiayaan sejumlah $1.23 bilion meletakkan World Labs dalam kalangan yang jarang bagi sebuah permulaan AI yang berfokus pada kecerdasan ruang, bukan perlumbaan model bahasa besar yang telah mendominasi berita utama.
