Syarikat rintisan AI, Decart, melancarkan model dunia generasi baru, Oasis 3, yang menekankan simulasi skenario pemanduan automatik. Syarikat ini berhasrat untuk melayani terlebih dahulu perusahaan pemanduan automatik yang memerlukan pengujian berskala besar terhadap keadaan jalan yang jarang berlaku, sebelum memperluaskan ke robot dan aplikasi AI fizikal lain, sambil membuka API sejak pelancaran untuk menarik pembangun membina produk berdasarkan model dunia tersebut.
Dibuka untuk autonomi dan pembangun
Dean Leitersdorf, salah seorang pendiri bersama dan CEO Decart, mengatakan bahawa syarikat ingin menjadikan Oasis 3 sebagai platform model dunia yang boleh diprogramkan, bukan sekadar projek penyelidikan demonstrasi. Menurut syarikat tersebut, pengguna semasa telah melebihi 100,000 pembangun, dengan ramai daripadanya sebelum ini telah membangunkan produk berkaitan e-dagang dan siaran langsung berdasarkan model video masa nyata mereka, Lucy.
Oasis 3 dibina di atas model asas ini, mewakili langkah lanjutan Decart ke arah AI fizikal. Syarikat menyatakan bahawa produk ini dikenakan bayaran mengikut saat, dengan harga standard sebanyak 0.02 dolar AS setiap saat, manakala harga untuk pelanggan korporat ditentukan berdasarkan penggunaan tertentu.

Menonjolkan penghasilan jangka panjang dan gambar realistik
Decart percaya bahawa kelebihan utama Oasis 3 ialah realisme visual dan kemampuan penghasilan berterusan. Model ini dapat menghasilkan persekitaran memandu pelbagai kamera, termasuk pandangan depan dan sisi, untuk melatih dan menguji sistem pemanduan automatik. Berbeza dengan produk sejenis yang hanya menyediakan demonstrasi terhad, Oasis 3 membenarkan pembangun menghasilkan adegan secara berterusan untuk merangkumi lebih banyak kes pinggiran.
Perusahaan mengaitkan kemampuan ini kepada stak perisian bawahannya, DOS. Decart menyatakan bahawa perisian yang dioptimaskan ini membolehkan model beroperasi dengan lebih cekap pada peranti Nvidia, Amazon, dan Google, seterusnya mengurangkan kos inferens. Leitersdorf menyatakan bahawa dengan pengoptimuman terpadu perisian dan peranti, kos operasi perusahaan boleh lebih rendah daripada pesaing industri lain sebanyak lebih daripada satu peringkat.
Persaingan makin panas, pembiayaan dipercepat untuk pelaksanaan
Litar model dunia telah jelas meningkat dalam setahun terakhir. Sebelum ini, Google mengumumkan versi pra-penyelidikan Genie 3, World Labs yang ditubuhkan oleh Li Fei-Fei melancarkan Marble yang ditujukan untuk skenario perniagaan, manakala syarikat penghasilan video seperti Luma dan Runway juga sedang mengembangkan model video yang mempunyai kesedaran fizikal ke arah model dunia.
Beberapa minggu sebelum pelancaran Oasis 3, Decart yang telah beroperasi selama dua tahun baru saja menyelesaikan pembiayaan sebanyak US$3 bilion, dengan nilai penilaian mendekati US$40 bilion. Syarikat tersebut menyatakan bahawa pembiayaan ini disebabkan oleh pertumbuhan pesat dalam permintaan dari e-dagang, siaran langsung, dan AI fizikal. Toyota, Adobe, eBay, serta pelabur sedia ada Nvidia turut serta dalam pembiayaan ini, dan syarikat-syarikat ini juga mungkin menjadi pelanggan potensialnya.
Masih terdistorsi selepas beroperasi dalam jangka masa yang panjang

Namun, Oasis 3 masih mempunyai batasan yang jelas. Menurut ujian sebenar oleh TechCrunch, model mampu menghasilkan adegan awal yang sesuai dengan petunjuk, tetapi semakin pengguna bergerak terus-menerus dalam persekitaran, tema adegan akan berkurang secara beransur-ansur. Sebagai contoh, adegan awal yang dihasilkan adalah pemandangan jalan New York, tetapi selepas terus bergerak, persekitaran akan berubah menjadi jalan bandar Barat yang lebih biasa.
Ujian juga menunjukkan bahawa model menunjukkan ketidakstabilan dalam kesinambungan ruang. Apabila pengguna berpusing balik ke simpang asal, adegan asal mungkin telah hilang dan digantikan oleh persekitaran baru. Tindak balas kawalan kenderaan juga tidak stabil, dan arah perjalanan kadang-kadang menyimpang daripada operasi pengguna.
Konsistensi fizikal masih menjadi cabaran
Masalah lain ialah fizik perlanggaran. Dalam ujian, kenderaan kadang-kadang melalui kenderaan lain secara langsung, menunjukkan bahawa model belum mampu mensimulasikan hubungan fizikal yang sebenar dengan stabil. Leitersdorf memanggilnya sebagai cabaran penyelidikan utama semasa ini, dan menyatakan bahawa data latihan mengandungi “pemanduan normal” jauh lebih banyak berbanding skenario kemalangan, yang juga merupakan salah satu sebabnya.
Dia menjelaskan bahawa Oasis 3 menghasilkan kandungan secara berperingkat dengan cara autoregresif, di mana setiap frame merujuk kepada hasil sebelumnya untuk menentukan frame seterusnya, yang memerlukan kekuatan pengiraan dan panjang konteks yang tinggi. Menurutnya, setiap frame kira-kira sepadan dengan 8000 token, dan pada kelajuan penghasilan puluhan frame per saat, tetingkap konteks akan cepat penuh. Syarikat kini sedang menyelidiki kaedah kompresi memori yang lebih panjang dan lebih cekap.
Leitersdorf menganggarkan bahawa versi seterusnya mungkin akan memperbaiki sebahagian masalah konsistensi. Pada masa itu, pengguna akan dapat menghasilkan dunia berdasarkan video persekitaran bukan gambar tunggal.
