Xiaomi Meluncurkan Kerangka Kerja JointWM untuk Mengemudi Otonom, Menetapkan Rekor Patokan Baru

Menurut pemantauan Beating, Xiaomi secara resmi meluncurkan kerangka kerja baru Xiaomi EV World Model untuk sistem pengemudi bantu, yang pertama kali mengintegrasikan secara mendalam modul rekonstruksi 3D dan generasi video di dalamnya. Dalam simulasi mobil otonom, teknologi tradisional sering memisahkan rekonstruksi dan generasi. Modul rekonstruksi mampu mereproduksi adegan tetapi tidak dapat memprediksi perubahan, sementara modul generasi dapat memprediksi masa depan tetapi rentan terhadap distorsi dan drift pada urutan waktu panjang. Tim mengusulkan arsitektur JointWM, yang menggunakan struktur geometri 3D sebagai kerangka fisik untuk menahan adegan, lalu menggunakan modul generasi untuk melengkapi detail visual dan memprediksi area yang tidak teramati, serta memecahkan rekor kinerja terbaik pada benchmark utama seperti Waymo dan nuScenes. Secara mekanis, modul rekonstruksi WorldRec meninggalkan pendekatan piksel-per-piksel tradisional dan beralih ke titik pertanyaan 3D jarang untuk merepresentasikan adegan, menggabungkannya secara inkremental menjadi kerangka spasial 4D Gaussian lintas sudut pandang, sehingga mampu merekonstruksi video 10 detik dalam waktu 10 detik. Berdasarkan prior geometri yang disediakan oleh modul rekonstruksi, modul generasi WorldGen dibatasi oleh batas fisik kerangka dan hanya bertanggung jawab untuk menghasilkan pencahayaan dan tekstur yang masuk akal. Untuk konten di luar batas—seperti frame masa depan dan area buta pandang—modul generasi melakukan prediksi fisik melalui mekanisme pelatihan temporal dua tahap dan distilasi pencocokan distribusi. Seluruh arsitektur mencapai kecepatan generasi 0,19 detik untuk satu sudut pandang dan 0,46 detik untuk tiga sudut pandang di H20 GPU, serta mendukung generasi video hingga 1 menit. Solusi ini mencapai skor PSNR 28,48 dalam pengujian akurasi rekonstruksi Waymo dan tetap unggul dalam generalisasi nol-sample nuScenes. Dari segi efisiensi generasi, solusi ini 5,6 kali lebih cepat daripada baseline autoregresif Epona, dengan konsistensi spasial-temporal berada di peringkat teratas di antara algoritma sejenis. Saat ini, temuan ini telah diterapkan di tiga skenario utama Xiaomi Automotive: menyediakan lebih dari 100.000 segmen data sintetis berkualitas tinggi untuk pelatihan model persepsi, membangun lingkungan simulasi tertutup beresolusi tinggi untuk mereproduksi kondisi jalan ekstrem, serta meluncurkan Sekolah Pengemudi Bantu untuk memberikan panduan operasional pengguna melalui video generatif.