Xiaomi Meluncurkan Kerangka Kerja JointWM untuk Mengemudi Otonom, Menetapkan Rekor Patokan Baru

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Xiaomi EV telah meluncurkan kerangka kerja JointWM untuk pengemudi otonom, sebuah model baru yang menggabungkan rekonstruksi 3D dan generasi video. Kerangka kerja ini mencapai 28,48 PSNR dalam pengujian Waymo dan meningkatkan efisiensi serta koherensi dibandingkan model yang ada. Berita tentang real-world assets (RWA) menyoroti penggunaannya dalam menghasilkan lebih dari 100.000 segmen data sintetis untuk pelatihan. Teknologi ini kini aktif dalam tiga skenario utama. Pendaftaran token baru tetap menjadi tren terpisah di ruang kripto.

Menurut pemantauan Beating, Xiaomi secara resmi meluncurkan kerangka kerja baru Xiaomi EV World Model untuk sistem pengemudi bantu, yang pertama kali mengintegrasikan secara mendalam modul rekonstruksi 3D dan generasi video di dalamnya. Dalam simulasi mobil otonom, teknologi tradisional sering memisahkan rekonstruksi dan generasi. Modul rekonstruksi mampu mereproduksi adegan tetapi tidak dapat memprediksi perubahan, sementara modul generasi dapat memprediksi masa depan tetapi rentan terhadap distorsi dan drift pada urutan waktu panjang. Tim mengusulkan arsitektur JointWM, yang menggunakan struktur geometri 3D sebagai kerangka fisik untuk menahan adegan, lalu menggunakan modul generasi untuk melengkapi detail visual dan memprediksi area yang tidak teramati, serta memecahkan rekor kinerja terbaik pada benchmark utama seperti Waymo dan nuScenes. Secara mekanis, modul rekonstruksi WorldRec meninggalkan pendekatan piksel-per-piksel tradisional dan beralih ke titik pertanyaan 3D jarang untuk merepresentasikan adegan, menggabungkannya secara inkremental menjadi kerangka spasial 4D Gaussian lintas sudut pandang, sehingga mampu merekonstruksi video 10 detik dalam waktu 10 detik. Berdasarkan prior geometri yang disediakan oleh modul rekonstruksi, modul generasi WorldGen dibatasi oleh batas fisik kerangka dan hanya bertanggung jawab untuk menghasilkan pencahayaan dan tekstur yang masuk akal. Untuk konten di luar batas—seperti frame masa depan dan area buta pandang—modul generasi melakukan prediksi fisik melalui mekanisme pelatihan temporal dua tahap dan distilasi pencocokan distribusi. Seluruh arsitektur mencapai kecepatan generasi 0,19 detik untuk satu sudut pandang dan 0,46 detik untuk tiga sudut pandang di H20 GPU, serta mendukung generasi video hingga 1 menit. Solusi ini mencapai skor PSNR 28,48 dalam pengujian akurasi rekonstruksi Waymo dan tetap unggul dalam generalisasi nol-sample nuScenes. Dari segi efisiensi generasi, solusi ini 5,6 kali lebih cepat daripada baseline autoregresif Epona, dengan konsistensi spasial-temporal berada di peringkat teratas di antara algoritma sejenis. Saat ini, temuan ini telah diterapkan di tiga skenario utama Xiaomi Automotive: menyediakan lebih dari 100.000 segmen data sintetis berkualitas tinggi untuk pelatihan model persepsi, membangun lingkungan simulasi tertutup beresolusi tinggi untuk mereproduksi kondisi jalan ekstrem, serta meluncurkan Sekolah Pengemudi Bantu untuk memberikan panduan operasional pengguna melalui video generatif.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.