Xiaomi запускає фреймворк JointWM для автономного ведення, встановлює нові рекорди ефективності

За даними Beating Monitoring, Xiaomi Automotive офіційно представила нову архітектуру Xiaomi EV World Model для допоміжного ведення. Це перший випадок глибокого зв’язування модулів 3D-відтворення та генерації відео всередині системи. У традиційних технологіях симуляції автономного ведення відтворення та генерація часто розділені: модуль відтворення може відновити сцену, але не може передбачити зміни, тоді як модуль генерації може прогнозувати майбутнє, але з часом страждає від викривлень та зсувів. Команда запропонувала архітектуру JointWM, яка використовує 3D-геометричну структуру як фізичний каркас для фіксації сцени, а потім доповнює візуальні деталі та прогнозує невидимі області за допомогою модуля генерації, встановивши нові рекорди на основних тестах, таких як Waymo та nuScenes. З точки зору механізму, модуль відтворення WorldRec відмовився від традиційного піксельного підходу і замість цього використовує розріджені 3D-запити для представлення сцени, інкрементно об’єднуючи їх у 4D-гауссову просторову структуру, що дозволяє швидко відтворити 10-секундне відео за 10 секунд. На основі геометричних попередніх даних від модуля WorldRec, модуль генерації WorldGen обмежений фізичними межами каркасу і відповідає лише за генерацію реалістичного світла, тіней та текстур. Для контенту за межами майбутніх кадрів та сліпих зон модуль генерації використовує двоетапне часове навчання та механізм дистиляції за допомогою збігу розподілів для фізичного прогнозування. Ця архітектура досягає швидкості генерації 0,19 секунди на однокутовий перегляд і 0,46 секунди на трикутковий перегляд на GPU H20, підтримуючи генерацію відео довжиною до 1 хвилини. Ця система показала результат 28,48 PSNR у тестах на точність відтворення Waymo і зберегла лідерство у нульовому зразку узагальнення на nuScenes. Щодо ефективності генерації, розв’язання працює в 5,6 рази швидше за автогрегресивну базову модель Epona і посідає провідні позиції серед аналогічних алгоритмів щодо просторово-часової неперервності. Наразі ця розробка була успішно реалізована у трьох ключових сценаріях Xiaomi Automotive: надано понад 100 000 високоякісних синтетичних даних для навчання моделей сприйняття, створено високоточне замкнене симуляційне середовище для відтворення рідкісних дорожніх ситуацій та запущено навчальний курс допоміжного ведення з генеративними відео для інструктажу користувачів.