Xiaomi запускає фреймворк JointWM для автономного ведення, встановлює нові рекорди ефективності

icon MarsBit
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Xiaomi EV запустила фреймворк JointWM для автономного ведення, нову модель, що поєднує 3D-реконструкцію та генерацію відео. Фреймворк досягає 28,48 PSNR у тестах Waymo та покращує ефективність та згідність порівняно з існуючими моделями. Новини про реальні активи (RWA) підкреслюють його використання для генерації понад 100 000 синтетичних даних для навчання. Ця технологія вже активна у трьох ключових сценаріях. Нові лістинги токенів залишаються окремою тенденцією у крипто-просторі.

За даними Beating Monitoring, Xiaomi Automotive офіційно представила нову архітектуру Xiaomi EV World Model для допоміжного ведення. Це перший випадок глибокого зв’язування модулів 3D-відтворення та генерації відео всередині системи. У традиційних технологіях симуляції автономного ведення відтворення та генерація часто розділені: модуль відтворення може відновити сцену, але не може передбачити зміни, тоді як модуль генерації може прогнозувати майбутнє, але з часом страждає від викривлень та зсувів. Команда запропонувала архітектуру JointWM, яка використовує 3D-геометричну структуру як фізичний каркас для фіксації сцени, а потім доповнює візуальні деталі та прогнозує невидимі області за допомогою модуля генерації, встановивши нові рекорди на основних тестах, таких як Waymo та nuScenes. З точки зору механізму, модуль відтворення WorldRec відмовився від традиційного піксельного підходу і замість цього використовує розріджені 3D-запити для представлення сцени, інкрементно об’єднуючи їх у 4D-гауссову просторову структуру, що дозволяє швидко відтворити 10-секундне відео за 10 секунд. На основі геометричних попередніх даних від модуля WorldRec, модуль генерації WorldGen обмежений фізичними межами каркасу і відповідає лише за генерацію реалістичного світла, тіней та текстур. Для контенту за межами майбутніх кадрів та сліпих зон модуль генерації використовує двоетапне часове навчання та механізм дистиляції за допомогою збігу розподілів для фізичного прогнозування. Ця архітектура досягає швидкості генерації 0,19 секунди на однокутовий перегляд і 0,46 секунди на трикутковий перегляд на GPU H20, підтримуючи генерацію відео довжиною до 1 хвилини. Ця система показала результат 28,48 PSNR у тестах на точність відтворення Waymo і зберегла лідерство у нульовому зразку узагальнення на nuScenes. Щодо ефективності генерації, розв’язання працює в 5,6 рази швидше за автогрегресивну базову модель Epona і посідає провідні позиції серед аналогічних алгоритмів щодо просторово-часової неперервності. Наразі ця розробка була успішно реалізована у трьох ключових сценаріях Xiaomi Automotive: надано понад 100 000 високоякісних синтетичних даних для навчання моделей сприйняття, створено високоточне замкнене симуляційне середовище для відтворення рідкісних дорожніх ситуацій та запущено навчальний курс допоміжного ведення з генеративними відео для інструктажу користувачів.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.