Xiaomi lança o framework JointWM para condução autônoma, estabelece novos recordes de desempenho

Segundo observações da Beating, a Xiaomi lançou oficialmente o novo framework Xiaomi EV World Model para assistência à condução, pela primeira vez integrando profundamente os módulos de reconstrução 3D e geração de vídeo em seu sistema interno. Nas simulações de condução autônoma, as tecnologias tradicionais frequentemente separam reconstrução e geração: o módulo de reconstrução consegue recriar cenas, mas não prevê mudanças; o módulo de geração pode prever o futuro, mas sofre com distorções e deriva em sequências longas. A equipe propôs a arquitetura JointWM, que utiliza uma estrutura geométrica 3D como esqueleto físico para ancorar a cena, enquanto o módulo de geração complementa os detalhes visuais e prevê áreas não observadas, superando múltiplos recordes de desempenho em benchmarks principais como Waymo e nuScenes. Em termos de mecanismo, o módulo de reconstrução WorldRec abandona o paradigma tradicional de pixels individuais, adotando pontos de consulta esparsos 3D para representar a cena, fundindo-os incrementalmente em um esqueleto espacial 4D Gaussiano, permitindo reconstrução rápida de 10 segundos de vídeo em apenas 10 segundos. Com base nos pré-requisitos geométricos fornecidos pelo módulo de reconstrução, o módulo de geração WorldGen, limitado pelos limites físicos do esqueleto, concentra-se apenas na geração de iluminação e texturas realistas. Para conteúdo fora dos limites — como quadros futuros e áreas cegas — o módulo de geração realiza previsões físicas por meio de um mecanismo de treinamento sequencial em duas fases e distilação por correspondência de distribuição. Toda a arquitetura alcança velocidades de geração de 0,19 segundo por visão única e 0,46 segundo para três visões em GPU H20, suportando vídeos de até 1 minuto. Essa solução obteve um resultado de 28,48 PSNR nos testes de precisão de reconstrução do Waymo e mantém liderança na generalização zero-shot no nuScenes. Em eficiência de geração, supera em 5,6 vezes a linha de base autoregressiva Epona e ocupa posição entre as mais altas em coesão espacial-temporal entre algoritmos similares. Atualmente, a pesquisa já foi implementada em três cenários-chave da Xiaomi Automotive: entrega de mais de 100 mil segmentos de dados sintéticos de alta qualidade para treinamento de modelos de percepção; construção de ambientes de simulação fechados e altamente realistas para reproduzir cenários de cauda longa; e lançamento da Academia de Assistência à Condução, que utiliza vídeos gerados para orientar os usuários.