Xiaomi lança o framework JointWM para condução autônoma, estabelece novos recordes de desempenho

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Xiaomi EV lançou o framework JointWM para condução autônoma, um novo modelo que combina reconstrução 3D e geração de vídeo. O framework alcança 28,48 PSNR nos testes do Waymo e melhora a eficiência e a coerência em relação aos modelos existentes. Notícias sobre ativos do mundo real (RWA) destacam seu uso na geração de mais de 100.000 segmentos de dados sintéticos para treinamento. A tecnologia já está ativa em três cenários-chave. Novas listagens de tokens permanecem como uma tendência separada no espaço cripto.

Segundo observações da Beating, a Xiaomi lançou oficialmente o novo framework Xiaomi EV World Model para assistência à condução, pela primeira vez integrando profundamente os módulos de reconstrução 3D e geração de vídeo em seu sistema interno. Nas simulações de condução autônoma, as tecnologias tradicionais frequentemente separam reconstrução e geração: o módulo de reconstrução consegue recriar cenas, mas não prevê mudanças; o módulo de geração pode prever o futuro, mas sofre com distorções e deriva em sequências longas. A equipe propôs a arquitetura JointWM, que utiliza uma estrutura geométrica 3D como esqueleto físico para ancorar a cena, enquanto o módulo de geração complementa os detalhes visuais e prevê áreas não observadas, superando múltiplos recordes de desempenho em benchmarks principais como Waymo e nuScenes. Em termos de mecanismo, o módulo de reconstrução WorldRec abandona o paradigma tradicional de pixels individuais, adotando pontos de consulta esparsos 3D para representar a cena, fundindo-os incrementalmente em um esqueleto espacial 4D Gaussiano, permitindo reconstrução rápida de 10 segundos de vídeo em apenas 10 segundos. Com base nos pré-requisitos geométricos fornecidos pelo módulo de reconstrução, o módulo de geração WorldGen, limitado pelos limites físicos do esqueleto, concentra-se apenas na geração de iluminação e texturas realistas. Para conteúdo fora dos limites — como quadros futuros e áreas cegas — o módulo de geração realiza previsões físicas por meio de um mecanismo de treinamento sequencial em duas fases e distilação por correspondência de distribuição. Toda a arquitetura alcança velocidades de geração de 0,19 segundo por visão única e 0,46 segundo para três visões em GPU H20, suportando vídeos de até 1 minuto. Essa solução obteve um resultado de 28,48 PSNR nos testes de precisão de reconstrução do Waymo e mantém liderança na generalização zero-shot no nuScenes. Em eficiência de geração, supera em 5,6 vezes a linha de base autoregressiva Epona e ocupa posição entre as mais altas em coesão espacial-temporal entre algoritmos similares. Atualmente, a pesquisa já foi implementada em três cenários-chave da Xiaomi Automotive: entrega de mais de 100 mil segmentos de dados sintéticos de alta qualidade para treinamento de modelos de percepção; construção de ambientes de simulação fechados e altamente realistas para reproduzir cenários de cauda longa; e lançamento da Academia de Assistência à Condução, que utiliza vídeos gerados para orientar os usuários.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.