Equipe de cinco universidades desenvolve framework de navegação 3D guiada por visão para humanos digitais

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Uma equipe conjunta da Universidade de Pequim, Universidade Carnegie Mellon, Universidade Tongji, UCLA e Universidade de Michigan desenvolveu o VGHuman, um framework de IA guiado por visão que permite que seres digitais naveguem em ambientes 3D. O sistema alcançou uma melhoria de 30 pontos percentuais nas taxas de sucesso das tarefas em relação às principais soluções de referência em 200 casos de teste. O projeto alinha-se aos esforços em andamento para construir um framework de conformidade para a regulamentação emergente de ativos digitais.

Notícia da ME, 14 de abril (UTC+8): segundo monitoramento da 1M AI News, uma equipe conjunta da Universidade de Pequim, Universidade Carnegie Mellon, Universidade de Tongji, Universidade da Califórnia em Los Angeles e Universidade de Michigan publicou no arXiv o VGHuman, um framework de IA embutida que permite que avatares digitais se movam autonomamente em cenários 3D desconhecidos apenas por meio de percepção visual. Anteriormente, sistemas de avatares digitais dependiam amplamente de scripts pré-definidos ou informações de estado privilegiadas; o VGHuman tem como objetivo dar aos avatares digitais "olhos reais", permitindo que eles vejam, planejem e aja por conta própria. O framework é composto por duas camadas. A World Layer reconstrói uma cena 3D de gaussiana semântica e com malha de colisão a partir de vídeo monocular; seu design sensível a obstruções permite identificar objetos pequenos ocultos mesmo em ambientes externos complexos. A Agent Layer equipa o avatar com percepção RGB-D em primeira pessoa (cor + profundidade), gerando planejamento por meio de pistas visuais de percepção espacial e raciocínio iterativo, que é finalmente convertido em sequências de movimentos corporais por um modelo de difusão. Em benchmarks de navegação com 200 cenários de teste, em três níveis de dificuldade — trajetórias simples, contornos de obstáculos e pedestres dinâmicos — o VGHuman alcançou taxa de sucesso 30 pontos percentuais superior às melhores linhas de base, como NaVILA, NaVid e Uni-NaVid, com taxa de colisão igual ou inferior. O framework também suporta múltiplos estilos de movimento, como correr e pular, além de planejamento de longo prazo para acessar múltiplos objetivos consecutivos. O código e os modelos serão abertos ao público, e o repositório no GitHub já foi criado. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.