Microsoft e a Universidade de Zhejiang apresentam o World-R1: consistência 3D em modelos de vídeo por meio de aprendizado por reforço

KuCoinFlash

Data de lançamento: 28/04/2026, 10:02:29

Resumo

Notícias on-chain: A Microsoft Research e a Universidade de Zhejiang apresentaram o World-R1 em 28 de abril, um método de aprendizado por reforço que permite aos modelos de vídeo compreender geometria 3D sem conjuntos de dados 3D. O sistema utiliza o Depth Anything 3 para reconstruir Gaussians 3D e compara visualizações renderizadas com gravações originais. Um sinal de recompensa baseado em erro, trajetória e credibilidade do Qwen3-VL é otimizado por meio do Flow-GRPO. Os modelos incluem Wan 2.1 (1,3B e 14B), treinados com 3.000 prompts gerados pelo Gemini. O World-R1-Large melhorou o PSNR em 7,91 dB, e o World-R1-Small em 10,23 dB. O código está disponível no GitHub sob a licença CC BY-NC-SA 4.0. As notícias sobre ativos do mundo real (RWA) destacam este avanço na modelagem 3D impulsionada por IA.

Mensagem AIMPACT, 28 de abril (UTC+8), segundo monitoramento da Beating, a equipe do Microsoft Research e da Universidade de Zhejiang propôs o World-R1, que usa aprendizado por reforço para ensinar modelos de geração de vídeo a partir de texto a aprender consistência geométrica 3D, sem modificar a arquitetura do modelo nem depender de conjuntos de dados 3D. A ideia central: após gerar o vídeo, usa-se o modelo 3D pré-treinado Depth Anything 3 para reconstruir os gaussianos 3D da cena e, em seguida, renderiza-se a partir de novos ângulos, comparando com o vídeo original. O sinal de recompensa é composto pelo erro de reconstrução, desvio de trajetória e credibilidade semântica dos novos ângulos (avaliada pelo Qwen3-VL), sendo retroalimentado ao modelo de vídeo por meio do Flow-GRPO (um algoritmo de aprendizado por reforço adaptado para modelos de correspondência de fluxo). Os modelos base são o Wan 2.1 (1,3B e 14B), abertos, resultando nas versões World-R1-Small e World-R1-Large. Os dados de treinamento consistem em apenas cerca de 3.000 prompts de texto puro, gerados pelo Gemini, sem uso de qualquer ativo 3D. Durante o treinamento, a cada 100 passos é inserida uma rodada de “microajuste dinâmico”, desativando temporariamente a recompensa 3D e mantendo apenas a recompensa de qualidade visual, para evitar que o modelo suprima dinâmicas não rígidas, como movimentos humanos, em busca de rigidez geométrica. Em métricas de consistência 3D, o World-R1-Large melhorou o PSNR (razão sinal-ruído pico) em 7,91 dB em relação ao Wan 2.1 14B, enquanto a versão Small melhorou em 10,23 dB. A qualidade geral de vídeo no VBench aumentou. Em um teste cego com 25 pessoas, a vitória em consistência geométrica foi de 92% e a preferência geral foi de 86%. O código já está disponível no GitHub sob licença CC BY-NC-SA 4.0. (Fonte: BlockBeats)

Fonte:Mostrar original

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.