Fudan e Meituan LongCat lançam o benchmark interativo de modelo mundial de código aberto WBench
KuCoinFlash
Compartilhar
Resumo
A Universidade Fudan e a Meituan LongCat abriram o código do WBench, um benchmark para avaliar a geração de vídeo em modelos de mundo interativo. O WBench apresenta 289 casos de teste e 1.058 rodadas de interação, com métricas de suporte e resistência em navegação, ações e controle de ponto de vista. O benchmark utiliza texto, poses 6-DoF e ações discretas para comparações de controle cruzado. A avaliação inclui 22 métricas, mostrando forte correlação com avaliações humanas. Os testes revelam que precisão física e renderização estão alinhadas, enquanto as capacidades de controle permanecem atrasadas. A análise de interesse aberto destaca fraquezas dos modelos em interações de múltiplas rodadas, com o controle de navegação apresentando a maior queda. O HY-World 1.5 lidera em estabilidade, enquanto o LingBot-World se destaca em consistência. Vistas em primeira pessoa e assuntos rígidos permanecem mais fáceis, enquanto assuntos não rígidos continuam sendo um desafio.
ME AI mensagem, conforme monitorado pelo Beating, a Universidade Fudan e a equipe Longcat da Meituan lançaram abertamente o benchmark de modelo mundial interativo WBench, avaliando a capacidade subjacente de modelagem de geração de vídeo em relação a regras físicas, consistência espacial-temporal e controle interativo. O benchmark inclui 289 casos de teste e 1.058 rodadas de interação, abrangendo visões em primeira e terceira pessoa, integrando controle de navegação, ações de entidades, edição de eventos e troca de ângulos. O WBench unifica interfaces de instruções textuais, pose de 6 graus de liberdade e ações discretas, permitindo comparações entre diferentes paradigmas de controle. O sistema de avaliação inclui 22 métricas automáticas, com coeficientes de correlação de posto de Spearman entre os resultados de pontuação e a taxa de vitória em testes cegos humanos de pelo menos 0,94. Os testes demonstram que, em comparação com a qualidade do vídeo que tende a saturar, o controle interativo e os níveis de renderização, consistência e física do modelo estão quase desacoplados. O controle do movimento da câmera não garante consistência da entidade; por exemplo, o HY-World 1.5 e o Matrix-Game 3.0, com excelente desempenho em navegação, enfrentam gargalos de perda de identidade da entidade e desvio de ângulo na visão em terceira pessoa. Ao mesmo tempo, a correção física está fortemente correlacionada com a qualidade de renderização, mas apresenta correlação quase nula com a capacidade de controle. Modelos mundiais abertos lideram em múltiplas dimensões: o HY-World 1.5 obteve a pontuação mais alta em controle de navegação, o LingBot-World liderou em consistência e o Matrix-Game 3.0 ficou em primeiro lugar em navegação por ações. Interações múltiplas indicam que o desempenho de todos os modelos degrada com o aumento do número de rodadas, sendo o controle de navegação o mais afetado por desvios espaciais acumulados. O controle geométrico explícito mitiga eficazmente o desvio; por exemplo, a estabilidade do HY-World 1.5 em múltiplas rodadas supera significativamente a do Kling 3.0 orientado por texto. A dinâmica do cenário e a rigidez da entidade constituem a lógica subjacente da dificuldade do benchmark: visão em primeira pessoa, cenários estáticos e entidades robóticas rígidas são facilmente resolvidas, enquanto movimentos intensos e entidades não rígidas como animais permanecem desafios persistentes da indústria devido à complexidade da deformação e da velocidade. (Fonte: BlockBeats)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.