Microsoft y la Universidad de Zhejiang presentan World-R1: consistencia 3D en modelos de video mediante aprendizaje por refuerzo

KuCoinFlash

Momento del lanzamiento: 28/04/2026, 10:02:29

Resumen

Noticias en la cadena: Microsoft Research y la Universidad de Zhejiang presentaron World-R1 el 28 de abril, un método de aprendizaje por refuerzo que permite a los modelos de video comprender la geometría 3D sin conjuntos de datos 3D. El sistema utiliza Depth Anything 3 para reconstruir Gaussianos 3D, luego compara vistas renderizadas con el footage original. Una señal de recompensa basada en el error, la trayectoria y la credibilidad de Qwen3-VL se optimiza mediante Flow-GRPO. Los modelos incluyen Wan 2.1 (1.3B y 14B), entrenados con 3.000 prompts generados por Gemini. World-R1-Large mejoró el PSNR en 7.91 dB, y World-R1-Small en 10.23 dB. El código está disponible en GitHub bajo CC BY-NC-SA 4.0. Las noticias sobre activos del mundo real (RWA) destacan este avance en modelado 3D impulsado por IA.

Mensaje de AIMPACT, 28 de abril (UTC+8): Según el monitoreo de Beating, un equipo del Instituto de Investigación de Microsoft y la Universidad de Zhejiang propuso World-R1, que utiliza aprendizaje por refuerzo para enseñar a los modelos de texto a video la consistencia geométrica 3D, sin modificar la arquitectura del modelo ni depender de conjuntos de datos 3D. La idea central: tras generar el video, se reconstruye la escena en 3D Gaussiano (3DGS) utilizando el modelo base 3D preentrenado Depth Anything 3, luego se renderiza desde nuevas perspectivas y se compara con el video original; el señal de recompensa combina el error de reconstrucción, el desvío de trayectoria y la credibilidad semántica desde nuevas perspectivas (evaluada por Qwen3-VL), y se retroalimenta al modelo de video mediante Flow-GRPO (un algoritmo de aprendizaje por refuerzo adaptado a modelos de emparejamiento de flujo). Los modelos base son el open-source Wan 2.1 (1.3B y 14B), de los cuales se entrenaron World-R1-Small y World-R1-Large. Los datos de entrenamiento consisten únicamente en aproximadamente 3000 prompts de texto puro generados por Gemini, sin utilizar ningún activo 3D. Durante el entrenamiento, cada 100 pasos se inserta una ronda de «ajuste dinámico», en la que se desactiva temporalmente la recompensa 3D y se conserva solo la recompensa de calidad visual, para evitar que el modelo suprima dinámicas no rígidas como el movimiento humano en aras de una rigidez geométrica. En métricas de consistencia 3D, World-R1-Large mejora el PSNR (relación pico señal-ruido) en 7.91 dB respecto al Wan 2.1 14B base, mientras que la versión Small mejora en 10.23 dB. La calidad general de video en VBench no disminuye, sino que aumenta. En una prueba ciega con 25 participantes, la tasa de victoria en consistencia geométrica fue del 92% y la preferencia general del 86%. El código ya está disponible en GitHub bajo licencia CC BY-NC-SA 4.0. (Fuente: BlockBeats)

Fuente:Mostrar original

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.