Xiaomi abre el código del marco de generación de sonido para video ControlFoley

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El equipo de modelos grandes de Xiaomi lanzó el marco de generación de sonido para video ControlFoley el 29 de mayo. El modelo admite entrada visual, indicaciones de texto o audio de referencia para el control del estilo de sonido. Utiliza una estrategia de desacoplamiento tiempo-pitch y un codificador CAV-MAE modificado. El rendimiento es de primer nivel en pruebas de sonido para video, aunque presenta un ligero retraso en la divergencia KL. Los operadores que utilizan análisis de interés abierto pueden encontrar este desarrollo relevante para la inversión de valor en cripto.

Según noticias de ME, el 29 de mayo (UTC+8), según el monitoreo de Beating, el equipo de aplicaciones de modelos grandes de Xiaomi ha lanzado y abierto el marco de generación de efectos de sonido para video ControlFoley. Anteriormente, la sincronización de audio en videos de IA se basaba principalmente en que el modelo predijera sonidos a partir de las imágenes, lo que dificultaba a los creadores controlar con precisión el estilo sonoro. El enfoque principal de ControlFoley es la «controlabilidad»: puede generar audio basado en las imágenes, pero también acepta descripciones textuales o audios de referencia para producir sonidos según la intención del creador. Por ejemplo, puede cambiar un sonido de golpe en la puerta por un «golpe metálico» o adaptar el ritmo de una batería para coincidir con el movimiento de un golpe de tenis, manteniendo al mismo tiempo la sincronización audiovisual y ajustándose al estilo especificado. En su base, ControlFoley utiliza un codificador espaciotemporal de audio y video modificado a partir de CAV-MAE e introduce una estrategia de «desacoplamiento tiempo-color»: asigna el momento de ocurrencia del sonido al video y el estilo del color sonoro al audio de referencia. En evaluaciones multitarea establecidas en el artículo, ControlFoley alcanza niveles SOTA entre los modelos abiertos en varias pruebas comunes de sincronización de audio para video. Incluso cuando hay un fuerte conflicto entre las instrucciones textuales y el contenido visual, el modelo logra equilibrar la adherencia al texto y la sincronización temporal. En comparación con el sistema comercial cerrado Kling-Foley, ControlFoley es competitivo en múltiples métricas, incluyendo alineación semántica, sincronización y calidad percibida; sin embargo, aún presenta diferencias en algunos índices de divergencia KL en Kling-Audio-Eval y MovieGen-Audio-Bench. Actualmente, el informe técnico, el código, los pesos del modelo y la demostración del proyecto ya están disponibles públicamente. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.