Xiaomi abre el código del marco de generación de sonido para video ControlFoley

Según noticias de ME, el 29 de mayo (UTC+8), según el monitoreo de Beating, el equipo de aplicaciones de modelos grandes de Xiaomi ha lanzado y abierto el marco de generación de efectos de sonido para video ControlFoley. Anteriormente, la sincronización de audio en videos de IA se basaba principalmente en que el modelo predijera sonidos a partir de las imágenes, lo que dificultaba a los creadores controlar con precisión el estilo sonoro. El enfoque principal de ControlFoley es la «controlabilidad»: puede generar audio basado en las imágenes, pero también acepta descripciones textuales o audios de referencia para producir sonidos según la intención del creador. Por ejemplo, puede cambiar un sonido de golpe en la puerta por un «golpe metálico» o adaptar el ritmo de una batería para coincidir con el movimiento de un golpe de tenis, manteniendo al mismo tiempo la sincronización audiovisual y ajustándose al estilo especificado. En su base, ControlFoley utiliza un codificador espaciotemporal de audio y video modificado a partir de CAV-MAE e introduce una estrategia de «desacoplamiento tiempo-color»: asigna el momento de ocurrencia del sonido al video y el estilo del color sonoro al audio de referencia. En evaluaciones multitarea establecidas en el artículo, ControlFoley alcanza niveles SOTA entre los modelos abiertos en varias pruebas comunes de sincronización de audio para video. Incluso cuando hay un fuerte conflicto entre las instrucciones textuales y el contenido visual, el modelo logra equilibrar la adherencia al texto y la sincronización temporal. En comparación con el sistema comercial cerrado Kling-Foley, ControlFoley es competitivo en múltiples métricas, incluyendo alineación semántica, sincronización y calidad percibida; sin embargo, aún presenta diferencias en algunos índices de divergencia KL en Kling-Audio-Eval y MovieGen-Audio-Bench. Actualmente, el informe técnico, el código, los pesos del modelo y la demostración del proyecto ya están disponibles públicamente. (Fuente: BlockBeats)