Xiaomi abre el código de OmniVoice: modelo de clonación de voz para 646 idiomas entrenado con datos abiertos

Según el monitoreo de Beating, el nuevo equipo Kaldi del Laboratorio de IA de Xiaomi ha lanzado de forma abierta OmniVoice, un modelo TTS (texto a voz) de clonación de voz en cero muestra que admite 646 idiomas. Con solo unos segundos de audio de referencia, puede clonar la voz y funcionar entre idiomas: dado un audio en chino, el modelo puede pronunciar japonés, coreano u otros idiomas con la misma voz. El código, los pesos y los datos de entrenamiento están completamente abiertos bajo licencia Apache-2.0. Arquitectónicamente, OmniVoice adopta un enfoque minimalista: todo el modelo consta de un solo Transformer bidireccional que mapea directamente texto a tokens acústicos de múltiples códigos (codificaciones discretas del sonido), eliminando la tubería en dos etapas tradicional que primero convierte texto en tokens semánticos y luego en tokens acústicos. Dos diseños clave sustentan esta estructura simple: una estrategia de enmascaramiento aleatorio de todos los códigos para mejorar la eficiencia de entrenamiento, y la inicialización con parámetros preentrenados de modelos de lenguaje grande para aumentar la precisión fonética. La velocidad de inferencia alcanza 40 veces en tiempo real y se ejecuta directamente en PyTorch sin necesidad de optimizaciones adicionales. Los datos de entrenamiento provienen íntegramente de 50 conjuntos de datos de voz abiertos, tras filtrado y desnoisado, sumando un total de 580.000 horas. Para idiomas con pocos recursos, se utiliza muestreo dinámico para garantizar la calidad del entrenamiento. En pruebas con 24 idiomas, OmniVoice superó a múltiples sistemas comerciales en similitud vocal y comprensibilidad. En pruebas con 102 idiomas, la comprensibilidad se acercó e incluso superó a grabaciones reales. Incluso se puede sintetizar voz para idiomas con menos de 10 horas de datos de entrenamiento. Además de la clonación de voz, el modelo admite personalización de voz mediante descripción textual (por ejemplo, “hombre, mediana edad, tono extremadamente grave” o “mujer, joven, dialecto Sichuan”), reducción automática de ruido en audios de referencia ruidosos, inserción de símbolos expresivos como risas y suspiros, y corrección de pronunciación para polisílabos chinos e ingleses y nombres propios.