Xiaomi abre el código de OmniVoice: modelo de clonación de voz para 646 idiomas entrenado con datos abiertos

icon MarsBit
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El equipo Kaldi de Xiaomi AI Lab ha liberado bajo licencia abierta OmniVoice, un modelo de texto a voz de cero disparos que admite 646 idiomas. El modelo puede clonar el timbre de voz utilizando solo unos pocos segundos de audio de referencia y funciona entre idiomas. Entrenado con datos de código abierto, supera a los sistemas comerciales en similitud vocal e inteligibilidad. Los datos en la cadena muestran un creciente interés en herramientas de IA, con el interés abierto en proyectos relacionados aumentando de forma constante. El modelo utiliza un único Transformer bidireccional y está optimizado para una inferencia rápida.

Según el monitoreo de Beating, el nuevo equipo Kaldi del Laboratorio de IA de Xiaomi ha lanzado de forma abierta OmniVoice, un modelo TTS (texto a voz) de clonación de voz en cero muestra que admite 646 idiomas. Con solo unos segundos de audio de referencia, puede clonar la voz y funcionar entre idiomas: dado un audio en chino, el modelo puede pronunciar japonés, coreano u otros idiomas con la misma voz. El código, los pesos y los datos de entrenamiento están completamente abiertos bajo licencia Apache-2.0. Arquitectónicamente, OmniVoice adopta un enfoque minimalista: todo el modelo consta de un solo Transformer bidireccional que mapea directamente texto a tokens acústicos de múltiples códigos (codificaciones discretas del sonido), eliminando la tubería en dos etapas tradicional que primero convierte texto en tokens semánticos y luego en tokens acústicos. Dos diseños clave sustentan esta estructura simple: una estrategia de enmascaramiento aleatorio de todos los códigos para mejorar la eficiencia de entrenamiento, y la inicialización con parámetros preentrenados de modelos de lenguaje grande para aumentar la precisión fonética. La velocidad de inferencia alcanza 40 veces en tiempo real y se ejecuta directamente en PyTorch sin necesidad de optimizaciones adicionales. Los datos de entrenamiento provienen íntegramente de 50 conjuntos de datos de voz abiertos, tras filtrado y desnoisado, sumando un total de 580.000 horas. Para idiomas con pocos recursos, se utiliza muestreo dinámico para garantizar la calidad del entrenamiento. En pruebas con 24 idiomas, OmniVoice superó a múltiples sistemas comerciales en similitud vocal y comprensibilidad. En pruebas con 102 idiomas, la comprensibilidad se acercó e incluso superó a grabaciones reales. Incluso se puede sintetizar voz para idiomas con menos de 10 horas de datos de entrenamiento. Además de la clonación de voz, el modelo admite personalización de voz mediante descripción textual (por ejemplo, “hombre, mediana edad, tono extremadamente grave” o “mujer, joven, dialecto Sichuan”), reducción automática de ruido en audios de referencia ruidosos, inserción de símbolos expresivos como risas y suspiros, y corrección de pronunciación para polisílabos chinos e ingleses y nombres propios.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.