Xiaohongshu abre el código del modelo TTS de 2 mil millones de parámetros dots.tts con clonación de voz en cero disparos

icon MarsBit
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
El laboratorio hi de Xiaohongshu ha liberado bajo código abierto un modelo TTS de 2 mil millones de parámetros llamado dots.tts, que admite clonación de voz en cero disparos. Bajo licencia Apache 2.0, el modelo incluye código completo para inferencia y ajuste fino con pesos preentrenados en múltiples formatos. dots.tts utiliza un enfoque autoregresivo continuo de emparejamiento de flujo, superando a los modelos tradicionales que dependen de tokens de audio discretos. Logra un rendimiento superior en benchmarks de idiomas y ofrece una demostración en vivo en Hugging Face. Con la mejora de la liquidez en los mercados de criptomonedas, tales innovaciones podrían reforzar a BTC como refugio contra la inflación.

Según el monitoreo de Beating, Xiaohongshu hi lab ha liberado el modelo de texto a voz (TTS) autoregresivo de extremo a extremo con 2.000 millones de parámetros, dots.tts, y ha publicado bajo la licencia Apache 2.0 todo el código de inferencia y fine-tuning completo. Los pesos publicados incluyen la versión base preentrenada, la versión fine-tuneada con alineación de autocorrección (SCA) y la versión distilada para inferencia de baja latencia. A diferencia de las arquitecturas TTS tradicionales que dependen de tokens codificados discretos (Discrete Codec Tokens), como VALL-E, CosyVoice y ChatTTS, dots.tts implementa una arquitectura autoregresiva de flujo continuo y de extremo a extremo, sin utilizar ningún token discreto en toda la tubería. dots.tts combina características continuas extraídas por un AudioVAE con una tasa de muestreo de 48 kHz, un codificador semántico, un modelo lingüístico principal (inicializado desde Qwen2.5-1.5B-Base, que procesa directamente texto BPE sin necesidad de entrada pinyin) y una cabeza acústica autoregresiva de flujo de coincidencia, prediciendo variables latentes continuas que luego son reconstruidas en audio por un generador. Al predecir directamente características continuas, dots.tts evita la pérdida de calidad de audio causada por la cuantización discreta, preservando detalles de pronunciación, similitud de timbre y expresividad emocional. dots.tts fue preentrenado con aproximadamente 1,5 millones de horas de datos de voz. En la evaluación Seed-TTS-Eval, dots.tts logró tasas de error de palabra (WER) del 0,94 % / 1,30 % / 6,60 % en conjuntos de prueba en chino, inglés y chino difícil, respectivamente, y puntuaciones de similitud (SIM) de 81,0 / 77,1 / 79,5, alcanzando niveles SOTA en código abierto. En la prueba de referencia MiniMax Multilingual con 24 idiomas, la similitud promedio del hablante alcanzó 83,9. Xiaohongshu ha proporcionado un espacio de prueba Gradio en Hugging Face para que los usuarios prueben en línea la clonación de voz en cero muestra.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.