Xiaohongshu abre el código del modelo TTS de 2 mil millones de parámetros dots.tts con clonación de voz en cero disparos

Según el monitoreo de Beating, Xiaohongshu hi lab ha liberado el modelo de texto a voz (TTS) autoregresivo de extremo a extremo con 2.000 millones de parámetros, dots.tts, y ha publicado bajo la licencia Apache 2.0 todo el código de inferencia y fine-tuning completo. Los pesos publicados incluyen la versión base preentrenada, la versión fine-tuneada con alineación de autocorrección (SCA) y la versión distilada para inferencia de baja latencia. A diferencia de las arquitecturas TTS tradicionales que dependen de tokens codificados discretos (Discrete Codec Tokens), como VALL-E, CosyVoice y ChatTTS, dots.tts implementa una arquitectura autoregresiva de flujo continuo y de extremo a extremo, sin utilizar ningún token discreto en toda la tubería. dots.tts combina características continuas extraídas por un AudioVAE con una tasa de muestreo de 48 kHz, un codificador semántico, un modelo lingüístico principal (inicializado desde Qwen2.5-1.5B-Base, que procesa directamente texto BPE sin necesidad de entrada pinyin) y una cabeza acústica autoregresiva de flujo de coincidencia, prediciendo variables latentes continuas que luego son reconstruidas en audio por un generador. Al predecir directamente características continuas, dots.tts evita la pérdida de calidad de audio causada por la cuantización discreta, preservando detalles de pronunciación, similitud de timbre y expresividad emocional. dots.tts fue preentrenado con aproximadamente 1,5 millones de horas de datos de voz. En la evaluación Seed-TTS-Eval, dots.tts logró tasas de error de palabra (WER) del 0,94 % / 1,30 % / 6,60 % en conjuntos de prueba en chino, inglés y chino difícil, respectivamente, y puntuaciones de similitud (SIM) de 81,0 / 77,1 / 79,5, alcanzando niveles SOTA en código abierto. En la prueba de referencia MiniMax Multilingual con 24 idiomas, la similitud promedio del hablante alcanzó 83,9. Xiaohongshu ha proporcionado un espacio de prueba Gradio en Hugging Face para que los usuarios prueben en línea la clonación de voz en cero muestra.