Xiaohongshu abre o código do modelo TTS de 2 bilhões de parâmetros dots.tts com clonagem de voz zero-shot

De acordo com o monitoramento da Beating, o hi lab do Xiaohongshu lançou o modelo de texto para fala (TTS) autoregressivo ponto a ponto com 2 bilhões de parâmetros, dots.tts, e disponibilizou publicamente todo o código de inferência e fine-tuning sob a licença Apache 2.0. Os pesos liberados incluem a versão pré-treinada básica, a versão fine-tuned com alinhamento de autocorreção (SCA) e a versão distilada para inferência de baixa latência. Diferentemente das arquiteturas tradicionais de TTS que dependem de tokens codificados discretos (Discrete Codec Tokens), como VALL-E, CosyVoice e ChatTTS, o dots.tts implementa uma arquitetura autoregressiva de fluxo contínuo e ponto a ponto, sem utilizar nenhum token discreto em toda a pipeline. O dots.tts combina características contínuas extraídas por um AudioVAE com taxa de amostragem de 48 kHz, um codificador semântico, um modelo de linguagem principal (inicializado a partir do Qwen2.5-1.5B-Base, processando diretamente texto BPE sem necessidade de entrada em pinyin) e uma cabeça acústica autoregressiva de correspondência de fluxo, prevendo variáveis latentes contínuas que são reconstruídas em áudio por um gerador. Ao prever diretamente características contínuas, o dots.tts evita perdas de qualidade causadas pela quantização discreta, preservando detalhes de pronúncia, similaridade de timbre e expressividade emocional. O dots.tts foi pré-treinado com aproximadamente 1,5 milhão de horas de dados de voz. No benchmark Seed-TTS-Eval, o dots.tts alcançou taxas de erro de palavra (WER) de 0,94% / 1,30% / 6,60% nos conjuntos de teste em chinês, inglês e chinês difícil, respectivamente, e pontuações de similaridade (SIM) de 81,0 / 77,1 / 79,5, todos atingindo o estado da arte aberto. No benchmark multilíngue MiniMax com 24 idiomas, a similaridade média do falante atingiu 83,9. O Xiaohongshu já disponibilizou no Hugging Face um espaço interativo Gradio para que os usuários testem online a clonagem de voz zero-shot.