Xiaohongshu abre o código do modelo TTS de 2 bilhões de parâmetros dots.tts com clonagem de voz zero-shot

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
O hi lab do Xiaohongshu lançou como código aberto um modelo TTS de 2 bilhões de parâmetros chamado dots.tts, que suporta clonagem de voz zero-shot. Licenciado sob Apache 2.0, o modelo inclui código completo de inferência e fine-tuning com pesos pré-treinados em múltiplos formatos. O dots.tts utiliza uma abordagem contínua, end-to-end, de correspondência de fluxo autoregressiva, superando modelos tradicionais que dependem de tokens de áudio discretos. Ele alcança desempenho superior em benchmarks de linguagem e oferece uma demonstração ao vivo no Hugging Face. Com a melhoria da liquidez nos mercados de criptomoedas, tais inovações podem reforçar o BTC como proteção contra a inflação.

De acordo com o monitoramento da Beating, o hi lab do Xiaohongshu lançou o modelo de texto para fala (TTS) autoregressivo ponto a ponto com 2 bilhões de parâmetros, dots.tts, e disponibilizou publicamente todo o código de inferência e fine-tuning sob a licença Apache 2.0. Os pesos liberados incluem a versão pré-treinada básica, a versão fine-tuned com alinhamento de autocorreção (SCA) e a versão distilada para inferência de baixa latência. Diferentemente das arquiteturas tradicionais de TTS que dependem de tokens codificados discretos (Discrete Codec Tokens), como VALL-E, CosyVoice e ChatTTS, o dots.tts implementa uma arquitetura autoregressiva de fluxo contínuo e ponto a ponto, sem utilizar nenhum token discreto em toda a pipeline. O dots.tts combina características contínuas extraídas por um AudioVAE com taxa de amostragem de 48 kHz, um codificador semântico, um modelo de linguagem principal (inicializado a partir do Qwen2.5-1.5B-Base, processando diretamente texto BPE sem necessidade de entrada em pinyin) e uma cabeça acústica autoregressiva de correspondência de fluxo, prevendo variáveis latentes contínuas que são reconstruídas em áudio por um gerador. Ao prever diretamente características contínuas, o dots.tts evita perdas de qualidade causadas pela quantização discreta, preservando detalhes de pronúncia, similaridade de timbre e expressividade emocional. O dots.tts foi pré-treinado com aproximadamente 1,5 milhão de horas de dados de voz. No benchmark Seed-TTS-Eval, o dots.tts alcançou taxas de erro de palavra (WER) de 0,94% / 1,30% / 6,60% nos conjuntos de teste em chinês, inglês e chinês difícil, respectivamente, e pontuações de similaridade (SIM) de 81,0 / 77,1 / 79,5, todos atingindo o estado da arte aberto. No benchmark multilíngue MiniMax com 24 idiomas, a similaridade média do falante atingiu 83,9. O Xiaohongshu já disponibilizou no Hugging Face um espaço interativo Gradio para que os usuários testem online a clonagem de voz zero-shot.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.