Xiaohongshu open-source le modèle TTS de 2 milliards de paramètres dots.tts avec une imitation vocale zero-shot

Selon les données de Beating, Xiaohongshu hi lab a open-sourcé le modèle TTS autoregressif end-to-end dots.tts de 2 milliards de paramètres et a publié intégralement le code d'inférence et de fine-tuning sous licence Apache 2.0. Les poids publiés incluent la version de pré-entraînement de base, la version fine-tunée avec alignement auto-correction (SCA) et la version distillée pour inférence à faible latence. Contrairement aux architectures TTS traditionnelles qui reposent sur des tokens audio discrets (Discrete Codec Tokens), comme VALL-E, CosyVoice ou ChatTTS, dots.tts implémente une architecture entièrement continue, end-to-end, basée sur un matching de flux autoregressif, sans utiliser aucun token discret dans toute la chaîne. dots.tts combine les caractéristiques continues extraites par un AudioVAE à 48 kHz, un encodeur sémantique, un modèle linguistique principal (initialisé à partir de Qwen2.5-1.5B-Base, traitant directement le texte BPE sans entrée pinyin) et une tête acoustique autoregressive de matching de flux, pour prédire des variables latentes continues reconstruites en audio par un générateur. En prédicant directement des caractéristiques continues, dots.tts évite la perte de qualité causée par la quantification discrète, préservant ainsi les détails de prononciation, la similarité timbrale et l'expressivité émotionnelle. dots.tts a été pré-entraîné sur environ 1,5 million d'heures de données vocales. Sur l'évaluation Seed-TTS-Eval, dots.tts obtient des taux d'erreur sur les mots (WER) de 0,94 % / 1,30 % / 6,60 % pour le chinois, l'anglais et les ensembles de tests chinois difficiles respectivement, avec des scores de similarité (SIM) de 81,0 / 77,1 / 79,5, atteignant ainsi un niveau SOTA parmi les modèles open-source. Sur le benchmark multilingue MiniMax contenant 24 langues, la similarité moyenne des locuteurs atteint 83,9. Xiaohongshu a mis à disposition sur Hugging Face un espace Gradio pour permettre aux utilisateurs de tester en ligne le clonage vocal zero-shot.