Selon les données de Beating, Xiaohongshu hi lab a open-sourcé le modèle TTS autoregressif end-to-end dots.tts de 2 milliards de paramètres et a publié intégralement le code d'inférence et de fine-tuning sous licence Apache 2.0. Les poids publiés incluent la version de pré-entraînement de base, la version fine-tunée avec alignement auto-correction (SCA) et la version distillée pour inférence à faible latence. Contrairement aux architectures TTS traditionnelles qui reposent sur des tokens audio discrets (Discrete Codec Tokens), comme VALL-E, CosyVoice ou ChatTTS, dots.tts implémente une architecture entièrement continue, end-to-end, basée sur un matching de flux autoregressif, sans utiliser aucun token discret dans toute la chaîne. dots.tts combine les caractéristiques continues extraites par un AudioVAE à 48 kHz, un encodeur sémantique, un modèle linguistique principal (initialisé à partir de Qwen2.5-1.5B-Base, traitant directement le texte BPE sans entrée pinyin) et une tête acoustique autoregressive de matching de flux, pour prédire des variables latentes continues reconstruites en audio par un générateur. En prédicant directement des caractéristiques continues, dots.tts évite la perte de qualité causée par la quantification discrète, préservant ainsi les détails de prononciation, la similarité timbrale et l'expressivité émotionnelle. dots.tts a été pré-entraîné sur environ 1,5 million d'heures de données vocales. Sur l'évaluation Seed-TTS-Eval, dots.tts obtient des taux d'erreur sur les mots (WER) de 0,94 % / 1,30 % / 6,60 % pour le chinois, l'anglais et les ensembles de tests chinois difficiles respectivement, avec des scores de similarité (SIM) de 81,0 / 77,1 / 79,5, atteignant ainsi un niveau SOTA parmi les modèles open-source. Sur le benchmark multilingue MiniMax contenant 24 langues, la similarité moyenne des locuteurs atteint 83,9. Xiaohongshu a mis à disposition sur Hugging Face un espace Gradio pour permettre aux utilisateurs de tester en ligne le clonage vocal zero-shot.
Xiaohongshu open-source le modèle TTS de 2 milliards de paramètres dots.tts avec une imitation vocale zero-shot
MarsBitPartager






Le laboratoire Hi de Xiaohongshu a open-sourcé un modèle TTS de 2 milliards de paramètres appelé dots.tts, qui prend en charge le clonage vocal en zero-shot. Sous licence Apache 2.0, le modèle inclut un code complet d'inférence et de fine-tuning avec des poids pré-entraînés dans plusieurs formats. dots.tts utilise une approche continue, end-to-end, fondée sur le matching de flux autoregressif, dépassant les modèles traditionnels basés sur des jetons audio discrets. Il obtient les meilleures performances sur les benchmarks linguistiques et propose une démonstration en direct sur Hugging Face. Avec une liquidité améliorée sur les marchés crypto, de telles innovations pourraient renforcer le BTC en tant que couverture contre l'inflation.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.