Ibinahagi ng Xiaohongshu ang 2B-parameter na TTS model na dots.tts na may zero-shot voice cloning

Ayon sa pagmamasid ng Beating, ang Xiaohongshu hi lab ay nag-open source ng 2 milyong parameter na end-to-end autoregressive text-to-speech (TTS) na modelo na dots.tts, at isinampa ang buong inference at fine-tuning code sa ilalim ng Apache 2.0 license. Ang mga weight na ipinakalabas ay kasama ang base pre-trained version, ang self-corrective alignment (SCA) fine-tuned version, at ang low-latency inference distilled version. Sa pagkakaiba sa tradisyonal na TTS arkitektura na nagtatagpo ng discrete audio codec tokens (tulad ng VALL-E, CosyVoice, ChatTTS, atbp.), ang dots.tts ay nagtatagpo ng buong kontinuus, end-to-end autoregressive flow matching arkitektura na hindi gumagamit ng anumang discrete token sa buong pipeline. Ang dots.tts ay nagkakaisa ang kontinuus na feature mula sa 48 kHz sampling rate na AudioVAE, semantic encoder, backbone language model (na inisyalisado mula sa Qwen2.5-1.5B-Base, na direktang nagpaproseso ng BPE text nang walang pangangailangan ng pinyin input), at autoregressive flow matching acoustic head upang makapag-predict ng kontinuus na latent variables, na pagkatapos ay muling binubuo bilang audio ng generator. Dahil sa direkta na pag-predict ng kontinuus na feature, ang dots.tts ay nakaiwas sa pagkawala ng quality dulot ng discrete quantization, at nananatili ang detalye ng pagbigkas, pagkakatulad ng timbre, at ekspresyon ng emosyon. Ang dots.tts ay naka-pretrain gamit ang higit sa 1.5 milyong oras ng audio data. Sa pagtataya ng Seed-TTS-Eval, ang dots.tts ay nakakuha ng word error rate (WER) na 0.94% / 1.30% / 6.60% sa Chinese, English, at Chinese hard test sets, at similarity score (SIM) na 81.0 / 77.1 / 79.5, na lahat ay nasa SOTA level para sa open source. Sa MiniMax Multilingual benchmark sa 24 mga wika, ang average speaker similarity ay umabot sa 83.9. Ang Xiaohongshu ay nagbigay na Gradio demo space sa Hugging Face para sa mga user na subukan ang zero-shot voice cloning online.