Ayon sa pagmamasid ng Beating, ang Xiaohongshu hi lab ay nag-open source ng 2 milyong parameter na end-to-end autoregressive text-to-speech (TTS) na modelo na dots.tts, at isinampa ang buong inference at fine-tuning code sa ilalim ng Apache 2.0 license. Ang mga weight na ipinakalabas ay kasama ang base pre-trained version, ang self-corrective alignment (SCA) fine-tuned version, at ang low-latency inference distilled version. Sa pagkakaiba sa tradisyonal na TTS arkitektura na nagtatagpo ng discrete audio codec tokens (tulad ng VALL-E, CosyVoice, ChatTTS, atbp.), ang dots.tts ay nagtatagpo ng buong kontinuus, end-to-end autoregressive flow matching arkitektura na hindi gumagamit ng anumang discrete token sa buong pipeline. Ang dots.tts ay nagkakaisa ang kontinuus na feature mula sa 48 kHz sampling rate na AudioVAE, semantic encoder, backbone language model (na inisyalisado mula sa Qwen2.5-1.5B-Base, na direktang nagpaproseso ng BPE text nang walang pangangailangan ng pinyin input), at autoregressive flow matching acoustic head upang makapag-predict ng kontinuus na latent variables, na pagkatapos ay muling binubuo bilang audio ng generator. Dahil sa direkta na pag-predict ng kontinuus na feature, ang dots.tts ay nakaiwas sa pagkawala ng quality dulot ng discrete quantization, at nananatili ang detalye ng pagbigkas, pagkakatulad ng timbre, at ekspresyon ng emosyon. Ang dots.tts ay naka-pretrain gamit ang higit sa 1.5 milyong oras ng audio data. Sa pagtataya ng Seed-TTS-Eval, ang dots.tts ay nakakuha ng word error rate (WER) na 0.94% / 1.30% / 6.60% sa Chinese, English, at Chinese hard test sets, at similarity score (SIM) na 81.0 / 77.1 / 79.5, na lahat ay nasa SOTA level para sa open source. Sa MiniMax Multilingual benchmark sa 24 mga wika, ang average speaker similarity ay umabot sa 83.9. Ang Xiaohongshu ay nagbigay na Gradio demo space sa Hugging Face para sa mga user na subukan ang zero-shot voice cloning online.
Ibinahagi ng Xiaohongshu ang 2B-parameter na TTS model na dots.tts na may zero-shot voice cloning
MarsBitI-share






Ang hi lab ng Xiaohongshu ay nag-open source ng isang TTS model na may 2B parameter na tawagin dots.tts, na sumusuporta sa zero-shot voice cloning. Na-licensyado sa ilalim ng Apache 2.0, ang model ay may buong inference at fine-tuning code kasama ang pre-trained weights sa maraming format. Gumagamit ang dots.tts ng isang tuloy-tuloy, end-to-end autoregressive flow matching na pagkakasunod-sunod, na lalong hihigit sa mga tradisyonal na model na nakasalalay sa discrete audio tokens. Nakakamit nito ang pinakamataas na performance sa mga language benchmarks at nag-aalok ng live demo sa Hugging Face. Kasama ang pagpapabuti ng liquidity sa crypto markets, ang ganitong mga inobasyon ay maaaring pagsanayin ang BTC bilang hedge laban sa inflation.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.