Xiaohongshu відкрила вихідний код TTS-моделі з 2 мільярдами параметрів dots.tts з нульовою клонуванням голосу

icon MarsBit
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Лабораторія Xiaohongshu hi відкрила код 2-мільярдного TTS-моделі під назвою dots.tts, яка підтримує клонування голосу без прикладів. Під ліцензією Apache 2.0 модель надає повний код висновку та доналаштування з переднатренованими вагами у кількох форматах. dots.tts використовує безперервний, кінцево-кінцевий авторегресивний підхід до збігання потоків, що перевершує традиційні моделі, що базуються на дискретних аудіотокенах. Вона досягає найкращих результатів у мовних тестах і пропонує живу демонстрацію на Hugging Face. Зі зростанням ліквідності на криптовалютних ринках такі інновації можуть підкріпити BTC як захист від інфляції.

За даними Beating Monitoring, Xiao Hong Shu hi lab відкрила 2-мільярдний параметричний енд-ту-енд архітектурний текстово-відео (TTS) моделі dots.tts та опублікувала повний код інференсу та тонкої настройки за ліцензією Apache 2.0. Опубліковані ваги включають базову версію попереднього навчання, версію з тонкою настройкою за принципом самокорекції та вирівнювання (SCA), а також версію з дистиляцією для низької затримки інференсу. Відмінно від традиційних архітектур TTS, які залежать від дискретних аудіо-кодек-токенів (наприклад, VALL-E, CosyVoice, ChatTTS), dots.tts реалізує повністю безперервну, енд-ту-енд архітектуру зі збігом потоку, не використовуючи жодних дискретних токенів у всьому конвеєрі. dots.tts поєднує безперервні функції, отримані з AudioVAE з частотою дискретизації 48 кГц, семантичний енкодер, основну мовну модель (ініціалізована з Qwen2.5-1.5B-Base, яка безпосередньо обробляє BPE-текст, без потреби у піньїнь-вводі) та архітектуру акустичного головного модуля зі збігом потоку, щоб передбачати безперервні латентні змінні, які потім генератор перетворює у аудіо. Завдяки прямому передбаченню безперервних функцій, dots.tts уникнув втрат якості звуку, пов’язаних із дискретною квантизацією, зберігши деталі вимови, схожість тембру та емоційну виразність. dots.tts була попередньо навчена на приблизно 1,5 мільйона годинах аудіоданих. У тестах Seed-TTS-Eval dots.tts показала показники WER (частота помилок на слово) для китайської, англійської та складних китайських тестових наборів: 0,94% / 1,30% / 6,60%, а також показники SIM (схожість): 81,0 / 77,1 / 79,5 — усі на рівні SOTA для відкритих джерел. У тестах на мультиязичному бенчмарку MiniMax Multilingual з 24 мовами середнє значення схожості говорця досягло 83,9. Xiao Hong Shu надала Gradio-простір на Hugging Face для онлайн-тестування клонування голосу без прикладу.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.