Xiaohongshu открывает исходный код TTS-модели с 2 млрд параметров dots.tts с возможностью клонирования голоса без примеров

Согласно данным Beating Monitor, Xiaohongshu hi lab открыла исходный код 2-миллиардного параметрического энд-ту-энд авторегрессивного текстового синтеза речи (TTS) модели dots.tts и публично выпустила полный код для вывода и тонкой настройки в соответствии с лицензией Apache 2.0. Опубликованные веса включают базовую предобученную версию, версию с тонкой настройкой по самокорректирующемуся выравниванию (SCA) и версию с дистилляцией для низкой задержки вывода. В отличие от традиционных архитектур TTS, основанных на дискретных аудио-кодек-токенах (например, VALL-E, CosyVoice, ChatTTS), dots.tts реализует полностью непрерывную архитектуру авторегрессивного потокового соответствия, полностью исключая использование любых дискретных токенов на всем протяжении конвейера. dots.tts объединяет непрерывные признаки, извлеченные AudioVAE с частотой дискретизации 48 кГц, семантический энкодер, основную языковую модель (инициализированную на основе Qwen2.5-1.5B-Base, обрабатывающую текст непосредственно в формате BPE без необходимости ввода пиньиня) и авторегрессивный акустический заголовок потокового соответствия для прогнозирования непрерывных латентных переменных, которые затем реконструируются в аудио генератором. Благодаря прямому прогнозированию непрерывных признаков dots.tts избегает потерь качества звука, вызванных дискретной квантизацией, сохраняя детали произношения, сходство тембра и эмоциональную выразительность. Модель dots.tts была предобучена на примерно 1,5 миллиона часов аудиоданных. В оценке Seed-TTS-Eval dots.tts показала коэффициент ошибок на слово (WER) 0,94% / 1,30% / 6,60% для китайского, английского и сложного китайского тестовых наборов соответственно, а также показатели сходства (SIM) 81,0 / 77,1 / 79,5 — все они достигли уровня SOTA среди открытых решений. В тесте MiniMax Multilingual на 24 языках средний показатель сходства говорящего составил 83,9. Xiaohongshu предоставила интерактивное пространство Gradio на Hugging Face для онлайн-тестирования клонирования голоса без примеров.