Согласно данным Beating Monitor, Xiaohongshu hi lab открыла исходный код 2-миллиардного параметрического энд-ту-энд авторегрессивного текстового синтеза речи (TTS) модели dots.tts и публично выпустила полный код для вывода и тонкой настройки в соответствии с лицензией Apache 2.0. Опубликованные веса включают базовую предобученную версию, версию с тонкой настройкой по самокорректирующемуся выравниванию (SCA) и версию с дистилляцией для низкой задержки вывода. В отличие от традиционных архитектур TTS, основанных на дискретных аудио-кодек-токенах (например, VALL-E, CosyVoice, ChatTTS), dots.tts реализует полностью непрерывную архитектуру авторегрессивного потокового соответствия, полностью исключая использование любых дискретных токенов на всем протяжении конвейера. dots.tts объединяет непрерывные признаки, извлеченные AudioVAE с частотой дискретизации 48 кГц, семантический энкодер, основную языковую модель (инициализированную на основе Qwen2.5-1.5B-Base, обрабатывающую текст непосредственно в формате BPE без необходимости ввода пиньиня) и авторегрессивный акустический заголовок потокового соответствия для прогнозирования непрерывных латентных переменных, которые затем реконструируются в аудио генератором. Благодаря прямому прогнозированию непрерывных признаков dots.tts избегает потерь качества звука, вызванных дискретной квантизацией, сохраняя детали произношения, сходство тембра и эмоциональную выразительность. Модель dots.tts была предобучена на примерно 1,5 миллиона часов аудиоданных. В оценке Seed-TTS-Eval dots.tts показала коэффициент ошибок на слово (WER) 0,94% / 1,30% / 6,60% для китайского, английского и сложного китайского тестовых наборов соответственно, а также показатели сходства (SIM) 81,0 / 77,1 / 79,5 — все они достигли уровня SOTA среди открытых решений. В тесте MiniMax Multilingual на 24 языках средний показатель сходства говорящего составил 83,9. Xiaohongshu предоставила интерактивное пространство Gradio на Hugging Face для онлайн-тестирования клонирования голоса без примеров.
Xiaohongshu открывает исходный код TTS-модели с 2 млрд параметров dots.tts с возможностью клонирования голоса без примеров
MarsBitПоделиться






Лаборатория Xiaohongshu hi lab открыла исходный код TTS-модели с 2 млрд параметров под названием dots.tts, поддерживающей клонирование голоса без примеров. Модель распространяется под лицензией Apache 2.0 и включает полный код для вывода и дообучения с предварительно обученными весами в нескольких форматах. dots.tts использует непрерывный, энд-ту-энд архитектурный подход на основе потокового соответствия, превосходя традиционные модели, основанные на дискретных аудиотокенах. Она демонстрирует лучшие результаты на языковых тестах и предлагает живую демонстрацию на Hugging Face. С улучшением ликвидности на криптовалютных рынках такие инновации могут укрепить позиции BTC как средства защиты от инфляции.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.