Согласно наблюдениям Beating, лаборатория ИИ Xiaomi открыла код OmniVoice — новую модель TTS (текст в речь) с нулевым образцом, поддерживающую 646 языков. С помощью нескольких секунд эталонного аудио можно клонировать голос — даже на других языках: введя китайскую запись, модель сможет произнести японский, корейский или любой другой язык тем же голосом. Код, веса и обучающие данные полностью открыты под лицензией Apache-2.0. Архитектурно OmniVoice отличается крайней простотой: вся модель состоит из одного двунаправленного Transformer, который напрямую преобразует текст в мульти-кодбуковые акустические токены (дискретные кодировки звука), исключая двухэтапную конвейерную схему сначала преобразования в семантические токены, а затем в акустические. Две ключевые инновации обеспечивают эту простую структуру: стратегия случайного маскирования всех кодбуков повышает эффективность обучения, а инициализация параметрами предварительно обученной языковой модели улучшает точность произношения. Скорость вывода — в 40 раз выше реального времени; модель работает напрямую в PyTorch без дополнительной оптимизации. Обучающие данные полностью взяты из 50 открытых аудио-наборов, после шумоподавления и отбора по качеству составили 580 000 часов. Для языков с малым объемом данных применяется динамическая апсемплинг для обеспечения качества обучения. В тестах на 24 языках OmniVoice превзошел по сходству и понятности речи множество коммерческих систем. При тестировании на 102 языках понятность речи приблизилась к реальным записям или даже превзошла их. Модель способна генерировать речь даже для языков с обучающими данными менее 10 часов. Помимо клонирования голоса, модель поддерживает настройку голоса по текстовому описанию (например, «мужчина, среднего возраста, очень низкий тон» или «женщина, молодая, диалект Сычуань»), автоматическое подавление шума в эталонных аудиофайлах, вставку эмоциональных маркеров — смеха, вздохов и т.п., а также коррекцию произношения многозначных слов и собственных имен на китайском и английском языках.
Xiaomi открывает исходный код OmniVoice: модель клонирования голоса на 646 языках, обученная на открытых данных
MarsBitПоделиться






Команда Kaldi из лаборатории Xiaomi AI опубликовала OmniVoice — модель текста в речь с нулевым обучением, поддерживающую 646 языков. Модель может клонировать тембр голоса, используя всего несколько секунд эталонного аудио, и работает межъязыково. Обученная на открытых данных, она превосходит коммерческие системы по сходству голоса и разборчивости. Цепные данные показывают растущий интерес к инструментам ИИ: открытый интерес к связанным проектам стабильно растет. Модель использует один двунаправленный Transformer и оптимизирована для быстрого вывода.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.