Xiaomi открывает исходный код OmniVoice: модель клонирования голоса на 646 языках, обученная на открытых данных

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Команда Kaldi из лаборатории Xiaomi AI опубликовала OmniVoice — модель текста в речь с нулевым обучением, поддерживающую 646 языков. Модель может клонировать тембр голоса, используя всего несколько секунд эталонного аудио, и работает межъязыково. Обученная на открытых данных, она превосходит коммерческие системы по сходству голоса и разборчивости. Цепные данные показывают растущий интерес к инструментам ИИ: открытый интерес к связанным проектам стабильно растет. Модель использует один двунаправленный Transformer и оптимизирована для быстрого вывода.

Согласно наблюдениям Beating, лаборатория ИИ Xiaomi открыла код OmniVoice — новую модель TTS (текст в речь) с нулевым образцом, поддерживающую 646 языков. С помощью нескольких секунд эталонного аудио можно клонировать голос — даже на других языках: введя китайскую запись, модель сможет произнести японский, корейский или любой другой язык тем же голосом. Код, веса и обучающие данные полностью открыты под лицензией Apache-2.0. Архитектурно OmniVoice отличается крайней простотой: вся модель состоит из одного двунаправленного Transformer, который напрямую преобразует текст в мульти-кодбуковые акустические токены (дискретные кодировки звука), исключая двухэтапную конвейерную схему сначала преобразования в семантические токены, а затем в акустические. Две ключевые инновации обеспечивают эту простую структуру: стратегия случайного маскирования всех кодбуков повышает эффективность обучения, а инициализация параметрами предварительно обученной языковой модели улучшает точность произношения. Скорость вывода — в 40 раз выше реального времени; модель работает напрямую в PyTorch без дополнительной оптимизации. Обучающие данные полностью взяты из 50 открытых аудио-наборов, после шумоподавления и отбора по качеству составили 580 000 часов. Для языков с малым объемом данных применяется динамическая апсемплинг для обеспечения качества обучения. В тестах на 24 языках OmniVoice превзошел по сходству и понятности речи множество коммерческих систем. При тестировании на 102 языках понятность речи приблизилась к реальным записям или даже превзошла их. Модель способна генерировать речь даже для языков с обучающими данными менее 10 часов. Помимо клонирования голоса, модель поддерживает настройку голоса по текстовому описанию (например, «мужчина, среднего возраста, очень низкий тон» или «женщина, молодая, диалект Сычуань»), автоматическое подавление шума в эталонных аудиофайлах, вставку эмоциональных маркеров — смеха, вздохов и т.п., а также коррекцию произношения многозначных слов и собственных имен на китайском и английском языках.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.