Xiaomi открывает исходный код OmniVoice: модель клонирования голоса на 646 языках, обученная на открытых данных

Согласно наблюдениям Beating, лаборатория ИИ Xiaomi открыла код OmniVoice — новую модель TTS (текст в речь) с нулевым образцом, поддерживающую 646 языков. С помощью нескольких секунд эталонного аудио можно клонировать голос — даже на других языках: введя китайскую запись, модель сможет произнести японский, корейский или любой другой язык тем же голосом. Код, веса и обучающие данные полностью открыты под лицензией Apache-2.0. Архитектурно OmniVoice отличается крайней простотой: вся модель состоит из одного двунаправленного Transformer, который напрямую преобразует текст в мульти-кодбуковые акустические токены (дискретные кодировки звука), исключая двухэтапную конвейерную схему сначала преобразования в семантические токены, а затем в акустические. Две ключевые инновации обеспечивают эту простую структуру: стратегия случайного маскирования всех кодбуков повышает эффективность обучения, а инициализация параметрами предварительно обученной языковой модели улучшает точность произношения. Скорость вывода — в 40 раз выше реального времени; модель работает напрямую в PyTorch без дополнительной оптимизации. Обучающие данные полностью взяты из 50 открытых аудио-наборов, после шумоподавления и отбора по качеству составили 580 000 часов. Для языков с малым объемом данных применяется динамическая апсемплинг для обеспечения качества обучения. В тестах на 24 языках OmniVoice превзошел по сходству и понятности речи множество коммерческих систем. При тестировании на 102 языках понятность речи приблизилась к реальным записям или даже превзошла их. Модель способна генерировать речь даже для языков с обучающими данными менее 10 часов. Помимо клонирования голоса, модель поддерживает настройку голоса по текстовому описанию (например, «мужчина, среднего возраста, очень низкий тон» или «женщина, молодая, диалект Сычуань»), автоматическое подавление шума в эталонных аудиофайлах, вставку эмоциональных маркеров — смеха, вздохов и т.п., а также коррекцию произношения многозначных слов и собственных имен на китайском и английском языках.