Xiaomi відкриває код OmniVoice: модель клонування голосу для 646 мов, навчена на відкритих даних

За даними Beating Monitoring, лабораторія штучного інтелекту Xiaomi відкрила код OmniVoice — нульовий зразок моделі TTS (текст у мову) для клонування голосу, яка підтримує 646 мов. За кілька секунд референтного аудіо можна клонувати голос — навіть між мовами: надайте аудіозапис китайською, і модель зможе говорити японською, корейською чи іншою мовою тим самим голосом. Код, ваги та навчальні дані повністю відкриті за ліцензією Apache-2.0. Архітектурно OmniVoice дотримується мінімалістичного підходу. Вся модель складається з одного двонаправленого Transformer, який безпосередньо відображає текст на багатокодові акустичні токени (дискретні коди звуку), не вимагаючи двоетапного конвеєра з перетворення семантичних токенів у акустичні. Дві ключові ідеї забезпечують цю просту структуру: стратегія випадкового маскування всіх кодових книг для підвищення ефективності навчання та ініціалізація параметрів з попередньо навчених моделей великих мовних моделей для покращення точності вимови. Швидкість висновку — 40 разів швидше реального часу; працює безпосередньо в PyTorch без додаткової оптимізації. Навчальні дані походять виключно з 50 відкритих аудіодатасетів; після фільтрації шуму та оцінки якості загальний обсяг становить 580 000 годин. Для мов з обмеженими даними застосовується динамічне перевибірковання для забезпечення якості навчання. У тестах на 24 мовах OmniVoice перевершив кілька комерційних систем за схожістю голосу та зрозумілістю. У тестах на 102 мовах зрозумілість наближається до або навіть перевищує реальні записи. Модель може синтезувати мову навіть для мов з менш ніж 10 годинами навчальних даних. Крім клонування голосу, модель підтримує налаштування голосу за текстовим описом (наприклад, «чоловік, середнього віку, дуже низький тон» або «жінка, молодий вік, діалект Сичуань»), автоматичне зменшення шуму у референтних аудіо, додавання емоційних символів (сміх, стогнання) та корекцію вимови багатозначних слів та власних назв у китайській та англійській мовах.