За даними Beating Monitoring, лабораторія штучного інтелекту Xiaomi відкрила код OmniVoice — нульовий зразок моделі TTS (текст у мову) для клонування голосу, яка підтримує 646 мов. За кілька секунд референтного аудіо можна клонувати голос — навіть між мовами: надайте аудіозапис китайською, і модель зможе говорити японською, корейською чи іншою мовою тим самим голосом. Код, ваги та навчальні дані повністю відкриті за ліцензією Apache-2.0. Архітектурно OmniVoice дотримується мінімалістичного підходу. Вся модель складається з одного двонаправленого Transformer, який безпосередньо відображає текст на багатокодові акустичні токени (дискретні коди звуку), не вимагаючи двоетапного конвеєра з перетворення семантичних токенів у акустичні. Дві ключові ідеї забезпечують цю просту структуру: стратегія випадкового маскування всіх кодових книг для підвищення ефективності навчання та ініціалізація параметрів з попередньо навчених моделей великих мовних моделей для покращення точності вимови. Швидкість висновку — 40 разів швидше реального часу; працює безпосередньо в PyTorch без додаткової оптимізації. Навчальні дані походять виключно з 50 відкритих аудіодатасетів; після фільтрації шуму та оцінки якості загальний обсяг становить 580 000 годин. Для мов з обмеженими даними застосовується динамічне перевибірковання для забезпечення якості навчання. У тестах на 24 мовах OmniVoice перевершив кілька комерційних систем за схожістю голосу та зрозумілістю. У тестах на 102 мовах зрозумілість наближається до або навіть перевищує реальні записи. Модель може синтезувати мову навіть для мов з менш ніж 10 годинами навчальних даних. Крім клонування голосу, модель підтримує налаштування голосу за текстовим описом (наприклад, «чоловік, середнього віку, дуже низький тон» або «жінка, молодий вік, діалект Сичуань»), автоматичне зменшення шуму у референтних аудіо, додавання емоційних символів (сміх, стогнання) та корекцію вимови багатозначних слів та власних назв у китайській та англійській мовах.
Xiaomi відкриває код OmniVoice: модель клонування голосу для 646 мов, навчена на відкритих даних
MarsBitПоділитися






Команда Kaldi від Xiaomi AI Lab відкрила код OmniVoice — моделі тексту в голос без прикладів, яка підтримує 646 мов. Модель може клонувати тембр голосу за допомогою лише кількох секунд опорного аудіо і працює між мовами. Навчена на відкритих даних, вона перевершує комерційні системи за схожістю голосу та зрозумілістю. Дані ланцюга показують зростаючий інтерес до інструментів ШІ: відкритий інтерес до пов’язаних проектів стабільно зростає. Модель використовує один двонаправлений Transformer і оптимізована для швидкого висновку.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.