StepAudio 2.5 TTS запускається з дрібнозернистим керуванням емоціями

KuCoinFlash

Час випуску: 16.04.2026, 07:01:13

Поділитися

Короткий зміст

StepAudio 2.5 TTS запущено 16 квітня (UTC+8), надаючи дрібність керування емоціями за допомогою природної мови. Користувачі тепер можуть вказувати тони, як-от «заглушене сумління, без плачучого тону, легке тремтіння». Система підтримує глобальний контекст, керування в тексті та клонування голосу без прикладів. Новини у ланцюжку підкреслюють цей прогрес у технологіях штучного інтелекту для аудіо. Тим часом Google випустила Gemini 3.1 Flash TTS, яка також використовує природну мову для точного модулювання мовлення. Глобальні обговорення щодо криптовалютної політики можуть скоро включити такі інструменти до ширших регуляторних рамок.

ME News: 16 квітня (UTC+8), за даними моніторингу Beating, Step星辰 офіційно запустила StepAudio 2.5 TTS. На відміну від традиційних TTS, які вимагають попередньо встановлених емоційних міток, ця версія дозволяє керувати кожним деталем голосу за допомогою природної мови: мітка може передати лише «сум», а природна мова може деталізувати: «затримана грусть, без сльоз у голосі, ледь помітне дрожання». ІІ відповідно синтезує відповідний тон. Керування має три рівні. Глобальний контекст визначає загальну емоційну основу та атмосферу сценарію, забезпечуючи послідовність виразу персонажів у багатокрокових діалогах; контекст у тексті регулює інтонацію, ритм, паузи, наголоси та відчуття дихання на рівні речень, навіть може передавати психологічні станы та підтекст персонажа; нульовий зразок відтворення голосу (Zeroshot TTS) не вимагає переоснащення — достатньо будь-якого зразка запису, щоб відтворити голос, при цьому емоції та стиль можна регулювати незалежно. Усі три функції вже повністю доступні на відкритій платформі Step星辰 та Step Plan. У той самий день Google також випустила Gemini 3.1 Flash TTS, яка також замінює SSML-мітки природними командами для точного керування та посіла перше місце у сторонніх тестах. Те, що обидві компанії випустили свої розробки в один день з однаковою концепцією, свідчить про те, що парадигма керування TTS універсально зміщується від «вибору міток» до «викладання потреб». Для створювачів аудіоконтенту та звукових режисерів раніше налаштування емоцій вимагало багаторазових записів, а зараз достатньо однієї фрази, щоб визначити тонкі нюанси голосу. (Джерело: BlockBeats)

Джерело:Показати оригінал

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.