Согласно новости ME, 16 апреля (UTC+8), по данным мониторинга Beating, StepAI официально выпустила StepAudio 2.5 TTS. В отличие от традиционных TTS, требующих предустановленных эмоциональных меток, эта версия поддерживает управление каждой деталью голоса с помощью естественного языка: метки могут передать только «грусть», тогда как естественный язык может детально описать «сдержанную грусть, без всхлипов, с легким дрожанием», и ИИ синтезирует соответствующий тембр на основе этого описания. Управление разделено на три уровня. Глобальный контекст задает эмоциональный тон и атмосферу всей речи, обеспечивая согласованность выражения персонажей в многоэтапном диалоге; контекст на уровне предложения регулирует интонацию, ритм, паузы, ударения и дыхание на уровне предложения, даже позволяя передать психическое состояние персонажа и подтекст; нулевая выборка воспроизведения тембра (Zeroshot TTS) не требует повторного обучения — достаточно любого эталонного аудиофайла для воспроизведения тембра, при этом эмоции и стиль можно регулировать независимо. Все три функции уже полностью доступны на открытой платформе StepAI и Step Plan. В тот же день Google выпустила Gemini 3.1 Flash TTS, которая также использует команды на естественном языке вместо SSML-меток для точного управления и заняла первое место в сторонних тестах. То, что обе компании выпустили обновления в один день, используя одинаковый подход, свидетельствует о том, что парадигма управления TTS в целом переходит от «выбора меток» к «формулированию запросов». Для создателей аудиоконтента и звукорежиссеров раньше настройка эмоций требовала многократных записей; теперь достаточно одного предложения, чтобы определить тонкие нюансы тембра. (Источник: BlockBeats)
StepAudio 2.5 TTS запускается с детальной эмоциональной настройкой
KuCoinFlashПоделиться






StepAudio 2.5 TTS был запущен 16 апреля (UTC+8) и предлагает детальный контроль эмоций через естественный язык. Пользователи теперь могут задавать тональности, такие как «сдержанная грусть, без плачущего тона, легкое дрожание». Система поддерживает глобальный контекст, управление внутри текста и клонирование голоса без примеров. Новости в блокчейне подчеркивают это достижение в области технологий AI для аудио. В то же время Google выпустил Gemini 3.1 Flash TTS, также использующий естественный язык для точной модуляции речи. Глобальные обсуждения криптовалютной политики могут вскоре включить такие инструменты в более широкие регуляторные рамки.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.