StepAudio 2.5 TTS, İnce Ayarlı Duygusal Kontrol ile Başlıyor

ME Haberleri'ne göre, 16 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, Step星辰 resmen StepAudio 2.5 TTS'i duyurdu. Geleneksel TTS sistemlerinin önceden tanımlanmış duygusal etiketlere ihtiyaç duymasının aksine, bu nesil, sesin her ayrıntısını doğal dil ile tanımlamayı destekliyor: Etiketler yalnızca "üzüntü" ifade edebilirken, doğal dil "kontrollü üzüntü, ağlama sesi olmadan, hafif titreyen" gibi daha detaylı tanımlamalar yapabilir; AI bu bilgileri kullanarak uygun ses tonunu sentezler. Kontrol üç katmanlıdır. Genel bağlam kontrolü, tüm sesin duygusal tonunu ve ortam atmosferini belirler ve çoklu diyaloglarda karakter ifadelerinin tutarlılığını sağlar; metin içi bağlam kontrolü, cümle düzeyinde tonu, ritmi, duraklamaları, vurguları ve nefes almayı ayarlar ve hatta karakterin psikolojik durumunu ve alt metni betimleyebilir; sıfır örnek ses kopyalama (Zeroshot TTS) yeniden eğitme gerektirmeden, herhangi bir referans kaydından ses tonunu taklit edebilir; duygular ve tarzlar bağımsız olarak ayarlanabilir. Üç fonksiyon da Step星辰 açık platformunda ve Step Plan'da tamamen yayına alınmıştır. Aynı gün, Google Gemini 3.1 Flash TTS'i de duyurdu ve aynı şekilde SSML etiketlerinin yerine doğal dil komutları kullanarak ince kontroller sağladı ve üçüncü taraf değerlendirmelerde birinci oldu. İki şirketin aynı günde aynı yaklaşımı benimsemesi, TTS kontrol paradigmalarının toplu olarak "etiket seçmek"ten "ihtiyacı söylemek"e geçtiğini gösteriyor. Sesli içerik üreticileri ve seslendirme yönetmenleri için, önceki zamanlarda duyguları ayarlamak için tekrar tekrar kayıt yapmak gerekiyordu; şimdi bir cümleyle ses tonunun ince katmanlarını tanımlayabilirsiniz. (Kaynak: BlockBeats)