Shanghay merkezli bir AI laboratuvarı, teknolojinin en büyük isimlerini sessizce utandırdı. StepFun’ın 24 Mayıs civarında piyasaya sürülen StepAudio 2.5 Realtime, Nisan 2026 testleri kapsamında tüm beş ana ses AI performans testini geçti ve GPT Realtime 1.5 ile Gemini Live’ı geride bıraktı.
Model, sadece ne söylediğinizi anlamaz; tonu, duyguyu ve konuşma hızını da yorumlar, bu da çoğu rekabetçi ses asistanını monotone bir metni okur gibi hissettirir.
Gürültünün ardındaki sayılar
StepAudio 2.5 Gerçek Zamanlı, test edilen tüm performans kategorilerinde en yüksek puanları aldı. İnsan değerlendirmesinde 80,41 puan aldı. Genel diyalog performansı 86,36'ya ulaştı. Otomotiv senaryo testi, modelin sürüş bağlamında ses etkileşimlerini nasıl işlediğini ölçer ve 84,80 puan aldı.
11 ayrı görevi kapsayan konuşma tabanlı soru-cevap performans testi 79,80 puan aldı. En ilginç metrik olarak kabul edilebilecek paralingüistik anlama puanı ise 82,18'e ulaştı.
Bağlamda, modelin öncüsü StepAudio 2, MMAU benchmark skoru 77,4% ile dikkatleri üzerine çekmişti. 2.5 Realtime'e geçiş, pazarlama diliyle süslenmiş küçük bir sürüm yükseltmesinden ziyade anlamlı bir atlamadır.
Nasıl çalıştığını öğrenin
Mimari, bunu diğerlerinden ayıran unsurdur. StepAudio 2.5 Realtime, otomatik konuşma tanıma (ASR), metinden konuşmaya (TTS) ve gerçek zamanlı diyalog işleme gibi üç temel özelliği tek bir çerçevede birleştiren tek bir ses-giriş, ses-çıkış tasarımı kullanır.
Şöyle düşünün: çoğu sesli AI sistemi aşamalı çalışır. Konuşmanızı metne dönüştürür, metni işler, metin olarak bir yanıt oluşturur ve ardından bunu tekrar seslendirir. Her elden elgeçişte gecikme oluşur ve nüanslar kaybolur. StepFun’un yaklaşımı bu adımları tek bir bütüncül sisteme birleştirir.
Gizli sosu, StepFun'un kişiliköze özel İnsan Geri Bildiriminden Güçlendirme Öğrenimi (RLHF) olarak adlandırdığı şeydir. Standart RLHF, bir modeli insan tercihlerine göre daha iyi yanıtlar vermeye eğitir. StepFun’un versiyonu, bu geri bildirim döngüsünü belirli kişiliklere uyarlayarak daha ileri gider; bu da modelin uzun süreli rol oynama veya müşteri hizmeti senaryolarında tutarlı karakter özellikleri korumasını sağlar.
Model şu anda Çince ve İngilizceyi destekliyor, ‘step-2.5-realtime’ model dizesi üzerinden WebSocket API ile bağlantı kuruyor ve StepFun’un platform API’si ile özel bir gerçek zamanlı konsol aracılığıyla erişilebiliyor. Mimariyi detaylı açıklayan bir teknik rapor, arXiv’de 2605.23463 kimliği altında yayınlandı.
Neden paralingüistik anlama önemlidir
StepAudio 2.5’in paralingüistik anlama konusundaki 82,18 puanı, StepFun’un bu konuda gerçek ilerleme kaydettiğini gösteriyor. Arayanın tonunda hayal kırıklığını algılayıp bir insan temsilcisine yönlendirebilen ya da kafa karışıklığını fark ettiğinde konuşmasını yavaşlatabilen bir ses asistanı, sadece kelimeleri doğru şekilde işleyen bir üründen temel olarak farklı bir ürün temsil eder.
84,80 otomotiv senaryosu performans puanı, başka bir kârlı uygulama işaret etmektedir. Araç içi ses asistanları gürültülü ortamlarla başa çıkmalı, komutları hızlıca yorumlamalı ve ideal olarak sürücünün stresli mi yoksa rahat mı olduğunu anlayabilmelidir.
