Sierra, Çoklu Dilli ASR Değerlendirmesi İçin μ-Bench'i Açık Kaynak Hale Getiriyor

ME Haberleri'ne göre, 21 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, müşteri hizmetleri AI şirketi Sierra, μ-Bench adlı çok dilli otomatik ses tanıma (ASR) değerlendirme setini açık kaynak hale getirdi. Veriler, 250 gerçek müşteri hizmetleri telefon görüşmesinden ve 4.270 el ile etiketlenmiş ses kaydından elde edildi; örnekleme oranı 8 kHz, monofonik. Daha önce yayınlanan ASR değerlendirme setleri ya yalnızca İngilizceyi kapsıyordu ya da stüdyo ortamında okunan metinlerden oluşuyordu; bu nedenle çok dilli müşteri hizmetleri senaryolarına ses agenti entegrasyonu planlayan ekipler için neredeyse referans alınabilir değildi. μ-Bench, bu boşluğu doğrudan gerçek çağrılarla dolduruyor. Bu kez yayınlanan, Sierra'nın içsel tam değerlendirme setinin bir alt kümesidir. İçsel değerlendirme, 42 dil, 79 bölgesel varyasyon ve 13'ten fazla sağlayıcıyı kapsıyor; burada açık kaynak hale getirilenler ise İngilizce, İspanyolca, Türkçe, Vietnamca ve Çince olmak üzere beş bölge ile Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 ve OpenAI GPT-4o Mini Transcribe olmak üzere beş sağlayıcının performans verileridir. Kod, veri seti (Hugging Face üzerinde barındırılıyor) ve açık bir liderlik tablosu birlikte yayınlanmıştır; diğer sağlayıcıların katkıda bulunmaları teşvik edilmektedir. Değerlendirmede gerçekten yeni bilgi sağlayan kriterlerdir. Sierra, orijinal anlama etki eden hataları ve önemsiz hataları ayrı ayrı ölçen yeni bir kriter olan UER (Utterance Error Rate, ifade seviyesindeki hata oranı) öneriyor. Geleneksel WER (kelime hata oranı), bir “eh” sesini kaçırmakla bir telefon numarasını yanlış duymayı aynı hata olarak sayar; ancak bir ses agenti, transkripsiyona dayalı eylemler gerçekleştirdiğinde sadece ikincisi süreçte sorun yaratır. Sierra, iki sağlayıcının WER değerleri benzer olsa bile UER değerlerinin çok farklı olabileceğini belirtiyor; çünkü yaptıkları hata türleri farklıdır. Sonuçlar açısından, Google Chirp-3 en yüksek doğruluk oranına sahip ancak çıkarım hızı daha yavaştır; Deepgram Nova-3 ise p50 gecikmesi yaklaşık 8 kat daha hızlıdır ancak çok dilli doğruluk oranları en alt sırada yer alır. Çince tanıma hata oranı İngilizceye göre beş kat olabilmektedir; Vietnamca için farklı sağlayıcılar arasında büyük farklar mevcuttur; bu farklar yalnızca İngilizce bazlı ölçümlerle gözlemlenemez. (Kaynak: BlockBeats)