Sierra, Çoklu Dilli ASR Değerlendirmesi İçin μ-Bench'i Açık Kaynak Hale Getiriyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Sierra, bir müşteri hizmetleri AI firması, 250 gerçek çağrı kaydı ve 4.270 etiketli örnek içeren çok dilli bir ASR benchmarkı olan μ-Bench'i açık kaynak hale getirdi. Veri seti, 8 kHz ses kullanıyor ve anlamlı hataları izlemek için UER adlı bir metrik tanıtıyor. Sonuçlar, Mandarin dilindeki hata oranlarının İngilizceye göre beş kat daha yüksek olduğunu gösteriyor. Bu yayın, yeni token listelemelerine yönelik artan ilgiyle ve piyasaların enflasyon verilerine tepki vermesi sırasında gerçekleşti.

ME Haberleri'ne göre, 21 Nisan (UTC+8) tarihinde Beating tarafından izlendiğine göre, müşteri hizmetleri AI şirketi Sierra, μ-Bench adlı çok dilli otomatik ses tanıma (ASR) değerlendirme setini açık kaynak hale getirdi. Veriler, 250 gerçek müşteri hizmetleri telefon görüşmesinden ve 4.270 el ile etiketlenmiş ses kaydından elde edildi; örnekleme oranı 8 kHz, monofonik. Daha önce yayınlanan ASR değerlendirme setleri ya yalnızca İngilizceyi kapsıyordu ya da stüdyo ortamında okunan metinlerden oluşuyordu; bu nedenle çok dilli müşteri hizmetleri senaryolarına ses agenti entegrasyonu planlayan ekipler için neredeyse referans alınabilir değildi. μ-Bench, bu boşluğu doğrudan gerçek çağrılarla dolduruyor. Bu kez yayınlanan, Sierra'nın içsel tam değerlendirme setinin bir alt kümesidir. İçsel değerlendirme, 42 dil, 79 bölgesel varyasyon ve 13'ten fazla sağlayıcıyı kapsıyor; burada açık kaynak hale getirilenler ise İngilizce, İspanyolca, Türkçe, Vietnamca ve Çince olmak üzere beş bölge ile Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 ve OpenAI GPT-4o Mini Transcribe olmak üzere beş sağlayıcının performans verileridir. Kod, veri seti (Hugging Face üzerinde barındırılıyor) ve açık bir liderlik tablosu birlikte yayınlanmıştır; diğer sağlayıcıların katkıda bulunmaları teşvik edilmektedir. Değerlendirmede gerçekten yeni bilgi sağlayan kriterlerdir. Sierra, orijinal anlama etki eden hataları ve önemsiz hataları ayrı ayrı ölçen yeni bir kriter olan UER (Utterance Error Rate, ifade seviyesindeki hata oranı) öneriyor. Geleneksel WER (kelime hata oranı), bir “eh” sesini kaçırmakla bir telefon numarasını yanlış duymayı aynı hata olarak sayar; ancak bir ses agenti, transkripsiyona dayalı eylemler gerçekleştirdiğinde sadece ikincisi süreçte sorun yaratır. Sierra, iki sağlayıcının WER değerleri benzer olsa bile UER değerlerinin çok farklı olabileceğini belirtiyor; çünkü yaptıkları hata türleri farklıdır. Sonuçlar açısından, Google Chirp-3 en yüksek doğruluk oranına sahip ancak çıkarım hızı daha yavaştır; Deepgram Nova-3 ise p50 gecikmesi yaklaşık 8 kat daha hızlıdır ancak çok dilli doğruluk oranları en alt sırada yer alır. Çince tanıma hata oranı İngilizceye göre beş kat olabilmektedir; Vietnamca için farklı sağlayıcılar arasında büyük farklar mevcuttur; bu farklar yalnızca İngilizce bazlı ölçümlerle gözlemlenemez. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.