Sierra Membuka Sumber μ-Bench untuk Evaluasi ASR Multibahasa

Berita ME, 21 April (UTC+8), menurut pemantauan Beating, perusahaan AI layanan pelanggan Sierra merilis dataset evaluasi pengenalan suara multibahasa (ASR) μ-Bench secara terbuka, yang terdiri dari 250 rekaman telepon layanan pelanggan asli dan 4.270 suara yang ditandai secara manual, dengan sampling rate 8 kHz dan mono. Evaluasi ASR sebelumnya yang dipublikasikan hanya fokus pada bahasa Inggris atau menggunakan bahan bacaan studio rekaman, sehingga hampir tidak relevan bagi tim yang berencana mengintegrasikan agen suara ke dalam skenario layanan pelanggan multibahasa. μ-Bench secara langsung mengisi celah ini dengan menggunakan percakapan nyata. Versi yang dirilis kali ini adalah subset dari seluruh rangkaian evaluasi internal Sierra. Evaluasi internal mencakup 42 bahasa, 79 varian regional, dan lebih dari 13 penyedia. Versi open-source ini mencakup lima wilayah: bahasa Inggris, Spanyol, Turki, Vietnam, dan Mandarin, serta skor dari lima penyedia: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, dan OpenAI GPT-4o Mini Transcribe. Kode, dataset (yang tersedia di Hugging Face), dan leaderboard terbuka juga dirilis bersamaan, dan diundang untuk pengiriman dari penyedia lain. Informasi baru yang paling signifikan dalam evaluasi ini terletak pada metriknya. Sierra memperkenalkan metrik baru UER (Utterance Error Rate, tingkat kesalahan tingkat ucapan), yang memisahkan kesalahan yang mengubah makna asli dari kesalahan yang tidak penting. Metrik WER tradisional menganggap kehilangan satu kata "eh" dan salah mendengar nomor telepon sebagai jenis kesalahan yang sama, tetapi bagi agen suara yang menjalankan tindakan berdasarkan transkripsi, kesalahan terakhirlah yang dapat mengganggu proses. Sierra menyatakan bahwa dua penyedia dengan WER serupa dapat memiliki UER yang sangat berbeda karena jenis kesalahan yang mereka buat berbeda. Dari hasilnya, Google Chirp-3 memimpin dalam akurasi tetapi memiliki kecepatan inferensi yang lebih lambat; Deepgram Nova-3 memiliki p50 latency hampir 8 kali lebih cepat, namun akurasi multibahasa terendah. Tingkat kesalahan pengenalan Mandarin bisa mencapai lima kali lipat dibandingkan bahasa Inggris, dan perbedaan besar juga terlihat pada bahasa Vietnam di antara berbagai penyedia—perbedaan ini tidak terlihat jika hanya melihat benchmark bahasa Inggris. (Sumber: BlockBeats)