Berita ME, 21 April (UTC+8), menurut pemantauan Beating, perusahaan AI layanan pelanggan Sierra merilis dataset evaluasi pengenalan suara multibahasa (ASR) μ-Bench secara terbuka, yang terdiri dari 250 rekaman telepon layanan pelanggan asli dan 4.270 suara yang ditandai secara manual, dengan sampling rate 8 kHz dan mono. Evaluasi ASR sebelumnya yang dipublikasikan hanya fokus pada bahasa Inggris atau menggunakan bahan bacaan studio rekaman, sehingga hampir tidak relevan bagi tim yang berencana mengintegrasikan agen suara ke dalam skenario layanan pelanggan multibahasa. μ-Bench secara langsung mengisi celah ini dengan menggunakan percakapan nyata. Versi yang dirilis kali ini adalah subset dari seluruh rangkaian evaluasi internal Sierra. Evaluasi internal mencakup 42 bahasa, 79 varian regional, dan lebih dari 13 penyedia. Versi open-source ini mencakup lima wilayah: bahasa Inggris, Spanyol, Turki, Vietnam, dan Mandarin, serta skor dari lima penyedia: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, dan OpenAI GPT-4o Mini Transcribe. Kode, dataset (yang tersedia di Hugging Face), dan leaderboard terbuka juga dirilis bersamaan, dan diundang untuk pengiriman dari penyedia lain. Informasi baru yang paling signifikan dalam evaluasi ini terletak pada metriknya. Sierra memperkenalkan metrik baru UER (Utterance Error Rate, tingkat kesalahan tingkat ucapan), yang memisahkan kesalahan yang mengubah makna asli dari kesalahan yang tidak penting. Metrik WER tradisional menganggap kehilangan satu kata "eh" dan salah mendengar nomor telepon sebagai jenis kesalahan yang sama, tetapi bagi agen suara yang menjalankan tindakan berdasarkan transkripsi, kesalahan terakhirlah yang dapat mengganggu proses. Sierra menyatakan bahwa dua penyedia dengan WER serupa dapat memiliki UER yang sangat berbeda karena jenis kesalahan yang mereka buat berbeda. Dari hasilnya, Google Chirp-3 memimpin dalam akurasi tetapi memiliki kecepatan inferensi yang lebih lambat; Deepgram Nova-3 memiliki p50 latency hampir 8 kali lebih cepat, namun akurasi multibahasa terendah. Tingkat kesalahan pengenalan Mandarin bisa mencapai lima kali lipat dibandingkan bahasa Inggris, dan perbedaan besar juga terlihat pada bahasa Vietnam di antara berbagai penyedia—perbedaan ini tidak terlihat jika hanya melihat benchmark bahasa Inggris. (Sumber: BlockBeats)
Sierra Membuka Sumber μ-Bench untuk Evaluasi ASR Multibahasa
KuCoinFlashBagikan






Sierra, perusahaan AI layanan pelanggan, telah melepaskan μ-Bench, benchmark ASR multibahasa dengan 250 rekaman panggilan nyata dan 4.270 sampel yang diannotasi. Dataset ini menggunakan audio 8kHz dan memperkenalkan UER, metrik untuk melacak kesalahan bermakna. Hasil menunjukkan tingkat kesalahan bahasa Mandarin hingga lima kali lebih tinggi daripada bahasa Inggris. Rilis ini terjadi di tengah meningkatnya minat terhadap pencatatan token baru dan saat pasar bereaksi terhadap data inflasi.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.