Sierra Membuka Sumber μ-Bench untuk Penilaian ASR Multibahasa

Berita ME, pada 21 April (UTC+8), menurut pemantauan Beating, syarikat AI perkhidmatan pelanggan Sierra telah melepaskan set penilaian pengenalan suara multibahasa (ASR) μ-Bench secara sumber terbuka, dengan data yang diambil dari 250 rakaman panggilan perkhidmatan pelanggan sebenar dan 4,270 rekod suara yang ditandatangani secara manual, dengan kadar sampel 8kHz dan mono. Penilaian ASR yang sebelum ini dipublikasikan hanya fokus pada bahasa Inggeris atau menggunakan bahan yang dibacakan di studio rakaman, sehingga hampir tidak boleh dirujuk oleh pasukan yang ingin mengintegrasikan agen suara ke dalam skenario perkhidmatan pelanggan multibahasa. μ-Bench secara langsung mengisi jurang ini dengan menggunakan panggilan sebenar. Versi yang dipublikasikan kali ini adalah subset daripada keseluruhan set penilaian dalaman Sierra. Penilaian dalaman mencakupi 42 bahasa, 79 variasi wilayah, dan lebih daripada 13 penyedia. Versi sumber terbuka kali ini merangkumi lima wilayah—bahasa Inggeris, Sepanyol, Turki, Vietnam, dan Mandarin—serta penilaian lima penyedia: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, dan OpenAI GPT-4o Mini Transcribe. Kod, set data (dihosting di Hugging Face), dan papan pemimpin terbuka telah dipublikasikan bersama-sama, dan penyedia lain digalakkan untuk menghantar hasil mereka. Maklumat baru yang sebenar dalam penilaian ini terletak pada metrik. Sierra memperkenalkan metrik baharu bernama UER (Utterance Error Rate, kadar kesalahan tingkat ucapan), yang memisahkan kesalahan yang mengubah maksud asal daripada kesalahan yang tidak penting. Metrik WER (Word Error Rate) tradisional menganggap kehilangan satu perkataan seperti “呃” dan salah mendengar nombor telefon sebagai jenis kesalahan yang sama, tetapi bagi agen suara yang menjalankan tindakan berdasarkan transkripsi, kesalahan kedua sahaja yang akan menyebabkan proses menjadi terganggu. Sierra menyatakan bahawa dua penyedia dengan WER yang hampir sama boleh mempunyai UER yang sangat berbeza kerana jenis kesalahan yang mereka buat berbeza. Dari segi keputusan, Google Chirp-3 memimpin dalam ketepatan tetapi mempunyai masa inferens yang lebih perlahan; Deepgram Nova-3 mempunyai p50 latency yang lebih pantas hampir 8 kali ganda tetapi mempunyai ketepatan multibahasa yang paling rendah. Kadar kesalahan pengenalan Mandarin boleh mencapai lima kali ganda kadar kesalahan bahasa Inggeris, dan perbezaan dalam pengenalan Vietnam antara penyedia juga sangat besar—perbezaan ini tidak dapat dilihat sekiranya hanya melihat tolok bahasa Inggeris semata-mata. (Sumber: BlockBeats)