Sierra Membuka Sumber μ-Bench untuk Penilaian ASR Multibahasa

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sierra, sebuah syarikat AI perkhidmatan pelanggan, telah membuka sumber μ-Bench, satu penilaian ASR pelbagai bahasa dengan 250 rakaman panggilan sebenar dan 4,270 sampel yang dianotasi. Set data ini menggunakan audio 8kHz dan memperkenalkan UER, satu metrik untuk melacak ralat yang bermakna. Keputusan menunjukkan kadar ralat Bahasa Mandarin sehingga lima kali lebih tinggi berbanding Bahasa Inggeris. Pelancaran ini berlaku semasa minat terhadap pencatatan token baharu meningkat dan pasaran bereaksi terhadap data inflasi.

Berita ME, pada 21 April (UTC+8), menurut pemantauan Beating, syarikat AI perkhidmatan pelanggan Sierra telah melepaskan set penilaian pengenalan suara multibahasa (ASR) μ-Bench secara sumber terbuka, dengan data yang diambil dari 250 rakaman panggilan perkhidmatan pelanggan sebenar dan 4,270 rekod suara yang ditandatangani secara manual, dengan kadar sampel 8kHz dan mono. Penilaian ASR yang sebelum ini dipublikasikan hanya fokus pada bahasa Inggeris atau menggunakan bahan yang dibacakan di studio rakaman, sehingga hampir tidak boleh dirujuk oleh pasukan yang ingin mengintegrasikan agen suara ke dalam skenario perkhidmatan pelanggan multibahasa. μ-Bench secara langsung mengisi jurang ini dengan menggunakan panggilan sebenar. Versi yang dipublikasikan kali ini adalah subset daripada keseluruhan set penilaian dalaman Sierra. Penilaian dalaman mencakupi 42 bahasa, 79 variasi wilayah, dan lebih daripada 13 penyedia. Versi sumber terbuka kali ini merangkumi lima wilayah—bahasa Inggeris, Sepanyol, Turki, Vietnam, dan Mandarin—serta penilaian lima penyedia: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, dan OpenAI GPT-4o Mini Transcribe. Kod, set data (dihosting di Hugging Face), dan papan pemimpin terbuka telah dipublikasikan bersama-sama, dan penyedia lain digalakkan untuk menghantar hasil mereka. Maklumat baru yang sebenar dalam penilaian ini terletak pada metrik. Sierra memperkenalkan metrik baharu bernama UER (Utterance Error Rate, kadar kesalahan tingkat ucapan), yang memisahkan kesalahan yang mengubah maksud asal daripada kesalahan yang tidak penting. Metrik WER (Word Error Rate) tradisional menganggap kehilangan satu perkataan seperti “呃” dan salah mendengar nombor telefon sebagai jenis kesalahan yang sama, tetapi bagi agen suara yang menjalankan tindakan berdasarkan transkripsi, kesalahan kedua sahaja yang akan menyebabkan proses menjadi terganggu. Sierra menyatakan bahawa dua penyedia dengan WER yang hampir sama boleh mempunyai UER yang sangat berbeza kerana jenis kesalahan yang mereka buat berbeza. Dari segi keputusan, Google Chirp-3 memimpin dalam ketepatan tetapi mempunyai masa inferens yang lebih perlahan; Deepgram Nova-3 mempunyai p50 latency yang lebih pantas hampir 8 kali ganda tetapi mempunyai ketepatan multibahasa yang paling rendah. Kadar kesalahan pengenalan Mandarin boleh mencapai lima kali ganda kadar kesalahan bahasa Inggeris, dan perbezaan dalam pengenalan Vietnam antara penyedia juga sangat besar—perbezaan ini tidak dapat dilihat sekiranya hanya melihat tolok bahasa Inggeris semata-mata. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.