Ipinaglabas ni Sierra ang μ-Bench para sa pag-e-evaluate ng Multilingual ASR

Ayon sa ME News, noong Abril 21 (UTC+8), ayon sa pagmamasid ng Beating, ang customer service AI company na Sierra ay inilabas ang open-source multilingual automatic speech recognition (ASR) evaluation dataset na μ-Bench, na binubuo ng 250 real customer service call recordings at 4,270 manually annotated audio samples, na may sampling rate na 8kHz at mono. Ang dating public ASR evaluations ay kadalasang nakatuon lamang sa Ingles o gumagamit ng studio-recorded scripts, kaya hindi gaanong makatutulong sa mga team na nagsisikap na i-integrate ang voice agents sa multilingual customer service scenarios. Ang μ-Bench ay direktang naglalayong punan ang puwang na ito gamit ang totoong mga tawag. Ang inilabas na bersyon ay isang subset ng buong internal evaluation suite ng Sierra. Ang internal system ay kumakalat sa 42 mga wika, 79 regional variants, at higit sa 13 suppliers. Sa paglabas na ito, binuksan ang limang rehiyon—Ingles, Espanyol, Turko, Vietnamese, at Mandarin—and ang performance ng limang vendor: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, at OpenAI GPT-4o Mini Transcribe. Kasama sa paglabas ang code, dataset (na naka-host sa Hugging Face), at isang open leaderboard, at hinahangaan ang iba pang vendor na magsumbong ng kanilang resulta. Ang tunay na bagong impormasyon sa pagsusuri ay nasa mga indikador. Ipinresenta ni Sierra ang isang bagong indikador na UER (Utterance Error Rate), na naghihiwalay sa mga pagkakamali na nagbabago sa orihinal na kahulugan mula sa mga hindi mahalagang pagkakamali. Ang tradisyonal na WER (Word Error Rate) ay nagtatampok ng parehong uri ng pagkakamali—tulad ng pagkakalimutan ang isang “呃” at pagkakamali sa isang numero ng telepono—ngunit para sa isang voice agent na gumagawa ng aksyon batay sa transkripsyon, ang huli lamang ang magdudulot ng pagkabigo sa proseso. Ayon kay Sierra, dalawang vendor na may malapit na WER ay maaaring magkaroon ng malaking pagkakaiba sa UER dahil sa iba’t ibang uri ng kanilang mga pagkakamali. Sa resulta, ang Google Chirp-3 ay nangunguna sa accuracy ngunit mas mabagal sa inference; ang Deepgram Nova-3 ay may p50 latency na halos 8 beses na mas mabilis, ngunit ang accuracy nito sa maraming wika ay pinakamababa. Ang error rate sa Mandarin ay maaaring umabot sa 5 beses na mas mataas kaysa sa Ingles, at ang Vietnamese ay may malaking pagkakaiba sa pagitan ng mga vendor—mga pagkakaiba na hindi makikita kung titingnan lamang ang English benchmark. (Source: BlockBeats)