Ipinaglabas ni Sierra ang μ-Bench para sa pag-e-evaluate ng Multilingual ASR

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Sierra, isang kumpanya ng AI sa customer service, ay nag-open source ng μ-Bench, isang multilingual na ASR benchmark na may 250 tunay na tawag na rekord at 4,270 na anotadong sample. Ang dataset ay gumagamit ng 8kHz audio at naglalaman ng UER, isang metrikang upang subaybayan ang makabuluhang error. Ang mga resulta ay nagpapakita na ang rate ng error sa Mandarin ay hanggang limang beses na mas mataas kaysa sa English. Ang paglabas ay nangyari habang tumataas ang interes sa mga bagong listing ng token at habang nagreaksyon ang mga merkado sa data ng inflasyon.

Ayon sa ME News, noong Abril 21 (UTC+8), ayon sa pagmamasid ng Beating, ang customer service AI company na Sierra ay inilabas ang open-source multilingual automatic speech recognition (ASR) evaluation dataset na μ-Bench, na binubuo ng 250 real customer service call recordings at 4,270 manually annotated audio samples, na may sampling rate na 8kHz at mono. Ang dating public ASR evaluations ay kadalasang nakatuon lamang sa Ingles o gumagamit ng studio-recorded scripts, kaya hindi gaanong makatutulong sa mga team na nagsisikap na i-integrate ang voice agents sa multilingual customer service scenarios. Ang μ-Bench ay direktang naglalayong punan ang puwang na ito gamit ang totoong mga tawag. Ang inilabas na bersyon ay isang subset ng buong internal evaluation suite ng Sierra. Ang internal system ay kumakalat sa 42 mga wika, 79 regional variants, at higit sa 13 suppliers. Sa paglabas na ito, binuksan ang limang rehiyon—Ingles, Espanyol, Turko, Vietnamese, at Mandarin—and ang performance ng limang vendor: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2, at OpenAI GPT-4o Mini Transcribe. Kasama sa paglabas ang code, dataset (na naka-host sa Hugging Face), at isang open leaderboard, at hinahangaan ang iba pang vendor na magsumbong ng kanilang resulta. Ang tunay na bagong impormasyon sa pagsusuri ay nasa mga indikador. Ipinresenta ni Sierra ang isang bagong indikador na UER (Utterance Error Rate), na naghihiwalay sa mga pagkakamali na nagbabago sa orihinal na kahulugan mula sa mga hindi mahalagang pagkakamali. Ang tradisyonal na WER (Word Error Rate) ay nagtatampok ng parehong uri ng pagkakamali—tulad ng pagkakalimutan ang isang “呃” at pagkakamali sa isang numero ng telepono—ngunit para sa isang voice agent na gumagawa ng aksyon batay sa transkripsyon, ang huli lamang ang magdudulot ng pagkabigo sa proseso. Ayon kay Sierra, dalawang vendor na may malapit na WER ay maaaring magkaroon ng malaking pagkakaiba sa UER dahil sa iba’t ibang uri ng kanilang mga pagkakamali. Sa resulta, ang Google Chirp-3 ay nangunguna sa accuracy ngunit mas mabagal sa inference; ang Deepgram Nova-3 ay may p50 latency na halos 8 beses na mas mabilis, ngunit ang accuracy nito sa maraming wika ay pinakamababa. Ang error rate sa Mandarin ay maaaring umabot sa 5 beses na mas mataas kaysa sa Ingles, at ang Vietnamese ay may malaking pagkakaiba sa pagitan ng mga vendor—mga pagkakaiba na hindi makikita kung titingnan lamang ang English benchmark. (Source: BlockBeats)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.