ME News 消息,4 月 21 日(UTC+8),據動察 Beating 監測,客服 AI 公司 Sierra 開源多語言語音識別(ASR)評測集 μ-Bench,數據來自 250 通真實電話客服錄音、4270 條人工標註語音,採樣率 8kHz、單聲道。過去公開的 ASR 評測要么只做英語,要么用錄音棚裡朗讀的語料,對打算把語音 agent 接進多語言客服場景的團隊幾乎不可參考。μ-Bench 直接用真實通話填這個空檔。這次公開的是 Sierra 內部一整套評測的子集。內部覆蓋 42 種語言、79 個地區變體和 13 家以上供應商,這次開源的是其中英語、西班牙語、土耳其語、越南語和普通話五個地區,以及 Deepgram Nova-3、Google Chirp-3、Microsoft Azure Speech、ElevenLabs Scribe v2、OpenAI GPT-4o Mini Transcribe 五家廠商的跑分。代碼、數據集(掛在 Hugging Face)和一個開放榜單一併公開,歡迎其他廠商提交。評測裡真正有新資訊的是指標。Sierra 提出一個新指標 UER(Utterance Error Rate,話語級錯誤率),把會改變原意的錯誤和無關緊要的錯誤分開算。傳統的 WER(字錯誤率)把漏掉一聲「呃」和聽錯一位電話號碼算成同一種錯,但對一個照著轉寫去執行動作的語音 agent,後者才會讓流程出岔。Sierra 称兩家 WER 相近的廠商,UER 可能差得很遠,因為他們犯的錯誤種類就不同。結果層面,Google Chirp-3 準確率領先但推理較慢;Deepgram Nova-3 的 p50 延遲快近 8 倍,多語言準確率卻墊底。普通話識別錯誤率可以達到英語的 5 倍,越南語在不同廠商間的差距也很大,這些差距只看英語基準是看不到的。(來源:BlockBeats)
Sierra 開源 μ-Bench 用於多語言 ASR 評估
KuCoinFlash分享






Sierra 是一家客戶服務 AI 公司,已開源 μ-Bench,這是一個包含 250 個真實通話錄音和 4,270 個標註樣本的多語言 ASR 基準測試。該數據集使用 8kHz 音頻,並引入了 UER 指標以追蹤有意義的錯誤。結果顯示,普通話的錯誤率最高可達英語的五倍。此發布正值市場對新代幣上線興趣上升,並對通脹數據作出反應之際。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。