Sierra 開源 μ-Bench 用於多語言 ASR 評估

ME News 消息，4 月 21 日（UTC+8），據動察 Beating 監測，客服 AI 公司 Sierra 開源多語言語音識別（ASR）評測集 μ-Bench，數據來自 250 通真實電話客服錄音、4270 條人工標註語音，採樣率 8kHz、單聲道。過去公開的 ASR 評測要么只做英語，要么用錄音棚裡朗讀的語料，對打算把語音 agent 接進多語言客服場景的團隊幾乎不可參考。μ-Bench 直接用真實通話填這個空檔。這次公開的是 Sierra 內部一整套評測的子集。內部覆蓋 42 種語言、79 個地區變體和 13 家以上供應商，這次開源的是其中英語、西班牙語、土耳其語、越南語和普通話五個地區，以及 Deepgram Nova-3、Google Chirp-3、Microsoft Azure Speech、ElevenLabs Scribe v2、OpenAI GPT-4o Mini Transcribe 五家廠商的跑分。代碼、數據集（掛在 Hugging Face）和一個開放榜單一併公開，歡迎其他廠商提交。評測裡真正有新資訊的是指標。Sierra 提出一個新指標 UER（Utterance Error Rate，話語級錯誤率），把會改變原意的錯誤和無關緊要的錯誤分開算。傳統的 WER（字錯誤率）把漏掉一聲「呃」和聽錯一位電話號碼算成同一種錯，但對一個照著轉寫去執行動作的語音 agent，後者才會讓流程出岔。Sierra 称兩家 WER 相近的廠商，UER 可能差得很遠，因為他們犯的錯誤種類就不同。結果層面，Google Chirp-3 準確率領先但推理較慢；Deepgram Nova-3 的 p50 延遲快近 8 倍，多語言準確率卻墊底。普通話識別錯誤率可以達到英語的 5 倍，越南語在不同廠商間的差距也很大，這些差距只看英語基準是看不到的。（來源：BlockBeats）