Sierra、多言語ASR評価用にμ-Benchをオープンソース化

MEニュース：4月21日（UTC+8）、動察Beatingの監視によると、カスタマーサポートAI企業のSierraが、多言語音声認識（ASR）評価データセットμ-Benchをオープンソース化しました。このデータセットは、250件の実際の電話カスタマーサポート録音と4,270件の手動アノテーション音声から構成され、サンプリングレートは8kHz、モノラルです。これまで公開されていたASR評価データは英語のみか、スタジオで朗読された音声を使用しており、多言語カスタマーサポート環境に音声エージェントを導入しようとするチームにとってほとんど参考になりませんでした。μ-Benchは、このギャップを実際の通話データで埋めています。今回公開されたのは、Sierra内部で使用している一連の評価のサブセットです。内部評価は42言語、79地域バリエーション、13社以上のベンダーをカバーしていますが、今回オープンソース化されたのは英語、スペイン語、トルコ語、ベトナム語、中国語の5言語と、Deepgram Nova-3、Google Chirp-3、Microsoft Azure Speech、ElevenLabs Scribe v2、OpenAI GPT-4o Mini Transcribeの5社の評価結果です。コード、データセット（Hugging Faceにホスト）、およびオープンランキングが同時に公開され、他のベンダーからの提出も歓迎されています。評価における真正な新情報は指標です。Sierraは「UER（Utterance Error Rate、発話レベル誤り率）」という新しい指標を提案し、意味を変える誤りと無関係な誤りを別々に計測します。従来のWER（単語誤り率）では、「えー」という発声の脱落と電話番号の聞き間違いを同じ誤りとして扱いますが、転写に基づいてアクションを実行する音声エージェントにとって、後者の誤りがプロセスに支障をきたします。Sierraによると、WERが類似する2社でも、UERは大きく異なる可能性があり、それは犯す誤りの種類が異なるためです。結果として、Google Chirp-3は精度が最も高い一方で推論速度が遅く、Deepgram Nova-3はp50レイテンシーが約8倍速いものの、多言語精度は最下位です。中国語の認識誤り率は英語の5倍に達することがあり、ベトナム語ではベンダー間の差も大きく、これらの差異は英語ベースでの評価では見逃されます。（出典：BlockBeats）