Sierra、多言語ASR評価用にμ-Benchをオープンソース化

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
カスタマーサービスAI企業のシエラは、250件の実際の通話録音と4,270件のアノテーション済みサンプルを含む多言語ASRベンチマーク「μ-Bench」をオープンソース化しました。このデータセットは8kHzのオーディオを使用し、意味のあるエラーを追跡するための指標「UER」を導入しています。結果によると、中国語のエラーレートは英語の最大5倍です。このリリースは、新規トークン上場への関心が高まっている時期と、インフレデータに対する市場の反応と重なっています。

MEニュース:4月21日(UTC+8)、動察Beatingの監視によると、カスタマーサポートAI企業のSierraが、多言語音声認識(ASR)評価データセットμ-Benchをオープンソース化しました。このデータセットは、250件の実際の電話カスタマーサポート録音と4,270件の手動アノテーション音声から構成され、サンプリングレートは8kHz、モノラルです。これまで公開されていたASR評価データは英語のみか、スタジオで朗読された音声を使用しており、多言語カスタマーサポート環境に音声エージェントを導入しようとするチームにとってほとんど参考になりませんでした。μ-Benchは、このギャップを実際の通話データで埋めています。今回公開されたのは、Sierra内部で使用している一連の評価のサブセットです。内部評価は42言語、79地域バリエーション、13社以上のベンダーをカバーしていますが、今回オープンソース化されたのは英語、スペイン語、トルコ語、ベトナム語、中国語の5言語と、Deepgram Nova-3、Google Chirp-3、Microsoft Azure Speech、ElevenLabs Scribe v2、OpenAI GPT-4o Mini Transcribeの5社の評価結果です。コード、データセット(Hugging Faceにホスト)、およびオープンランキングが同時に公開され、他のベンダーからの提出も歓迎されています。評価における真正な新情報は指標です。Sierraは「UER(Utterance Error Rate、発話レベル誤り率)」という新しい指標を提案し、意味を変える誤りと無関係な誤りを別々に計測します。従来のWER(単語誤り率)では、「えー」という発声の脱落と電話番号の聞き間違いを同じ誤りとして扱いますが、転写に基づいてアクションを実行する音声エージェントにとって、後者の誤りがプロセスに支障をきたします。Sierraによると、WERが類似する2社でも、UERは大きく異なる可能性があり、それは犯す誤りの種類が異なるためです。結果として、Google Chirp-3は精度が最も高い一方で推論速度が遅く、Deepgram Nova-3はp50レイテンシーが約8倍速いものの、多言語精度は最下位です。中国語の認識誤り率は英語の5倍に達することがあり、ベトナム語ではベンダー間の差も大きく、これらの差異は英語ベースでの評価では見逃されます。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。