Sierra disponibiliza o μ-Bench como código aberto para avaliação de ASR multilíngue

Notícia da ME, 21 de abril (UTC+8): De acordo com o monitoramento da Beating, a empresa de IA de atendimento ao cliente Sierra lançou o conjunto de avaliação de reconhecimento de fala multilíngue (ASR) μ-Bench, composto por 250 gravações reais de chamadas de atendimento ao cliente e 4.270 segmentos de áudio rotulados manualmente, com taxa de amostragem de 8 kHz e mono. As avaliações anteriores de ASR disponíveis publicamente ou eram exclusivamente em inglês ou utilizavam materiais lidos em estúdio, tornando-se quase inúteis para equipes que pretendem integrar agentes de voz em cenários de atendimento multilíngue. O μ-Bench preenche essa lacuna usando chamadas reais. O conjunto divulgado agora é um subconjunto de toda a avaliação interna da Sierra, que abrange 42 idiomas, 79 variantes regionais e mais de 13 fornecedores. Nesta liberação, estão incluídos cinco idiomas/regiões — inglês, espanhol, turco, vietnamita e mandarim — e os resultados de cinco fornecedores: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 e OpenAI GPT-4o Mini Transcribe. O código, o conjunto de dados (hospedado no Hugging Face) e uma tabela aberta foram disponibilizados conjuntamente, convidando outros fornecedores a submeterem seus resultados. A verdadeira novidade na avaliação está nos indicadores. A Sierra introduziu um novo indicador chamado UER (Utterance Error Rate, taxa de erro por enunciado), que distingue erros que alteram o significado original daqueles irrelevantes. O WER tradicional (taxa de erro de palavras) trata uma omissão de um “er” e um erro na digitação de um número de telefone como o mesmo tipo de erro; porém, para um agente de voz que executa ações com base na transcrição, apenas o segundo tipo pode causar falhas no processo. A Sierra afirma que duas empresas com WER semelhante podem ter UER muito diferentes, pois cometem tipos distintos de erros. Nos resultados, o Google Chirp-3 lidera em precisão, mas apresenta inferência mais lenta; o Deepgram Nova-3 tem uma latência p50 quase 8 vezes mais rápida, mas apresenta a menor precisão multilíngue. A taxa de erro no reconhecimento do mandarim pode ser até cinco vezes maior que a do inglês, e as diferenças entre fornecedores no vietnamita também são significativas — diferenças que não são visíveis ao analisar apenas benchmarks em inglês. (Fonte: BlockBeats)