Notícia da ME, 21 de abril (UTC+8): De acordo com o monitoramento da Beating, a empresa de IA de atendimento ao cliente Sierra lançou o conjunto de avaliação de reconhecimento de fala multilíngue (ASR) μ-Bench, composto por 250 gravações reais de chamadas de atendimento ao cliente e 4.270 segmentos de áudio rotulados manualmente, com taxa de amostragem de 8 kHz e mono. As avaliações anteriores de ASR disponíveis publicamente ou eram exclusivamente em inglês ou utilizavam materiais lidos em estúdio, tornando-se quase inúteis para equipes que pretendem integrar agentes de voz em cenários de atendimento multilíngue. O μ-Bench preenche essa lacuna usando chamadas reais. O conjunto divulgado agora é um subconjunto de toda a avaliação interna da Sierra, que abrange 42 idiomas, 79 variantes regionais e mais de 13 fornecedores. Nesta liberação, estão incluídos cinco idiomas/regiões — inglês, espanhol, turco, vietnamita e mandarim — e os resultados de cinco fornecedores: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 e OpenAI GPT-4o Mini Transcribe. O código, o conjunto de dados (hospedado no Hugging Face) e uma tabela aberta foram disponibilizados conjuntamente, convidando outros fornecedores a submeterem seus resultados. A verdadeira novidade na avaliação está nos indicadores. A Sierra introduziu um novo indicador chamado UER (Utterance Error Rate, taxa de erro por enunciado), que distingue erros que alteram o significado original daqueles irrelevantes. O WER tradicional (taxa de erro de palavras) trata uma omissão de um “er” e um erro na digitação de um número de telefone como o mesmo tipo de erro; porém, para um agente de voz que executa ações com base na transcrição, apenas o segundo tipo pode causar falhas no processo. A Sierra afirma que duas empresas com WER semelhante podem ter UER muito diferentes, pois cometem tipos distintos de erros. Nos resultados, o Google Chirp-3 lidera em precisão, mas apresenta inferência mais lenta; o Deepgram Nova-3 tem uma latência p50 quase 8 vezes mais rápida, mas apresenta a menor precisão multilíngue. A taxa de erro no reconhecimento do mandarim pode ser até cinco vezes maior que a do inglês, e as diferenças entre fornecedores no vietnamita também são significativas — diferenças que não são visíveis ao analisar apenas benchmarks em inglês. (Fonte: BlockBeats)
Sierra disponibiliza o μ-Bench como código aberto para avaliação de ASR multilíngue
KuCoinFlashCompartilhar






A Sierra, uma empresa de inteligência artificial de atendimento ao cliente, abriu o código do μ-Bench, um benchmark multilíngue de ASR com 250 gravações reais de chamadas e 4.270 amostras anotadas. O conjunto de dados utiliza áudio em 8 kHz e introduz o UER, uma métrica para rastrear erros significativos. Os resultados mostram que as taxas de erro em mandarim são até cinco vezes maiores que em inglês. O lançamento ocorre no contexto do crescente interesse por novas listagens de tokens e enquanto os mercados reagem aos dados de inflação.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.