Sierra abre el código de μ-Bench para la evaluación de ASR multilingüe

Según noticias de ME, el 21 de abril (UTC+8), según el monitoreo de Beating, la empresa de IA de servicio al cliente Sierra lanzó el conjunto de evaluación de reconocimiento automático de voz (ASR) multilingüe μ-Bench, que incluye datos provenientes de 250 llamadas reales de servicio al cliente y 4.270 grabaciones de voz anotadas manualmente, con una frecuencia de muestreo de 8 kHz y mono. Las evaluaciones previamente públicas de ASR o bien solo cubrían inglés, o utilizaban material leído en estudios de grabación, lo que las hace casi inútiles para equipos que buscan integrar agentes de voz en escenarios multilingües de servicio al cliente. μ-Bench llena este vacío utilizando llamadas reales. Esta versión pública es un subconjunto del conjunto completo de evaluaciones internas de Sierra, que abarca 42 idiomas, 79 variantes regionales y más de 13 proveedores. En esta liberación se incluyen cinco regiones: inglés, español, turco, vietnamita y chino mandarín, junto con los puntajes de cinco proveedores: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 y OpenAI GPT-4o Mini Transcribe. El código, el conjunto de datos (alojado en Hugging Face) y una tabla abierta se publican conjuntamente, y se invita a otros proveedores a presentar sus resultados. Lo realmente novedoso en la evaluación son las métricas. Sierra introdujo una nueva métrica llamada UER (Utterance Error Rate, tasa de error a nivel de enunciado), que distingue entre errores que alteran el significado original y aquellos que son irrelevantes. La métrica tradicional WER (tasa de error de palabras) considera igualmente un error omitir una pausa como equivocarse en un número de teléfono, pero para un agente de voz que ejecuta acciones basadas en la transcripción, solo el segundo tipo de error causa fallos en el proceso. Sierra afirma que dos proveedores con WER similares pueden tener UER muy distintas, ya que cometen tipos diferentes de errores. En cuanto a los resultados, Google Chirp-3 lidera en precisión pero tiene una inferencia más lenta; Deepgram Nova-3 tiene una latencia p50 casi 8 veces más rápida, pero su precisión multilingüe es la más baja. La tasa de error en chino mandarín puede alcanzar cinco veces la del inglés, y las diferencias entre proveedores en vietnamita también son muy marcadas; estas disparidades no son visibles al observar solo los benchmarks en inglés. (Fuente: BlockBeats)