Sierra abre el código de μ-Bench para la evaluación de ASR multilingüe

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Sierra, una empresa de inteligencia artificial de servicio al cliente, ha abierto el código de μ-Bench, un benchmark multilingüe de ASR con 250 grabaciones reales de llamadas y 4.270 muestras anotadas. El conjunto de datos utiliza audio a 8 kHz e introduce UER, una métrica para rastrear errores significativos. Los resultados muestran que las tasas de error en mandarín son hasta cinco veces mayores que en inglés. Este lanzamiento ocurre en medio del creciente interés en nuevas listas de tokens y mientras los mercados reaccionan a los datos de inflación.

Según noticias de ME, el 21 de abril (UTC+8), según el monitoreo de Beating, la empresa de IA de servicio al cliente Sierra lanzó el conjunto de evaluación de reconocimiento automático de voz (ASR) multilingüe μ-Bench, que incluye datos provenientes de 250 llamadas reales de servicio al cliente y 4.270 grabaciones de voz anotadas manualmente, con una frecuencia de muestreo de 8 kHz y mono. Las evaluaciones previamente públicas de ASR o bien solo cubrían inglés, o utilizaban material leído en estudios de grabación, lo que las hace casi inútiles para equipos que buscan integrar agentes de voz en escenarios multilingües de servicio al cliente. μ-Bench llena este vacío utilizando llamadas reales. Esta versión pública es un subconjunto del conjunto completo de evaluaciones internas de Sierra, que abarca 42 idiomas, 79 variantes regionales y más de 13 proveedores. En esta liberación se incluyen cinco regiones: inglés, español, turco, vietnamita y chino mandarín, junto con los puntajes de cinco proveedores: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 y OpenAI GPT-4o Mini Transcribe. El código, el conjunto de datos (alojado en Hugging Face) y una tabla abierta se publican conjuntamente, y se invita a otros proveedores a presentar sus resultados. Lo realmente novedoso en la evaluación son las métricas. Sierra introdujo una nueva métrica llamada UER (Utterance Error Rate, tasa de error a nivel de enunciado), que distingue entre errores que alteran el significado original y aquellos que son irrelevantes. La métrica tradicional WER (tasa de error de palabras) considera igualmente un error omitir una pausa como equivocarse en un número de teléfono, pero para un agente de voz que ejecuta acciones basadas en la transcripción, solo el segundo tipo de error causa fallos en el proceso. Sierra afirma que dos proveedores con WER similares pueden tener UER muy distintas, ya que cometen tipos diferentes de errores. En cuanto a los resultados, Google Chirp-3 lidera en precisión pero tiene una inferencia más lenta; Deepgram Nova-3 tiene una latencia p50 casi 8 veces más rápida, pero su precisión multilingüe es la más baja. La tasa de error en chino mandarín puede alcanzar cinco veces la del inglés, y las diferencias entre proveedores en vietnamita también son muy marcadas; estas disparidades no son visibles al observar solo los benchmarks en inglés. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.