سييرا تُطلق مفتوح المصدر μ-Bench لتقييم أنظمة التعرف التلقائي على الكلام متعددة اللغات

أخبار ME، في 21 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت شركة Sierra، المتخصصة في الذكاء الاصطناعي للخدمة العملاء، مجموعة تقييم مفتوحة المصدر للتمييز الصوتي متعدد اللغات (ASR) تُسمى μ-Bench، والتي تضم بيانات من 250 مكالمة خدمة عملاء حقيقية و4270 تسجيلًا صوتيًا مُوسومًا يدويًا، بمعدل عينة 8 كيلو هرتز وصوت أحادي. في السابق، كانت مجموعات تقييم ASR المتاحة علنًا إما مقتصرة على اللغة الإنجليزية أو تستخدم مواد مسجلة في استوديوهات قراءة، مما يجعلها غير قابلة للتطبيق تقريبًا للفرق التي تهدف إلى دمج وكلاء صوتيين في سيناريوهات خدمة عملاء متعددة اللغات. وتُملأ μ-Bench هذه الفجوة باستخدام مكالمات حقيقية. الإصدار المفتوح الحالي هو مجموعة فرعية من مجموعة التقييم الداخلية الكاملة لـ Sierra. تغطي الإصدار الداخلي 42 لغة و79 نسخة إقليمية وأكثر من 13 مزودًا، بينما يشمل الإصدار المفتوح حاليًا خمسة مناطق—الإنجليزية والإسبانية والتركية والفيتنامية والصينية المعيارية—ومزودين خمسة: Deepgram Nova-3 وGoogle Chirp-3 وMicrosoft Azure Speech وElevenLabs Scribe v2 وOpenAI GPT-4o Mini Transcribe. تم نشر الكود ومجموعة البيانات (المضمنة على Hugging Face) وقائمة مفتوحة للتصنيف معًا، ويُرحب بتسليم النتائج من مزودين آخرين. المعلومة الحقيقية الجديدة في التقييم تكمن في المؤشرات. اقترحت Sierra مؤشرًا جديدًا يُسمى UER (معدل خطأ الجملة)، والذي يفصل بين الأخطاء التي تغير المعنى الأصلي والأخطاء غير ذات الأهمية. فالمؤشر التقليدي WER (معدل خطأ الحرف) يُصنف حذف كلمة "إي" وخطأ في رقم هاتف على أنهما نفس النوع من الأخطاء، لكن بالنسبة لوكيل صوتي ينفذ إجراءات بناءً على التحويل النصي، فإن الخطأ الأخير فقط هو الذي يُعطل العملية. وتؤكد Sierra أن شركتين قد تمتلكان WER متشابهًا ولكن UER مختلفًا تمامًا، لأن أنواع الأخطاء التي ترتكبانها مختلفة. من حيث النتائج، يتفوق Google Chirp-3 في الدقة لكنه أبطأ في الاستنتاج؛ بينما يمتلك Deepgram Nova-3 زمن تأخير p50 أسرع بثمانية أضعاف تقريبًا، لكنه يأتي في المرتبة الأخيرة من حيث الدقة متعددة اللغات. يمكن أن تكون معدلات الخطأ في التعرف على الصينية المعيارية خمسة أضعاف تلك الخاصة بالإنجليزية، كما أن الفروق الكبيرة في الفيتنامية بين المزودين مختلفين لا يمكن رؤيتها عند الاعتماد فقط على معايير الإنجليزية. (المصدر: BlockBeats)