أخبار ME، في 21 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت شركة Sierra، المتخصصة في الذكاء الاصطناعي للخدمة العملاء، مجموعة تقييم مفتوحة المصدر للتمييز الصوتي متعدد اللغات (ASR) تُسمى μ-Bench، والتي تضم بيانات من 250 مكالمة خدمة عملاء حقيقية و4270 تسجيلًا صوتيًا مُوسومًا يدويًا، بمعدل عينة 8 كيلو هرتز وصوت أحادي. في السابق، كانت مجموعات تقييم ASR المتاحة علنًا إما مقتصرة على اللغة الإنجليزية أو تستخدم مواد مسجلة في استوديوهات قراءة، مما يجعلها غير قابلة للتطبيق تقريبًا للفرق التي تهدف إلى دمج وكلاء صوتيين في سيناريوهات خدمة عملاء متعددة اللغات. وتُملأ μ-Bench هذه الفجوة باستخدام مكالمات حقيقية. الإصدار المفتوح الحالي هو مجموعة فرعية من مجموعة التقييم الداخلية الكاملة لـ Sierra. تغطي الإصدار الداخلي 42 لغة و79 نسخة إقليمية وأكثر من 13 مزودًا، بينما يشمل الإصدار المفتوح حاليًا خمسة مناطق—الإنجليزية والإسبانية والتركية والفيتنامية والصينية المعيارية—ومزودين خمسة: Deepgram Nova-3 وGoogle Chirp-3 وMicrosoft Azure Speech وElevenLabs Scribe v2 وOpenAI GPT-4o Mini Transcribe. تم نشر الكود ومجموعة البيانات (المضمنة على Hugging Face) وقائمة مفتوحة للتصنيف معًا، ويُرحب بتسليم النتائج من مزودين آخرين. المعلومة الحقيقية الجديدة في التقييم تكمن في المؤشرات. اقترحت Sierra مؤشرًا جديدًا يُسمى UER (معدل خطأ الجملة)، والذي يفصل بين الأخطاء التي تغير المعنى الأصلي والأخطاء غير ذات الأهمية. فالمؤشر التقليدي WER (معدل خطأ الحرف) يُصنف حذف كلمة "إي" وخطأ في رقم هاتف على أنهما نفس النوع من الأخطاء، لكن بالنسبة لوكيل صوتي ينفذ إجراءات بناءً على التحويل النصي، فإن الخطأ الأخير فقط هو الذي يُعطل العملية. وتؤكد Sierra أن شركتين قد تمتلكان WER متشابهًا ولكن UER مختلفًا تمامًا، لأن أنواع الأخطاء التي ترتكبانها مختلفة. من حيث النتائج، يتفوق Google Chirp-3 في الدقة لكنه أبطأ في الاستنتاج؛ بينما يمتلك Deepgram Nova-3 زمن تأخير p50 أسرع بثمانية أضعاف تقريبًا، لكنه يأتي في المرتبة الأخيرة من حيث الدقة متعددة اللغات. يمكن أن تكون معدلات الخطأ في التعرف على الصينية المعيارية خمسة أضعاف تلك الخاصة بالإنجليزية، كما أن الفروق الكبيرة في الفيتنامية بين المزودين مختلفين لا يمكن رؤيتها عند الاعتماد فقط على معايير الإنجليزية. (المصدر: BlockBeats)
سييرا تُطلق مفتوح المصدر μ-Bench لتقييم أنظمة التعرف التلقائي على الكلام متعددة اللغات
KuCoinFlashمشاركة






سييرا، شركة ذكاء اصطناعي للخدمة العملاء، قدّمت μ-Bench كبرنامج مفتوح المصدر، وهو معيار متعدد اللغات للتعرف التلقائي على الكلام يحتوي على 250 تسجيلاً حقيقياً للمكالمات و4,270 عينة مُعلَّمة. يستخدم المجموعة بيانات صوتية بتردد 8 كيلوهرتز، ويدخل مقياس UER لقياس الأخطاء ذات المغزى. أظهرت النتائج أن معدلات الأخطاء في اللغة الصينية تصل إلى خمسة أضعاف مقارنة بالإنجليزية. يأتي هذا الإصدار في ظل تزايد الاهتمام بقوائم الرموز الجديدة وردود أفعال الأسواق على بيانات التضخم.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.