سیریا نے متعدد زبانوں کے ASR ایوالویشن کے لیے μ-Bench کو اوپن سورس کر دیا ہے

ME نیوز کے مطابق، 21 اپریل (UTC+8) کو، ڈیٹا مونیٹرنگ پلیٹ فارم Beating کے مطابق، کسٹمر سروس AI کمپنی Sierra نے متعدد زبانوں کے لیے آواز شناخت (ASR) کا ایک جائزہ سیٹ μ-Bench کو اوپن سورس کیا ہے، جس میں 250 حقیقی کسٹمر سروس کالز اور 4,270 ہاتھ سے اینوٹیٹ کردہ آوازوں کا ڈیٹا شامل ہے، جس کی نمونہ لینے کی شرح 8kHz اور منوکالر ہے۔ پہلے عام طور پر جاری کیے گئے ASR جائزے صرف انگریزی پر مشتمل تھے یا سٹوڈیو میں پڑھے گئے مواد استعمال کرتے تھے، جو متعدد زبانوں والے کسٹمر سروس کے منصوبوں کے لیے تقریباً غیر قابل استعمال تھے۔ μ-Bench اس خلا کو حقیقی کالز سے بھر دیتا ہے۔ اس بار جاری کیا گیا Sierra کے اندر استعمال ہونے والے مکمل جائزہ سیٹ کا ایک حصہ ہے۔ اندر کا جائزہ 42 زبانوں، 79 علاقائی ورژن اور 13 سے زائد فراہم کنندگان پر مشتمل ہے، جبکہ اس بار اوپن سورس کردہ صرف انگریزی، اسپینش، ترکش، ویتنامی اور مینڈرین پانچ علاقائی زبانیں اور Deepgram Nova-3، Google Chirp-3، Microsoft Azure Speech، ElevenLabs Scribe v2، OpenAI GPT-4o Mini Transcribe پانچ فراہم کنندگان کے نتائج ہیں۔ کوڈ، ڈیٹا سیٹ (Hugging Face پر موجود) اور ایک اوپن لیڈر بورڈ بھی جاری کردیا گیا ہے، دوسرے فراہم کنندگان کو بھی اپنا نتیجہ جمع کرانے کا موقع دیا گیا ہے۔ جائزے میں اصل نئی معلومات ان مؤشرات میں ہیں۔ Sierra نے ایک نئے مؤشر UER (Utterance Error Rate، بولنے کی غلطی کی شرح) کا تصور پیش کیا ہے، جو اصل معنی تبدیل کرنے والی غلطیوں اور غیر ضروری غلطیوں کو الگ الگ شمار کرتا ہے۔ روایتی WER (لفظوں کی غلطی کی شرح) "اُم" بولنا چھوڑ دینا اور فون نمبر غلط سن لینا دونوں کو ایک جیسے غلط مانتا ہے، لیکن اس آواز اجینٹ کے لیے جو تحریر شدہ متن پر عمل کرتا ہے، صرف دوسرا غلط فرائض میں خلل ڈالتا ہے۔ Sierra کا دعوٰی ہے کہ دو ایسے فراہم کنندگان جن کا WER تقریباً ایک جسا ہو، ان کا UER بہت مختلف ہو سکتا ہے، کیونکہ وہ مختلف قسم کی غلطیاں کرتے ہیں۔ نتائج کے لحاظ سے، Google Chirp-3 سب سے زائد درستگی دکھاتا ہے لیکن اس کا رن وقت بہت زیادہ ہے؛ Deepgram Nova-3 کا p50 لینس تقریباً 8 گنا تھوڑا ہے لیکن متعدد زبانوں میں درستگی سب سے نچلی ہے۔ مینڈرین زبان کا شناخت غلط شرح انگریزی سے پانچ گنا تک ہو سکتی ہے، اور ویتنامی زبان میں مختلف فراہم کنندگان کے درمیان فرق بھي بڑا ہے—ان فرق کو صرف انگریزی بنچ مارک سے نہीں دکھایا جا سکتا۔ (ذرائع: BlockBeats)