Sierra เปิดแหล่งที่มาของ μ-Bench สำหรับการประเมิน ASR แบบหลายภาษา

ข่าวจาก ME News เมื่อวันที่ 21 เมษายน (UTC+8) ตามการติดตามของ Beating บริษัท AI ด้านบริการลูกค้า Sierra เปิดตัวชุดข้อมูลประเมินการรับรู้เสียงหลายภาษา (ASR) ชื่อ μ-Bench ซึ่งข้อมูลได้มาจากบันทึกเสียงการสนทนาทางโทรศัพท์จริง 250 สาย และเสียงที่ได้รับการติดป้ายกำกับด้วยมนุษย์ 4,270 รายการ โดยมีอัตราการสุ่มตัวอย่าง 8kHz และแบบโมโน ชุดข้อมูลประเมิน ASR ที่เคยเปิดเผยก่อนหน้านี้มักจำกัดเฉพาะภาษาอังกฤษหรือใช้ข้อมูลที่อ่านจากสตูดิโอ ซึ่งแทบไม่มีประโยชน์สำหรับทีมที่ต้องการเชื่อมต่อแอจีนต์เสียงเข้ากับบริบทบริการลูกค้าหลายภาษา μ-Bench จึงเติมช่องว่างนี้โดยใช้บันทึกการสนทนาจริง ชุดข้อมูลที่เปิดเผยในครั้งนี้เป็นส่วนย่อยของชุดการประเมินภายในของ Sierra ซึ่งครอบคลุม 42 ภาษา 79 รูปแบบภูมิภาค และซัพพลายเออร์มากกว่า 13 ราย โดยในครั้งนี้เปิดตัวเฉพาะภาษาอังกฤษ สเปน ตุรกี เวียดนาม และจีนกลาง พร้อมผลการประเมินจากผู้ให้บริการห้ารายได้แก่ Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 และ OpenAI GPT-4o Mini Transcribe รหัส ชุดข้อมูล (โฮสต์บน Hugging Face) และรายการเปิดเผยแบบสาธารณะถูกเปิดให้ใช้งานพร้อมกัน และเชิญผู้ให้บริการรายอื่นส่งผลการประเมินเข้าร่วม จุดที่มีข้อมูลใหม่จริงๆ ในการประเมินคือตัวชี้วัดใหม่ที่ Sierra นำเสนอคือ UER (Utterance Error Rate, อัตราความผิดพลาดระดับประโยค) ซึ่งแยกความผิดพลาดที่เปลี่ยนความหมายเดิมออกจากความผิดพลาดที่ไม่สำคัญ ตัวชี้วัด WER (Word Error Rate, อัตราความผิดพลาดระดับคำ) เดิมถือว่าการละคำว่า “呃” และการฟังผิดหมายเลขโทรศัพท์เป็นข้อผิดพลาดประเภทเดียวกัน แต่สำหรับแอจีนต์เสียงที่ต้องดำเนินการตามคำถอดเสียง การฟังผิดหมายเลขโทรศัพท์เท่านั้นที่จะทำให้กระบวนการผิดพลาด Sierra ระบุว่าผู้ให้บริการสองรายที่มี WER เหมือนกันอาจมี UER ต่างกันมาก เพราะประเภทของข้อผิดพลาดที่เกิดขึ้นต่างกัน ในแง่ผลลัพธ์ Google Chirp-3 มีความแม่นยำสูงสุดแต่มีเวลาประมวลผลช้ากว่า ในขณะที่ Deepgram Nova-3 มีค่า p50 latency เร็วกว่าเกือบ 8 เท่าแต่มีความแม่นยำในหลายภาษาต่ำสุด อัตราความผิดพลาดในการรับรู้ภาษาจีนกลางสามารถสูงถึงห้าเท่าของภาษาอังกฤษ และความแตกต่างระหว่างผู้ให้บริการในภาษาเวียดนามก็มีมากเช่นกัน ความแตกต่างเหล่านี้ไม่สามารถมองเห็นได้หากพิจารณาเพียงมาตรฐานภาษาอังกฤษเท่านั้น (ที่มา: BlockBeats)