Sierra công khai μ-Bench để đánh giá ASR đa ngôn ngữ

Theo tin tức từ ME News, vào ngày 21 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, công ty AI dịch vụ khách hàng Sierra đã phát hành bộ dữ liệu đánh giá nhận dạng giọng nói đa ngôn ngữ (ASR) mang tên μ-Bench, với dữ liệu lấy từ 250 cuộc gọi dịch vụ khách hàng thực tế và 4.270 đoạn âm thanh được gán nhãn thủ công, tần số lấy mẫu 8kHz, đơn kênh. Các bộ đánh giá ASR trước đây công khai thường chỉ tập trung vào tiếng Anh hoặc sử dụng dữ liệu đọc trong phòng thu, gần như không thể tham khảo đối với các đội ngũ muốn tích hợp agent giọng nói vào bối cảnh dịch vụ khách hàng đa ngôn ngữ. μ-Bench trực tiếp lấp đầy khoảng trống này bằng các cuộc gọi thực tế. Phiên bản được công khai lần này là một tập con của toàn bộ bộ đánh giá nội bộ của Sierra. Nội bộ Sierra bao phủ 42 ngôn ngữ, 79 biến thể khu vực và hơn 13 nhà cung cấp; phiên bản mã nguồn mở lần này bao gồm năm ngôn ngữ: tiếng Anh, Tây Ban Nha, Thổ Nhĩ Kỳ, Việt Nam và tiếng Quan Thoại, cùng với điểm số của năm nhà cung cấp: Deepgram Nova-3, Google Chirp-3, Microsoft Azure Speech, ElevenLabs Scribe v2 và OpenAI GPT-4o Mini Transcribe. Mã nguồn, bộ dữ liệu (được lưu trên Hugging Face) và một bảng xếp hạng mở đã được công bố đồng thời, chào đón các nhà cung cấp khác gửi kết quả. Thông tin mới thực sự trong đánh giá nằm ở các chỉ số. Sierra đề xuất một chỉ số mới gọi là UER (Utterance Error Rate - Tỷ lệ lỗi ở cấp câu nói), phân biệt giữa các lỗi làm thay đổi ý nghĩa gốc và các lỗi không quan trọng. Chỉ số WER (tỷ lệ lỗi từ) truyền thống coi việc bỏ sót một tiếng “呃” và nghe nhầm một con số điện thoại là cùng một loại lỗi, nhưng đối với một agent giọng nói thực hiện hành động dựa trên bản ghi âm, thì lỗi sau mới gây ra sai lệch trong quy trình. Sierra cho biết hai nhà cung cấp có WER tương đương có thể có UER chênh lệch rất lớn, vì loại lỗi họ mắc phải hoàn toàn khác nhau. Về kết quả, Google Chirp-3 dẫn đầu về độ chính xác nhưng tốc độ suy luận chậm hơn; Deepgram Nova-3 có độ trễ p50 nhanh gần 8 lần nhưng lại có độ chính xác đa ngôn ngữ thấp nhất. Tỷ lệ lỗi nhận dạng tiếng Quan Thoại có thể cao gấp 5 lần so với tiếng Anh, và sự chênh lệch giữa các nhà cung cấp đối với tiếng Việt cũng rất lớn — những sự khác biệt này không thể nhìn thấy nếu chỉ dựa vào tiêu chuẩn tiếng Anh. (Nguồn: BlockBeats)