Xiaomi mở nguồn OmniVoice: Mô hình sao chép giọng nói 646 ngôn ngữ được huấn luyện trên dữ liệu mở

Theo theo dõi của Beating, nhóm Kaldi thế hệ mới của Phòng thí nghiệm AI Xiaomi đã mở nguồn OmniVoice, một mô hình TTS (chuyển văn bản thành giọng nói) không cần mẫu huấn luyện, hỗ trợ 646 ngôn ngữ. Chỉ cần vài giây âm thanh tham chiếu, mô hình có thể sao chép giọng nói và hoạt động xuyên ngôn ngữ: cung cấp một bản ghi âm tiếng Trung, mô hình có thể phát ra tiếng Nhật, tiếng Hàn hoặc các ngôn ngữ khác bằng cùng một giọng nói. Mã nguồn, trọng số và dữ liệu huấn luyện đều được mở nguồn dưới giấy phép Apache-2.0. Về kiến trúc, OmniVoice theo đuổi lối tiếp cận cực kỳ đơn giản. Toàn bộ mô hình chỉ gồm một Transformer hai chiều, trực tiếp ánh xạ từ văn bản sang các token âm học đa mã hóa (mã hóa rời rạc của âm thanh), không cần qua quy trình hai giai đoạn chuyển từ token ngữ nghĩa sang token âm học. Hai thiết kế then chốt hỗ trợ cấu trúc đơn giản này: chiến lược che mờ ngẫu nhiên toàn bộ mã hóa nâng cao hiệu suất huấn luyện, và khởi tạo tham số từ mô hình ngôn ngữ lớn để cải thiện độ chính xác phát âm. Tốc độ suy luận đạt 40 lần thực tế, chạy trực tiếp trên PyTorch mà không cần tối ưu hóa bổ sung. Dữ liệu huấn luyện được lấy hoàn toàn từ 50 bộ dữ liệu âm thanh mở nguồn, sau khi lọc nhiễu và đánh giá chất lượng, tổng cộng đạt 580.000 giờ. Các ngôn ngữ ít tài nguyên được tăng cường động để đảm bảo hiệu quả huấn luyện. Trong bài kiểm tra với 24 ngôn ngữ, OmniVoice vượt trội về độ tương đồng và khả năng hiểu được so với nhiều hệ thống thương mại. Trong bài kiểm tra với 102 ngôn ngữ, khả năng hiểu được gần như hoặc vượt cả bản ghi âm thật. Ngay cả các ngôn ngữ ít tài nguyên với dữ liệu huấn luyện dưới 10 giờ cũng có thể tạo ra giọng nói. Ngoài sao chép giọng nói, mô hình còn hỗ trợ tùy chỉnh giọng nói qua mô tả văn bản (ví dụ: “nam, trung niên, tần số cực thấp” hoặc “nữ, thanh niên, phương ngữ Tứ Xuyên”), tự động khử nhiễu cho âm thanh tham chiếu có nhiễu, chèn các ký hiệu cảm xúc như tiếng cười, tiếng thở dài, cũng như sửa phát âm cho các từ đa âm và danh từ riêng trong tiếng Trung và tiếng Anh.