StepAudio 2.5 TTS ra mắt với khả năng kiểm soát cảm xúc tinh vi

ME News tin tức, ngày 16 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, Jiepao Xingchen chính thức ra mắt StepAudio 2.5 TTS. Khác với các hệ thống TTS truyền thống yêu cầu nhãn cảm xúc được định sẵn, thế hệ này cho phép điều khiển chi tiết từng khía cạnh của giọng nói thông qua mô tả bằng ngôn ngữ tự nhiên: nhãn chỉ có thể biểu đạt “buồn bã”, trong khi ngôn ngữ tự nhiên có thể mô tả sâu hơn như “nỗi buồn kiềm chế, không có tiếng nức nở, giọng run nhẹ”, và AI sẽ tổng hợp giọng nói tương ứng dựa trên mô tả này. Việc điều khiển được chia thành ba cấp độ. Kiểm soát ngữ cảnh toàn cục thiết lập nền tảng cảm xúc và không khí bối cảnh cho toàn bộ đoạn giọng nói, đảm bảo tính nhất quán trong biểu đạt của nhân vật qua các vòng hội thoại; kiểm soát ngữ cảnh trong văn bản điều chỉnh ngữ điệu, nhịp điệu, khoảng dừng, nhấn mạnh và cảm giác thở ở cấp độ câu, thậm chí có thể khắc họa hoạt động tâm lý và hàm ý ẩn sâu của nhân vật; tái tạo giọng nói không cần huấn luyện lại (Zeroshot TTS) không yêu cầu huấn luyện lại, chỉ cần một bản ghi tham chiếu bất kỳ để sao chép giọng nói, cảm xúc và phong cách có thể điều chỉnh độc lập. Ba tính năng này đã được triển khai đầy đủ trên nền tảng mở của Jiepao Xingchen và Step Plan. Cùng ngày, Google cũng công bố Gemini 3.1 Flash TTS, cũng sử dụng lệnh ngôn ngữ tự nhiên thay thế các nhãn SSML để đạt kiểm soát tinh vi, và đạt vị trí số một trong các bài đánh giá của bên thứ ba. Việc hai công ty ra mắt sản phẩm cùng ngày với cùng một tư duy cho thấy mô hình kiểm soát TTS đang chuyển đổi đồng loạt từ “chọn nhãn” sang “nói nhu cầu”. Đối với các nhà sáng tạo nội dung âm thanh và đạo diễn lồng tiếng, trước đây việc điều chỉnh cảm xúc đòi hỏi phải ghi âm lặp đi lặp lại, giờ đây chỉ cần một câu mô tả là có thể xác định các cấp độ tinh tế của giọng nói. (Nguồn: BlockBeats)