ME News tin tức, ngày 16 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, Jiepao Xingchen chính thức ra mắt StepAudio 2.5 TTS. Khác với các hệ thống TTS truyền thống yêu cầu nhãn cảm xúc được định sẵn, thế hệ này cho phép điều khiển chi tiết từng khía cạnh của giọng nói thông qua mô tả bằng ngôn ngữ tự nhiên: nhãn chỉ có thể biểu đạt “buồn bã”, trong khi ngôn ngữ tự nhiên có thể mô tả sâu hơn như “nỗi buồn kiềm chế, không có tiếng nức nở, giọng run nhẹ”, và AI sẽ tổng hợp giọng nói tương ứng dựa trên mô tả này. Việc điều khiển được chia thành ba cấp độ. Kiểm soát ngữ cảnh toàn cục thiết lập nền tảng cảm xúc và không khí bối cảnh cho toàn bộ đoạn giọng nói, đảm bảo tính nhất quán trong biểu đạt của nhân vật qua các vòng hội thoại; kiểm soát ngữ cảnh trong văn bản điều chỉnh ngữ điệu, nhịp điệu, khoảng dừng, nhấn mạnh và cảm giác thở ở cấp độ câu, thậm chí có thể khắc họa hoạt động tâm lý và hàm ý ẩn sâu của nhân vật; tái tạo giọng nói không cần huấn luyện lại (Zeroshot TTS) không yêu cầu huấn luyện lại, chỉ cần một bản ghi tham chiếu bất kỳ để sao chép giọng nói, cảm xúc và phong cách có thể điều chỉnh độc lập. Ba tính năng này đã được triển khai đầy đủ trên nền tảng mở của Jiepao Xingchen và Step Plan. Cùng ngày, Google cũng công bố Gemini 3.1 Flash TTS, cũng sử dụng lệnh ngôn ngữ tự nhiên thay thế các nhãn SSML để đạt kiểm soát tinh vi, và đạt vị trí số một trong các bài đánh giá của bên thứ ba. Việc hai công ty ra mắt sản phẩm cùng ngày với cùng một tư duy cho thấy mô hình kiểm soát TTS đang chuyển đổi đồng loạt từ “chọn nhãn” sang “nói nhu cầu”. Đối với các nhà sáng tạo nội dung âm thanh và đạo diễn lồng tiếng, trước đây việc điều chỉnh cảm xúc đòi hỏi phải ghi âm lặp đi lặp lại, giờ đây chỉ cần một câu mô tả là có thể xác định các cấp độ tinh tế của giọng nói. (Nguồn: BlockBeats)
StepAudio 2.5 TTS ra mắt với khả năng kiểm soát cảm xúc tinh vi
KuCoinFlashChia sẻ






StepAudio 2.5 TTS ra mắt vào ngày 16 tháng 4 (UTC+8), cung cấp khả năng kiểm soát cảm xúc tinh vi thông qua ngôn ngữ tự nhiên. Người dùng hiện có thể chỉ định các sắc thái như “nỗi buồn kìm nén, không có âm điệu khóc, run nhẹ”. Hệ thống hỗ trợ ngữ cảnh toàn cầu, điều khiển trong văn bản và sao chép giọng nói zero-shot. Tin tức trên chuỗi nhấn mạnh bước tiến này trong công nghệ âm thanh AI. Đồng thời, Google đã phát hành Gemini 3.1 Flash TTS, cũng sử dụng ngôn ngữ tự nhiên để điều chỉnh giọng nói chính xác. Các cuộc thảo luận về chính sách tiền điện tử toàn cầu có thể sớm bao gồm các công cụ này như một phần của khung quy định rộng lớn hơn.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.