ElevenLabs mở nguồn kỹ năng động cơ giọng nói để tích hợp giọng nói theo thời gian thực
KuCoinFlash
Chia sẻ
Tóm tắt
ElevenLabs đã phát hành Kỹ năng Speech Engine dưới dạng mã nguồn mở, cho phép tích hợp giọng nói theo thời gian thực cho các tác nhân AI và các mô hình ngôn ngữ lớn. Công cụ này cho phép các nhà phát triển thêm khả năng giọng nói thông qua một lệnh duy nhất, giúp đơn giản hóa quá trình triển khai. Nó sử dụng kết nối WebSocket để xử lý chuyển đổi giọng nói thành văn bản và tạo phản hồi với độ trễ thấp. Các thư viện @elevenlabs/react và @elevenlabs/client giúp đơn giản hóa công việc frontend. Động thái này phù hợp với xu hướng tin tức ngày càng tăng về AI + tiền điện tử và các tài sản thực tế (RWA).
ME AI Tin tức, theo giám sát của Beating, công ty AI unicorns ElevenLabs chính thức mở nguồn thành phần hội thoại giọng nói thời gian thực Speech Engine Skill. Speech Engine Skill tuân theo tiêu chuẩn mở Agent Skills, nhằm giúp các tác nhân AI và ứng dụng mô hình ngôn ngữ lớn tích hợp nhanh chóng khả năng tương tác giọng nói độ phân giải cao và độ trễ thấp. Nhà phát triển chỉ cần chạy lệnh npx skills add elevenlabs/skills để thêm động cơ giọng nói vào runtime dự án, không cần kết nối nhiều API hoặc xây dựng máy trạng thái phức tạp. Speech Engine Skill được xây dựng dựa trên kết nối WebSocket hiệu năng cao, mỗi kết nối đại diện cho một phiên hội thoại. Khi người dùng nói, trình duyệt sẽ ghi lại âm thanh và truyền trực tiếp đến ElevenLabs, ElevenLabs sẽ chuyển đổi giọng nói thành văn bản và gửi văn bản đến máy chủ của nhà phát triển theo thời gian thực. Máy chủ tạo phản hồi văn bản dạng luồng thông qua mô hình ngôn ngữ lớn, sau đó sử dụng hàm sendResponse() hoặc send_response() của SDK (hỗ trợ chuỗi hoặc trình lặp bất đồng bộ) để gửi phản hồi trở lại, ElevenLabs sau đó chuyển đổi nó thành giọng nói tổng hợp độ trễ thấp và phát ra trong trình duyệt. SDK quản lý tự động định tuyến mạng, xác thực chữ ký yêu cầu, kiểm tra heartbeat và vòng đời phiên trong nền, đồng thời hỗ trợ tích hợp sẵn tính năng ngắt lời và chuyển đổi cuộc hội thoại. Để đơn giản hóa phát triển frontend, ElevenLabs đồng thời ra mắt thư viện khách hàng @elevenlabs/react và @elevenlabs/client. Trang frontend chỉ cần rất ít mã, kết hợp với chứng chỉ phiên an toàn do máy chủ cấp, có thể nhanh chóng khởi động trợ lý giọng nói kỹ thuật số với khả năng chống ồn và chống ngắt lời. Trong quá trình triển khai thực tế, ElevenLabs khuyến nghị coi văn bản nhận dạng giọng nói là đầu vào không đáng tin cậy, cấu hình các lớp bảo mật xác định hoặc kiểm tra danh sách trắng ý định trên máy chủ để tránh việc văn bản chuyển đổi trực tiếp từ giọng nói được ánh xạ thành hành động đặc quyền của mô hình lớn hoặc gọi công cụ nhạy cảm. (Nguồn: BlockBeats)
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.