ElevenLabs mở nguồn kỹ năng động cơ giọng nói để tích hợp giọng nói theo thời gian thực

ME AI Tin tức, theo giám sát của Beating, công ty AI unicorns ElevenLabs chính thức mở nguồn thành phần hội thoại giọng nói thời gian thực Speech Engine Skill. Speech Engine Skill tuân theo tiêu chuẩn mở Agent Skills, nhằm giúp các tác nhân AI và ứng dụng mô hình ngôn ngữ lớn tích hợp nhanh chóng khả năng tương tác giọng nói độ phân giải cao và độ trễ thấp. Nhà phát triển chỉ cần chạy lệnh npx skills add elevenlabs/skills để thêm động cơ giọng nói vào runtime dự án, không cần kết nối nhiều API hoặc xây dựng máy trạng thái phức tạp. Speech Engine Skill được xây dựng dựa trên kết nối WebSocket hiệu năng cao, mỗi kết nối đại diện cho một phiên hội thoại. Khi người dùng nói, trình duyệt sẽ ghi lại âm thanh và truyền trực tiếp đến ElevenLabs, ElevenLabs sẽ chuyển đổi giọng nói thành văn bản và gửi văn bản đến máy chủ của nhà phát triển theo thời gian thực. Máy chủ tạo phản hồi văn bản dạng luồng thông qua mô hình ngôn ngữ lớn, sau đó sử dụng hàm sendResponse() hoặc send_response() của SDK (hỗ trợ chuỗi hoặc trình lặp bất đồng bộ) để gửi phản hồi trở lại, ElevenLabs sau đó chuyển đổi nó thành giọng nói tổng hợp độ trễ thấp và phát ra trong trình duyệt. SDK quản lý tự động định tuyến mạng, xác thực chữ ký yêu cầu, kiểm tra heartbeat và vòng đời phiên trong nền, đồng thời hỗ trợ tích hợp sẵn tính năng ngắt lời và chuyển đổi cuộc hội thoại. Để đơn giản hóa phát triển frontend, ElevenLabs đồng thời ra mắt thư viện khách hàng @elevenlabs/react và @elevenlabs/client. Trang frontend chỉ cần rất ít mã, kết hợp với chứng chỉ phiên an toàn do máy chủ cấp, có thể nhanh chóng khởi động trợ lý giọng nói kỹ thuật số với khả năng chống ồn và chống ngắt lời. Trong quá trình triển khai thực tế, ElevenLabs khuyến nghị coi văn bản nhận dạng giọng nói là đầu vào không đáng tin cậy, cấu hình các lớp bảo mật xác định hoặc kiểm tra danh sách trắng ý định trên máy chủ để tránh việc văn bản chuyển đổi trực tiếp từ giọng nói được ánh xạ thành hành động đặc quyền của mô hình lớn hoặc gọi công cụ nhạy cảm. (Nguồn: BlockBeats)