ElevenLabs 開源語音引擎技能,實現即時語音整合

iconKuCoinFlash
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
ElevenLabs 已將其 Speech Engine Skill 開源,使 AI 代理和大型語言模型能夠實現即時語音整合。該工具允許開發者透過單一指令新增語音功能,簡化部署流程。它使用 WebSocket 連線實現低延遲的語音轉文字與回應生成。@elevenlabs/react 和 @elevenlabs/client 函式庫簡化了前端工作。此舉與日益增長的 AI + 加密貨幣新聞及實體資產(RWA)新聞趨勢相符。
ME AI 消息,據動察 Beating 監測,語音 AI 獨角獸 ElevenLabs 正式開源實時語音對話組件 Speech Engine Skill。Speech Engine Skill 遵循 Agent Skills 開放規範,旨在讓 AI 智能體與大語言模型應用快速整合高保真、低延遲的語音交互能力。開發者僅需運行 npx skills add elevenlabs/skills 命令,即可將語音引擎添加至項目運行時中,無需對接多套 API 或構建複雜狀態機。Speech Engine Skill 基於高性能 WebSocket 連接構建,每個連接代表一個通話會話。用戶開口說話時,瀏覽器捕獲音頻並流式傳輸給 ElevenLabs,ElevenLabs 實時完成語音轉文字並將文本推送至開發者的伺服器。伺服器通過大語言模型生成流式文本回應,利用 SDK 的 sendResponse() 或 send_response() 函數(支援字串或非同步迭代器)將回應傳回,ElevenLabs 隨後將其轉換為低延遲合成語音在瀏覽器中播放。SDK 在後台管理網路路由、請求簽名校驗、心跳檢測和會話生命週期,並原生支援插話打斷與對話輪轉。為簡化前端開發,ElevenLabs 同步推出 @elevenlabs/react 與 @elevenlabs/client 客戶端庫。前端頁面僅需極少代碼,配合伺服器發放的安全會話憑證,即可快速啟動具備抗噪聲與抗打斷能力的數字語音助手。在實際部署中,ElevenLabs 建議將語音識別文本視為不可信輸入,在伺服器端配置確定性的安全護欄或意圖白名單校驗,避免原始語音轉寫文本直接映射為大模型特權動作或敏感工具調用。(來源:BlockBeats)
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露