ElevenLabs 開源語音引擎技能，實現即時語音整合

ME AI 消息，據動察 Beating 監測，語音 AI 獨角獸 ElevenLabs 正式開源實時語音對話組件 Speech Engine Skill。Speech Engine Skill 遵循 Agent Skills 開放規範，旨在讓 AI 智能體與大語言模型應用快速整合高保真、低延遲的語音交互能力。開發者僅需運行 npx skills add elevenlabs/skills 命令，即可將語音引擎添加至項目運行時中，無需對接多套 API 或構建複雜狀態機。Speech Engine Skill 基於高性能 WebSocket 連接構建，每個連接代表一個通話會話。用戶開口說話時，瀏覽器捕獲音頻並流式傳輸給 ElevenLabs，ElevenLabs 實時完成語音轉文字並將文本推送至開發者的伺服器。伺服器通過大語言模型生成流式文本回應，利用 SDK 的 sendResponse() 或 send_response() 函數（支援字串或非同步迭代器）將回應傳回，ElevenLabs 隨後將其轉換為低延遲合成語音在瀏覽器中播放。SDK 在後台管理網路路由、請求簽名校驗、心跳檢測和會話生命週期，並原生支援插話打斷與對話輪轉。為簡化前端開發，ElevenLabs 同步推出 @elevenlabs/react 與 @elevenlabs/client 客戶端庫。前端頁面僅需極少代碼，配合伺服器發放的安全會話憑證，即可快速啟動具備抗噪聲與抗打斷能力的數字語音助手。在實際部署中，ElevenLabs 建議將語音識別文本視為不可信輸入，在伺服器端配置確定性的安全護欄或意圖白名單校驗，避免原始語音轉寫文本直接映射為大模型特權動作或敏感工具調用。（來源：BlockBeats）