Ipinaglalabas ng ElevenLabs ang Speech Engine Skill para sa Real-Time Voice Integration

ME AI mensahe, ayon sa pagmamasid ng Beating, ang voice AI unicorn na ElevenLabs ay opisyal na isinilid ang real-time voice conversation component na Speech Engine Skill. Ang Speech Engine Skill ay sumusunod sa open specification na Agent Skills, na naglalayong magbigay ng mabilis na integrasyon ng mataas na kalidad at mababang latency na voice interaction capability sa AI agents at malalaking language model applications. Ang mga developer ay kailangan lang i-run ang utos na npx skills add elevenlabs/skills upang idagdag ang voice engine sa kanilang project runtime, nang walang kailangang mag-connect sa maraming API o magbuo ng komplikadong state machine. Ang Speech Engine Skill ay binubuo gamit ang high-performance WebSocket connection, kung saan bawat connection ay kumakatawan sa isang call session. Kapag nag-uusap ang user, ang browser ay kumukuha ng audio at stream ito sa ElevenLabs, na nagpapagana nang real-time ang speech-to-text at ipinapadala ang teksto sa server ng developer. Ang server ay gumagawa ng stream ng text response gamit ang malalaking language model, at gamit ang SDK na sendResponse() o send_response() function (na suporta sa string o asynchronous iterator), ipinapadala ang response pabalik, at pagkatapos ay isasalin ng ElevenLabs ito sa mababang latency na synthesized voice na pinapalabas sa browser. Ang SDK ay nagpapatakbo sa background ng network routing, request signature verification, heartbeat detection, at session lifecycle, at may native support para sa interruption at turn-taking. Para mapadali ang frontend development, isinilid din ng ElevenLabs ang @elevenlabs/react at @elevenlabs/client client libraries. Ang frontend page ay kailangan lang ng kaunting code, kasama ang secure session credential na ibinibigay ng server, upang mabilis na i-launch ang digital voice assistant na may kakayahang makipaglaban sa ingay at interruption. Sa praktikal na deployment, inirerekomenda ng ElevenLabs na tingnan ang text mula sa speech recognition bilang hindi tiyak na input, at i-configure ang server-side security guardrails o intent whitelist verification upang maiwasan ang direkta mapping ng orihinal na speech-to-text text sa privileged actions o sensitive tool calls ng malalaking model. (Pinagkunan: BlockBeats)