ElevenLabs abre o código do recurso do motor de fala para integração de voz em tempo real

ME AI Notícia, conforme monitorado pelo Beating, a unicorn de IA de voz ElevenLabs lançou oficialmente como código aberto o componente de conversa vocal em tempo real Speech Engine Skill. O Speech Engine Skill segue a especificação aberta Agent Skills, visando permitir que agentes de IA e aplicações de grandes modelos de linguagem integrem rapidamente capacidades de interação vocal de alta fidelidade e baixa latência. Desenvolvedores precisam apenas executar o comando npx skills add elevenlabs/skills para adicionar o motor de voz ao tempo de execução do projeto, sem a necessidade de integrar múltiplas APIs ou construir máquinas de estado complexas. O Speech Engine Skill é construído sobre conexões WebSocket de alto desempenho, onde cada conexão representa uma sessão de chamada. Quando o usuário fala, o navegador capta o áudio e o transmite em fluxo para a ElevenLabs, que converte em tempo real a fala em texto e envia o texto para o servidor do desenvolvedor. O servidor gera uma resposta textual em fluxo por meio do grande modelo de linguagem e envia a resposta de volta usando as funções sendResponse() ou send_response() do SDK (suportando strings ou iteradores assíncronos). A ElevenLabs, em seguida, converte essa resposta em voz sintetizada de baixa latência, reproduzida no navegador. O SDK gerencia automaticamente roteamento de rede, verificação de assinatura de requisições, detecção de heartbeat e ciclo de vida da sessão, com suporte nativo para interrupções e troca de turnos na conversa. Para simplificar o desenvolvimento frontend, a ElevenLabs lançou simultaneamente as bibliotecas cliente @elevenlabs/react e @elevenlabs/client. A página frontend requer apenas um código mínimo e, combinada com credenciais de sessão seguras emitidas pelo servidor, permite iniciar rapidamente um assistente vocal digital com capacidade de resistência a ruído e interrupções. Em implementações reais, a ElevenLabs recomenda tratar o texto reconhecido como entrada não confiável, configurando no servidor barreiras de segurança determinísticas ou validação por lista branca de intenções, evitando que o texto original da transcrição vocal seja mapeado diretamente como ações privilegiadas do modelo ou chamadas a ferramentas sensíveis. (Fonte: BlockBeats)