ElevenLabs abre o código do recurso do motor de fala para integração de voz em tempo real
KuCoinFlash
Compartilhar
Resumo
A ElevenLabs lançou sua Skill Speech Engine como código aberto, permitindo integração de voz em tempo real para agentes de IA e modelos de linguagem de grande porte. A ferramenta permite que desenvolvedores adicionem capacidades de voz por meio de um único comando, simplificando a implantação. Ela utiliza conexões WebSocket para conversão de voz em texto e geração de respostas com baixa latência. As bibliotecas @elevenlabs/react e @elevenlabs/client simplificam o trabalho no frontend. A iniciativa está alinhada às crescentes tendências de notícias sobre IA + criptomoeda e ativos do mundo real (RWA).
ME AI Notícia, conforme monitorado pelo Beating, a unicorn de IA de voz ElevenLabs lançou oficialmente como código aberto o componente de conversa vocal em tempo real Speech Engine Skill. O Speech Engine Skill segue a especificação aberta Agent Skills, visando permitir que agentes de IA e aplicações de grandes modelos de linguagem integrem rapidamente capacidades de interação vocal de alta fidelidade e baixa latência. Desenvolvedores precisam apenas executar o comando npx skills add elevenlabs/skills para adicionar o motor de voz ao tempo de execução do projeto, sem a necessidade de integrar múltiplas APIs ou construir máquinas de estado complexas. O Speech Engine Skill é construído sobre conexões WebSocket de alto desempenho, onde cada conexão representa uma sessão de chamada. Quando o usuário fala, o navegador capta o áudio e o transmite em fluxo para a ElevenLabs, que converte em tempo real a fala em texto e envia o texto para o servidor do desenvolvedor. O servidor gera uma resposta textual em fluxo por meio do grande modelo de linguagem e envia a resposta de volta usando as funções sendResponse() ou send_response() do SDK (suportando strings ou iteradores assíncronos). A ElevenLabs, em seguida, converte essa resposta em voz sintetizada de baixa latência, reproduzida no navegador. O SDK gerencia automaticamente roteamento de rede, verificação de assinatura de requisições, detecção de heartbeat e ciclo de vida da sessão, com suporte nativo para interrupções e troca de turnos na conversa. Para simplificar o desenvolvimento frontend, a ElevenLabs lançou simultaneamente as bibliotecas cliente @elevenlabs/react e @elevenlabs/client. A página frontend requer apenas um código mínimo e, combinada com credenciais de sessão seguras emitidas pelo servidor, permite iniciar rapidamente um assistente vocal digital com capacidade de resistência a ruído e interrupções. Em implementações reais, a ElevenLabs recomenda tratar o texto reconhecido como entrada não confiável, configurando no servidor barreiras de segurança determinísticas ou validação por lista branca de intenções, evitando que o texto original da transcrição vocal seja mapeado diretamente como ações privilegiadas do modelo ou chamadas a ferramentas sensíveis. (Fonte: BlockBeats)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.