ElevenLabs abre el motor de voz en código abierto para integración en tiempo real

ME AI Noticia, según el monitoreo de Beating, la unicornio de IA de voz ElevenLabs ha lanzado oficialmente como código abierto el componente de conversación de voz en tiempo real Speech Engine Skill. Speech Engine Skill sigue la especificación abierta Agent Skills, con el objetivo de permitir que los agentes de IA y las aplicaciones de modelos de lenguaje grandes integren rápidamente capacidades de interacción de voz de alta fidelidad y baja latencia. Los desarrolladores solo necesitan ejecutar el comando npx skills add elevenlabs/skills para agregar el motor de voz al entorno de ejecución del proyecto, sin necesidad de integrar múltiples API ni construir máquinas de estado complejas. Speech Engine Skill se construye sobre conexiones WebSocket de alto rendimiento, donde cada conexión representa una sesión de llamada. Cuando el usuario habla, el navegador captura el audio y lo transmite en flujo a ElevenLabs, que convierte la voz en texto en tiempo real y envía el texto al servidor del desarrollador. El servidor genera una respuesta de texto en flujo mediante un modelo de lenguaje grande y la envía de vuelta utilizando la función sendResponse() o send_response() del SDK (que admite cadenas o iteradores asíncronos); ElevenLabs luego convierte esta respuesta en voz sintetizada de baja latencia y la reproduce en el navegador. El SDK gestiona en segundo plano la enrutación de red, la verificación de firmas de solicitud, la detección de heartbeat y el ciclo de vida de la sesión, y admite nativamente interrupciones y turnos de conversación. Para simplificar el desarrollo frontend, ElevenLabs también lanzó simultáneamente las bibliotecas cliente @elevenlabs/react y @elevenlabs/client. Solo se requiere un código mínimo en la página frontend, junto con credenciales de sesión seguras emitidas por el servidor, para iniciar rápidamente un asistente de voz digital con capacidad de resistencia al ruido y a las interrupciones. En implementaciones reales, ElevenLabs recomienda tratar el texto reconocido por voz como entrada no confiable, configurando en el servidor barreras de seguridad deterministas o verificaciones de lista blanca de intenciones para evitar que el texto original convertido desde la voz se mapee directamente a acciones privilegiadas del modelo o llamadas a herramientas sensibles. (Fuente: BlockBeats)