ElevenLabs abre el motor de voz en código abierto para integración en tiempo real

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
ElevenLabs ha lanzado su habilidad Speech Engine como código abierto, permitiendo la integración en tiempo real de voz para agentes de IA y modelos de lenguaje grandes. La herramienta permite a los desarrolladores agregar capacidades de voz mediante un solo comando, simplificando el despliegue. Utiliza conexiones WebSocket para generación de voz a texto y respuestas con baja latencia. Las bibliotecas @elevenlabs/react y @elevenlabs/client simplifican el trabajo en el frontend. Esta iniciativa se alinea con las crecientes tendencias de noticias sobre IA + cripto y activos del mundo real (RWA).
ME AI Noticia, según el monitoreo de Beating, la unicornio de IA de voz ElevenLabs ha lanzado oficialmente como código abierto el componente de conversación de voz en tiempo real Speech Engine Skill. Speech Engine Skill sigue la especificación abierta Agent Skills, con el objetivo de permitir que los agentes de IA y las aplicaciones de modelos de lenguaje grandes integren rápidamente capacidades de interacción de voz de alta fidelidad y baja latencia. Los desarrolladores solo necesitan ejecutar el comando npx skills add elevenlabs/skills para agregar el motor de voz al entorno de ejecución del proyecto, sin necesidad de integrar múltiples API ni construir máquinas de estado complejas. Speech Engine Skill se construye sobre conexiones WebSocket de alto rendimiento, donde cada conexión representa una sesión de llamada. Cuando el usuario habla, el navegador captura el audio y lo transmite en flujo a ElevenLabs, que convierte la voz en texto en tiempo real y envía el texto al servidor del desarrollador. El servidor genera una respuesta de texto en flujo mediante un modelo de lenguaje grande y la envía de vuelta utilizando la función sendResponse() o send_response() del SDK (que admite cadenas o iteradores asíncronos); ElevenLabs luego convierte esta respuesta en voz sintetizada de baja latencia y la reproduce en el navegador. El SDK gestiona en segundo plano la enrutación de red, la verificación de firmas de solicitud, la detección de heartbeat y el ciclo de vida de la sesión, y admite nativamente interrupciones y turnos de conversación. Para simplificar el desarrollo frontend, ElevenLabs también lanzó simultáneamente las bibliotecas cliente @elevenlabs/react y @elevenlabs/client. Solo se requiere un código mínimo en la página frontend, junto con credenciales de sesión seguras emitidas por el servidor, para iniciar rápidamente un asistente de voz digital con capacidad de resistencia al ruido y a las interrupciones. En implementaciones reales, ElevenLabs recomienda tratar el texto reconocido por voz como entrada no confiable, configurando en el servidor barreras de seguridad deterministas o verificaciones de lista blanca de intenciones para evitar que el texto original convertido desde la voz se mapee directamente a acciones privilegiadas del modelo o llamadas a herramientas sensibles. (Fuente: BlockBeats)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.