ElevenLabs open source son moteur de parole pour l'intégration vocale en temps réel

ME AI Selon les données de Beating Monitoring, l'entreprise de pointe dans le domaine de l'IA vocale ElevenLabs a officiellement open-sourcé son composant de dialogue vocal en temps réel, Speech Engine Skill. Speech Engine Skill suit la norme ouverte Agent Skills et vise à permettre aux agents IA et aux applications de grands modèles linguistiques d'intégrer rapidement des capacités d'interaction vocale à haute fidélité et faible latence. Les développeurs peuvent simplement exécuter la commande npx skills add elevenlabs/skills pour ajouter le moteur vocal à l'environnement d'exécution de leur projet, sans avoir à intégrer plusieurs API ni construire des machines à états complexes. Speech Engine Skill est construit sur des connexions WebSocket haute performance, chaque connexion représentant une session d'appel. Lorsqu'un utilisateur parle, le navigateur capture l'audio et le transmet en flux vers ElevenLabs, qui convertit en temps réel la parole en texte et envoie le texte au serveur du développeur. Le serveur génère une réponse textuelle en flux via un grand modèle linguistique, puis transmet la réponse à ElevenLabs à l'aide des fonctions sendResponse() ou send_response() du SDK (qui prennent en charge les chaînes de caractères ou les itérateurs asynchrones). ElevenLabs convertit ensuite cette réponse en voix synthétisée à faible latence, diffusée directement dans le navigateur. Le SDK gère en arrière-plan le routage réseau, la vérification des signatures des requêtes, les检心跳 et le cycle de vie des sessions, tout en prenant en charge nativement les interruptions et les changements de tour de parole. Pour simplifier le développement frontend, ElevenLabs a également lancé simultanément les bibliothèques clientes @elevenlabs/react et @elevenlabs/client. Une page frontend nécessite seulement très peu de code, combinée à des jetons de session sécurisés fournis par le serveur, pour démarrer rapidement un assistant vocal numérique capable de résister au bruit et aux interruptions. Dans les déploiements réels, ElevenLabs recommande de traiter le texte reconnu vocalement comme une entrée non fiable, et de configurer sur le serveur des garde-fous de sécurité déterministes ou une liste blanche d'intentions pour éviter que le texte brut issu de la reconnaissance vocale ne soit directement mappé à des actions privilégiées du modèle ou à l'appel d'outils sensibles. (Source : BlockBeats)