ElevenLabs open source son moteur de parole pour l'intégration vocale en temps réel
KuCoinFlash
Partager
Résumé
ElevenLabs a publié son Skill Speech Engine en open source, permettant une intégration vocale en temps réel pour les agents IA et les grands modèles linguistiques. L'outil permet aux développeurs d'ajouter des fonctionnalités vocales via une seule commande, simplifiant ainsi le déploiement. Il utilise des connexions WebSocket pour une synthèse vocale et une génération de réponses à faible latence. Les bibliothèques @elevenlabs/react et @elevenlabs/client simplifient le travail côté frontend. Cette initiative s'aligne sur les tendances croissantes en matière d'actualités IA + crypto et d'actifs du monde réel (RWA).
ME AI Selon les données de Beating Monitoring, l'entreprise de pointe dans le domaine de l'IA vocale ElevenLabs a officiellement open-sourcé son composant de dialogue vocal en temps réel, Speech Engine Skill. Speech Engine Skill suit la norme ouverte Agent Skills et vise à permettre aux agents IA et aux applications de grands modèles linguistiques d'intégrer rapidement des capacités d'interaction vocale à haute fidélité et faible latence. Les développeurs peuvent simplement exécuter la commande npx skills add elevenlabs/skills pour ajouter le moteur vocal à l'environnement d'exécution de leur projet, sans avoir à intégrer plusieurs API ni construire des machines à états complexes. Speech Engine Skill est construit sur des connexions WebSocket haute performance, chaque connexion représentant une session d'appel. Lorsqu'un utilisateur parle, le navigateur capture l'audio et le transmet en flux vers ElevenLabs, qui convertit en temps réel la parole en texte et envoie le texte au serveur du développeur. Le serveur génère une réponse textuelle en flux via un grand modèle linguistique, puis transmet la réponse à ElevenLabs à l'aide des fonctions sendResponse() ou send_response() du SDK (qui prennent en charge les chaînes de caractères ou les itérateurs asynchrones). ElevenLabs convertit ensuite cette réponse en voix synthétisée à faible latence, diffusée directement dans le navigateur. Le SDK gère en arrière-plan le routage réseau, la vérification des signatures des requêtes, les检心跳 et le cycle de vie des sessions, tout en prenant en charge nativement les interruptions et les changements de tour de parole. Pour simplifier le développement frontend, ElevenLabs a également lancé simultanément les bibliothèques clientes @elevenlabs/react et @elevenlabs/client. Une page frontend nécessite seulement très peu de code, combinée à des jetons de session sécurisés fournis par le serveur, pour démarrer rapidement un assistant vocal numérique capable de résister au bruit et aux interruptions. Dans les déploiements réels, ElevenLabs recommande de traiter le texte reconnu vocalement comme une entrée non fiable, et de configurer sur le serveur des garde-fous de sécurité déterministes ou une liste blanche d'intentions pour éviter que le texte brut issu de la reconnaissance vocale ne soit directement mappé à des actions privilégiées du modèle ou à l'appel d'outils sensibles. (Source : BlockBeats)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.