ElevenLabs відкриває джерела мовний двигун для інтеграції у реальному часі

ME AI Новина: згідно з моніторингом Beating, венчурний стартап у сфері голосового ІІ ElevenLabs офіційно відкрив джерела компонента реального часу для голосової діалогової системи Speech Engine Skill. Speech Engine Skill розроблений згідно з відкритим стандартом Agent Skills і призначений для швидкої інтеграції AI-агентів та застосунків на основі великих мовних моделей з високоякісними, низьколатентними голосовими інтерфейсами. Розробникам достатньо виконати команду npx skills add elevenlabs/skills, щоб додати голосовий двигун до середовища виконання проекту, не підключаючи кілька API або не створюючи складних станових машин. Speech Engine Skill побудований на основі високопродуктивного WebSocket-з’єднання, де кожне з’єднання представляє окрему розмову. Коли користувач починає говорити, браузер захоплює аудіо та потоково передає його ElevenLabs, яка в реальному часі перетворює мову на текст і надсилає текст на сервер розробника. Сервер генерує потокову текстову відповідь за допомогою великої мовної моделі, а потім передає її назад за допомогою функцій sendResponse() або send_response() SDK (підтримуються як рядки, так і асинхронні ітератори). ElevenLabs автоматично перетворює цю відповідь на низьколатентне синтезоване мовлення, яке відтворюється у браузері. SDK керує мережевою маршрутизацією, перевіркою підписів запитів, підтримкою живлення та життєвим циклом сесії в фоновому режимі, а також нативно підтримує переривання та зміну ходу діалогу. Для спрощення розробки фронтенду ElevenLabs одночасно запустив клієнтські бібліотеки @elevenlabs/react та @elevenlabs/client. На фронтенд-сторінці достатньо лише кількох рядків коду разом із безпечними сесійними обліковими даними, щоб швидко запустити цифрового голосового асистента з функціями протидії шуму та перериванням. У реальних умовах експлуатації ElevenLabs рекомендує вважати текст, отриманий з голосового розпізнавання, ненадійним вводом і налаштовувати на сервері детерміновані безпечні бар’єри або білий список намірів, щоб уникнути безпосереднього використання оригінального тексту розпізнавання для виконання привілейованих дій великої моделі або виклику чутливих інструментів. (Джерело: BlockBeats)