ElevenLabs відкриває джерела мовний двигун для інтеграції у реальному часі
KuCoinFlash
Поділитися
Короткий зміст
ElevenLabs випустила свій Speech Engine Skill як відкрите програмне забезпечення, що дозволяє інтегрувати голос у реальному часі для AI-агентів та великих мовних моделей. Інструмент дозволяє розробникам додавати голосові можливості за допомогою однієї команди, спрощуючи розгортання. Він використовує WebSocket-з’єднання для низької затримки при перетворенні мови на текст та генерації відповідей. Бібліотеки @elevenlabs/react та @elevenlabs/client спрощують роботу з фронтендом. Цей крок відповідає зростаючим трендам у новинах про AI + криптовалюти та реальні активи (RWA).
ME AI Новина: згідно з моніторингом Beating, венчурний стартап у сфері голосового ІІ ElevenLabs офіційно відкрив джерела компонента реального часу для голосової діалогової системи Speech Engine Skill. Speech Engine Skill розроблений згідно з відкритим стандартом Agent Skills і призначений для швидкої інтеграції AI-агентів та застосунків на основі великих мовних моделей з високоякісними, низьколатентними голосовими інтерфейсами. Розробникам достатньо виконати команду npx skills add elevenlabs/skills, щоб додати голосовий двигун до середовища виконання проекту, не підключаючи кілька API або не створюючи складних станових машин. Speech Engine Skill побудований на основі високопродуктивного WebSocket-з’єднання, де кожне з’єднання представляє окрему розмову. Коли користувач починає говорити, браузер захоплює аудіо та потоково передає його ElevenLabs, яка в реальному часі перетворює мову на текст і надсилає текст на сервер розробника. Сервер генерує потокову текстову відповідь за допомогою великої мовної моделі, а потім передає її назад за допомогою функцій sendResponse() або send_response() SDK (підтримуються як рядки, так і асинхронні ітератори). ElevenLabs автоматично перетворює цю відповідь на низьколатентне синтезоване мовлення, яке відтворюється у браузері. SDK керує мережевою маршрутизацією, перевіркою підписів запитів, підтримкою живлення та життєвим циклом сесії в фоновому режимі, а також нативно підтримує переривання та зміну ходу діалогу. Для спрощення розробки фронтенду ElevenLabs одночасно запустив клієнтські бібліотеки @elevenlabs/react та @elevenlabs/client. На фронтенд-сторінці достатньо лише кількох рядків коду разом із безпечними сесійними обліковими даними, щоб швидко запустити цифрового голосового асистента з функціями протидії шуму та перериванням. У реальних умовах експлуатації ElevenLabs рекомендує вважати текст, отриманий з голосового розпізнавання, ненадійним вводом і налаштовувати на сервері детерміновані безпечні бар’єри або білий список намірів, щоб уникнути безпосереднього використання оригінального тексту розпізнавання для виконання привілейованих дій великої моделі або виклику чутливих інструментів. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.