ElevenLabs відкриває джерела мовний двигун для інтеграції у реальному часі

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
ElevenLabs випустила свій Speech Engine Skill як відкрите програмне забезпечення, що дозволяє інтегрувати голос у реальному часі для AI-агентів та великих мовних моделей. Інструмент дозволяє розробникам додавати голосові можливості за допомогою однієї команди, спрощуючи розгортання. Він використовує WebSocket-з’єднання для низької затримки при перетворенні мови на текст та генерації відповідей. Бібліотеки @elevenlabs/react та @elevenlabs/client спрощують роботу з фронтендом. Цей крок відповідає зростаючим трендам у новинах про AI + криптовалюти та реальні активи (RWA).
ME AI Новина: згідно з моніторингом Beating, венчурний стартап у сфері голосового ІІ ElevenLabs офіційно відкрив джерела компонента реального часу для голосової діалогової системи Speech Engine Skill. Speech Engine Skill розроблений згідно з відкритим стандартом Agent Skills і призначений для швидкої інтеграції AI-агентів та застосунків на основі великих мовних моделей з високоякісними, низьколатентними голосовими інтерфейсами. Розробникам достатньо виконати команду npx skills add elevenlabs/skills, щоб додати голосовий двигун до середовища виконання проекту, не підключаючи кілька API або не створюючи складних станових машин. Speech Engine Skill побудований на основі високопродуктивного WebSocket-з’єднання, де кожне з’єднання представляє окрему розмову. Коли користувач починає говорити, браузер захоплює аудіо та потоково передає його ElevenLabs, яка в реальному часі перетворює мову на текст і надсилає текст на сервер розробника. Сервер генерує потокову текстову відповідь за допомогою великої мовної моделі, а потім передає її назад за допомогою функцій sendResponse() або send_response() SDK (підтримуються як рядки, так і асинхронні ітератори). ElevenLabs автоматично перетворює цю відповідь на низьколатентне синтезоване мовлення, яке відтворюється у браузері. SDK керує мережевою маршрутизацією, перевіркою підписів запитів, підтримкою живлення та життєвим циклом сесії в фоновому режимі, а також нативно підтримує переривання та зміну ходу діалогу. Для спрощення розробки фронтенду ElevenLabs одночасно запустив клієнтські бібліотеки @elevenlabs/react та @elevenlabs/client. На фронтенд-сторінці достатньо лише кількох рядків коду разом із безпечними сесійними обліковими даними, щоб швидко запустити цифрового голосового асистента з функціями протидії шуму та перериванням. У реальних умовах експлуатації ElevenLabs рекомендує вважати текст, отриманий з голосового розпізнавання, ненадійним вводом і налаштовувати на сервері детерміновані безпечні бар’єри або білий список намірів, щоб уникнути безпосереднього використання оригінального тексту розпізнавання для виконання привілейованих дій великої моделі або виклику чутливих інструментів. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.