ElevenLabs открывает исходный код движка речи для интеграции в реальном времени

ME AI Новость: согласно мониторингу Beating, вендер голосового ИИ ElevenLabs официально открыл исходный код компонента реального времени для голосового взаимодействия Speech Engine Skill. Speech Engine Skill соответствует открытому стандарту Agent Skills и предназначен для быстрой интеграции высокоточной, низколатентной голосовой интерфейсной функциональности в AI-агенты и приложения на основе больших языковых моделей. Разработчики могут добавить голосовой движок в среду выполнения проекта, просто выполнив команду npx skills add elevenlabs/skills — без необходимости подключения к нескольким API или создания сложных автоматов состояний. Speech Engine Skill построен на основе высокопроизводительного WebSocket-соединения, где каждое соединение представляет отдельную голосовую сессию. Когда пользователь начинает говорить, браузер захватывает аудио и потоково передает его ElevenLabs, которая в реальном времени преобразует речь в текст и отправляет текст на сервер разработчика. Сервер генерирует потоковый текстовый ответ с помощью большой языковой модели и передает его обратно с помощью функций sendResponse() или send_response() SDK (поддерживаются как строки, так и асинхронные итераторы). ElevenLabs затем преобразует ответ в синтезированную речь с низкой задержкой и воспроизводит её в браузере. SDK автоматически управляет маршрутизацией сети, проверкой подписей запросов, heartbeat-контролем и жизненным циклом сессии, а также нативно поддерживает перебивание и смену реплик в диалоге. Для упрощения фронтенд-разработки ElevenLabs одновременно запустила клиентские библиотеки @elevenlabs/react и @elevenlabs/client. На фронтенде достаточно минимального количества кода и безопасных сессионных учетных данных, выданных сервером, чтобы быстро запустить цифрового голосового помощника с устойчивостью к шуму и перебиваниям. При реальном развертывании ElevenLabs рекомендует рассматривать распознанный текст речи как недоверенный ввод и настраивать на сервере детерминированные механизмы безопасности или белые списки намерений, чтобы предотвратить прямое сопоставление исходного распознанного текста с привилегированными действиями модели или вызовами чувствительных инструментов. (Источник: BlockBeats)