ElevenLabs открывает исходный код движка речи для интеграции в реальном времени
KuCoinFlash
Поделиться
Сводка
ElevenLabs выпустила навык Speech Engine в открытом исходном коде, что позволяет интегрировать голосовые возможности в реальном времени для ИИ-агентов и больших языковых моделей. Инструмент позволяет разработчикам добавлять голосовые функции с помощью одной команды, упрощая развертывание. Он использует WebSocket-соединения для низколатентного преобразования речи в текст и генерации ответов. Библиотеки @elevenlabs/react и @elevenlabs/client упрощают работу с фронтендом. Этот шаг соответствует растущим трендам в новостях об ИИ + криптовалюте и реальных активов (RWA).
ME AI Новость: согласно мониторингу Beating, вендер голосового ИИ ElevenLabs официально открыл исходный код компонента реального времени для голосового взаимодействия Speech Engine Skill. Speech Engine Skill соответствует открытому стандарту Agent Skills и предназначен для быстрой интеграции высокоточной, низколатентной голосовой интерфейсной функциональности в AI-агенты и приложения на основе больших языковых моделей. Разработчики могут добавить голосовой движок в среду выполнения проекта, просто выполнив команду npx skills add elevenlabs/skills — без необходимости подключения к нескольким API или создания сложных автоматов состояний. Speech Engine Skill построен на основе высокопроизводительного WebSocket-соединения, где каждое соединение представляет отдельную голосовую сессию. Когда пользователь начинает говорить, браузер захватывает аудио и потоково передает его ElevenLabs, которая в реальном времени преобразует речь в текст и отправляет текст на сервер разработчика. Сервер генерирует потоковый текстовый ответ с помощью большой языковой модели и передает его обратно с помощью функций sendResponse() или send_response() SDK (поддерживаются как строки, так и асинхронные итераторы). ElevenLabs затем преобразует ответ в синтезированную речь с низкой задержкой и воспроизводит её в браузере. SDK автоматически управляет маршрутизацией сети, проверкой подписей запросов, heartbeat-контролем и жизненным циклом сессии, а также нативно поддерживает перебивание и смену реплик в диалоге. Для упрощения фронтенд-разработки ElevenLabs одновременно запустила клиентские библиотеки @elevenlabs/react и @elevenlabs/client. На фронтенде достаточно минимального количества кода и безопасных сессионных учетных данных, выданных сервером, чтобы быстро запустить цифрового голосового помощника с устойчивостью к шуму и перебиваниям. При реальном развертывании ElevenLabs рекомендует рассматривать распознанный текст речи как недоверенный ввод и настраивать на сервере детерминированные механизмы безопасности или белые списки намерений, чтобы предотвратить прямое сопоставление исходного распознанного текста с привилегированными действиями модели или вызовами чувствительных инструментов. (Источник: BlockBeats)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.