ElevenLabs、リアルタイム音声統合用の音声エンジンスキルをオープンソース化

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
ElevenLabsは、Speech Engine Skillをオープンソースとしてリリースし、AIエージェントおよび大規模言語モデルへのリアルタイム音声統合を可能にしました。このツールは、単一のコマンドで音声機能を追加でき、デプロイを簡素化します。WebSocket接続を使用して、低遅延の音声からテキストへの変換と応答生成を実現します。@elevenlabs/reactおよび@elevenlabs/clientライブラリにより、フロントエンド作業が簡略化されます。この動きは、AI+暗号資産のニュースやリアルワールドアセット(RWA)のニュースの拡大トレンドと一致しています。
ME AI ニュース:動察 Beating の監視によると、音声AIユニコーンのElevenLabsが、リアルタイム音声対話コンポーネント「Speech Engine Skill」をオープンソース化しました。Speech Engine SkillはAgent Skillsオープン仕様に準拠し、AIエージェントと大規模言語モデルアプリケーションが高忠実度・低遅延の音声インタラクション機能を迅速に統合できるように設計されています。開発者は、npx skills add elevenlabs/skillsコマンドを実行するだけで、音声エンジンをプロジェクトのランタイムに追加でき、複数のAPIを接続したり複雑な状態機械を構築する必要はありません。Speech Engine Skillは高性能WebSocket接続に基づいて構築されており、各接続は1つの通話セッションを表します。ユーザーが話すと、ブラウザが音声をキャプチャしてElevenLabsにストリーミングし、ElevenLabsはリアルタイムで音声をテキストに変換してテキストを開発者のサーバーにプッシュします。サーバーは大規模言語モデルを通じてストリーミングテキスト応答を生成し、SDKのsendResponse()またはsend_response()関数(文字列または非同期イテレータをサポート)を使用して応答を返送すると、ElevenLabsはそれを低遅延の合成音声に変換してブラウザで再生します。SDKはバックグラウンドでネットワークルーティング、リクエスト署名検証、ハートビート検出、セッションライフサイクルを管理し、ネイティブに中断と会話の切り替えをサポートしています。フロントエンド開発を簡素化するため、ElevenLabsは同時に@elevenlabs/reactと@elevenlabs/clientクライアントライブラリをリリースしました。フロントエンドページでは極めて少ないコードで、サーバーから発行された安全なセッション資格情報を組み合わせることにより、ノイズ耐性と中断耐性を持つデジタル音声アシスタントを迅速に起動できます。実際のデプロイでは、ElevenLabsは音声認識テキストを信頼できない入力と見なし、サーバー側で決定的なセキュリティガードレールまたは意図ホワイトリスト検証を設定し、元の音声変換テキストが大規模モデルの特権アクションや機密ツール呼び出しに直接マッピングされないように推奨しています。(出典:BlockBeats)
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。