ElevenLabs、リアルタイム音声統合用の音声エンジンスキルをオープンソース化

ME AI ニュース：動察 Beating の監視によると、音声AIユニコーンのElevenLabsが、リアルタイム音声対話コンポーネント「Speech Engine Skill」をオープンソース化しました。Speech Engine SkillはAgent Skillsオープン仕様に準拠し、AIエージェントと大規模言語モデルアプリケーションが高忠実度・低遅延の音声インタラクション機能を迅速に統合できるように設計されています。開発者は、npx skills add elevenlabs/skillsコマンドを実行するだけで、音声エンジンをプロジェクトのランタイムに追加でき、複数のAPIを接続したり複雑な状態機械を構築する必要はありません。Speech Engine Skillは高性能WebSocket接続に基づいて構築されており、各接続は1つの通話セッションを表します。ユーザーが話すと、ブラウザが音声をキャプチャしてElevenLabsにストリーミングし、ElevenLabsはリアルタイムで音声をテキストに変換してテキストを開発者のサーバーにプッシュします。サーバーは大規模言語モデルを通じてストリーミングテキスト応答を生成し、SDKのsendResponse()またはsend_response()関数（文字列または非同期イテレータをサポート）を使用して応答を返送すると、ElevenLabsはそれを低遅延の合成音声に変換してブラウザで再生します。SDKはバックグラウンドでネットワークルーティング、リクエスト署名検証、ハートビート検出、セッションライフサイクルを管理し、ネイティブに中断と会話の切り替えをサポートしています。フロントエンド開発を簡素化するため、ElevenLabsは同時に@elevenlabs/reactと@elevenlabs/clientクライアントライブラリをリリースしました。フロントエンドページでは極めて少ないコードで、サーバーから発行された安全なセッション資格情報を組み合わせることにより、ノイズ耐性と中断耐性を持つデジタル音声アシスタントを迅速に起動できます。実際のデプロイでは、ElevenLabsは音声認識テキストを信頼できない入力と見なし、サーバー側で決定的なセキュリティガードレールまたは意図ホワイトリスト検証を設定し、元の音声変換テキストが大規模モデルの特権アクションや機密ツール呼び出しに直接マッピングされないように推奨しています。（出典：BlockBeats）