Cartesia、リアルタイム音声AI向けにSonic-3.5とInk-2を発表

icon MarsBit
共有
AI summary icon概要

動察 Beating の監視によると、AI音声モデルのスタートアップ企業Cartesiaは、Sonic-3.5とInk-2のリリースを発表し、这两つのモデルで構成される統合リアルタイム音声エージェント技術スタックを導入しました。Sonic-3.5はテキストから音声への変換(TTS)を担当し、Ink-2は音声からテキストへの変換(STT)を担当します。Sonic-3.5はリアルタイムで低遅延の音声生成に特化しており、最初の音声出力までの時間が90ミリ秒に短縮されました。出荷時から42言語をサポートし、英語の異音語やアルファベット数字の発音を前処理なしで対応します。Ink-2の単語誤り率(Word Error Rate)は3.6%まで低下し、ネイティブなターン検出(Native Turn-Detection)とノイズ処理メカニズムを導入しました。これにより、従来の静寂時間ではなく、文意と意味理解に基づいてユーザーの発話が完了したかを判断できます。現在、Ink-2は英語版のみ提供されており、多言語版は今後リリース予定です。開発者は単一のAPIを通じて両モデルを同時に呼び出すことができます。Sonic-3.5とInk-2は、複数ベンダーの組み合わせによる伝送遅延とシステムオーバーヘッドを削減するよう、双方向ストリーミング連携を設計しています。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。