動察 Beating の監視によると、AI音声モデルのスタートアップ企業Cartesiaは、Sonic-3.5とInk-2のリリースを発表し、这两つのモデルで構成される統合リアルタイム音声エージェント技術スタックを導入しました。Sonic-3.5はテキストから音声への変換(TTS)を担当し、Ink-2は音声からテキストへの変換(STT)を担当します。Sonic-3.5はリアルタイムで低遅延の音声生成に特化しており、最初の音声出力までの時間が90ミリ秒に短縮されました。出荷時から42言語をサポートし、英語の異音語やアルファベット数字の発音を前処理なしで対応します。Ink-2の単語誤り率(Word Error Rate)は3.6%まで低下し、ネイティブなターン検出(Native Turn-Detection)とノイズ処理メカニズムを導入しました。これにより、従来の静寂時間ではなく、文意と意味理解に基づいてユーザーの発話が完了したかを判断できます。現在、Ink-2は英語版のみ提供されており、多言語版は今後リリース予定です。開発者は単一のAPIを通じて両モデルを同時に呼び出すことができます。Sonic-3.5とInk-2は、複数ベンダーの組み合わせによる伝送遅延とシステムオーバーヘッドを削減するよう、双方向ストリーミング連携を設計しています。
Cartesia、リアルタイム音声AI向けにSonic-3.5とInk-2を発表
MarsBit共有
Cartesiaは、開発者向けのリアルタイム音声AIスタック「Sonic-3.5」と「Ink-2」をリリースしました。Sonic-3.5は90msの遅延と42言語をサポートし、Ink-2はノイズ処理機能を備え、単語誤り率3.6%を実現しています。両モデルは単一のAPIを通じて双方向ストリーミングをサポートしています。注目されるアルトコインが注目を集める中、この動きは、新たなAI駆動ツールが市場に参入することで、フィアーアンドグリードインデックスに影響を与える可能性があります。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。