MEニュース:4月18日(UTC+8)、動察Beatingの監視によると、xAIは2つの独立した音声APIをリリースしました:Grok Speech to TextとGrok Text to Speech。これらは、Grok Voice、テスラの車載システム、Starlinkカスタマーサポートを支える同じ音声スタックから派生しており、今回、独立したエンドポイントとして公開され、開発者は音声エージェント、リアルタイム転写、アクセシビリティツール、ポッドキャストなどのアプリケーションに直接接続できます。STTは2つのモードを提供します。REST APIは大規模な音声ファイルのバッチ転写に使用され、ミリ秒単位で応答します。WebSocket APIはリアルタイム音声ストリーム向けです。付随機能には単語レベルのタイムスタンプ、話者分離(ディアライゼーション)、マルチチャネル別識別、および逆テキスト正規化(ITN)が含まれます。ITNは、口語表現内の数字、日付、通貨を自動的に標準化された構造化テキストに整形します。対応言語は25種以上で、会話中にシームレスに切り替え可能です。xAIは同時に、単語誤り率(WER、値が低いほど優れる)の比較結果を発表しました。全般シナリオではGrokが6.9%、ElevenLabsが9.0%、Deepgramが11.0%、AssemblyAIが12.9%。電話通話における実体認識では差がさらに広がり、Grokは5.0%に対し、それぞれの他社は12.0%、13.5%、21.3%でした。会議、ビデオポッドキャスト、電話の3つの一般的なビジネスシナリオにおいても、Grokはわずかに優れています。この数値はxAIが自社でテストし発表したものであり、第三者による再検証はまだ行われていません。価格設定では、STTのバッチ処理は0.10ドル/時間、ストリーミングは0.20ドル/時間。TTSは4.20ドル/100万文字です。TTSはインラインのSpeech Tagsを使用して感情やリズムを制御でき、例:[laugh]、[sigh]、[whisper]、(出典:BlockBeats)
xAI、単語誤り率6.9%のGrok STTおよびTTS APIをリリース
KuCoinFlash共有






xAIは4月18日(UTC+8)にGrok STTおよびTTS APIをリリースし、単語誤り率は6.9%で、ElevenLabs、Deepgram、AssemblyAIを上回りました。これらのAPIは、RESTおよびWebSocketを介したバッチおよびリアルタイム音声変換をサポートしています。TTSには感情とリズムの制御機能が含まれています。STTの料金は、バッチ処理が毎時0.10ドル、ストリーミングが毎時0.20ドルで、TTSは100万文字あたり4.20ドルです。このリリースは、金利引き上げのニュースやオンチェーンニュースの活発化が進む中で行われました。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。