StepAudio 2.5 TTS、細かい感情制御でリリース

KuCoinFlash

公開時期： 2026/04/16 7:01:13

概要

StepAudio 2.5 TTSは4月16日（UTC+8）にリリースされ、自然言語を用いた細かい感情制御を提供します。ユーザーは「抑えた悲しみ、泣き声なし、わずかな震え」などのトーンを指定できるようになりました。このシステムはグローバルコンテキスト対応、テキスト内制御、ゼロショットボイスクローンをサポートしています。オンチェーンニュースでは、このAIオーディオ技術の進歩が注目されています。一方、GoogleはGemini 3.1 Flash TTSをリリースし、これも自然言語を用いて音声の精密な調整を実現しています。今後、グローバルな暗号資産政策の議論では、こうしたツールがより広範な規制枠組みの一部として取り入れられる可能性があります。

MEニュース：4月16日（UTC+8）、動察Beatingの監視によると、階躍星辰はStepAudio 2.5 TTSを正式にリリースしました。従来のTTSが事前に設定された感情ラベルを必要とするのに対し、このバージョンは自然言語で音声の細部を制御できます。ラベルは「悲しみ」のみを表現できますが、自然言語では「控えめな悲しみ、泣き声なし、軽く震える」などさらに詳細に描写可能です。AIはこれに基づいて対応する音色を合成します。制御は3層構造です。グローバルコンテキスト制御は、全体の音声の感情的トーンとシーンの雰囲気を設定し、複数回の会話におけるキャラクターの表現の一貫性を保ちます。文中コンテキスト制御は文レベルでイントネーション、リズム、停止、強調、呼吸感を調整し、キャラクターの心理活動や潜在意図まで表現できます。ゼロショット音色複製（Zeroshot TTS）では再学習不要で、任意の参照音声から音色を模倣でき、感情とスタイルは独立して調整可能です。これらの3機能はすでに階躍星辰オープンプラットフォームとStep Planにフルリリースされています。同日、GoogleもGemini 3.1 Flash TTSをリリースし、SSMLラベルの代わりに自然言語指示で細かい制御を実現し、サードパーティ評価でトップに立ちました。両社が同日に同じアプローチでリリースしたことは、TTSの制御パラダイムが「ラベル選択」から「要件を言葉で伝える」へと全体的に移行していることを示しています。音声コンテンツクリエイターや声優ディレクターにとって、以前は感情を調整するために繰り返し録音する必要がありましたが、今では一文で音色の繊細な層を定義できます。（出典：BlockBeats）

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。