Boson AIとLMSYSがSGLang-Omniに基づくHiggs Audio v3 TTSサービスを開始

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Boson AIとLMSYSは、SGLang-Omniを基にしたHiggs Audio v3 TTSサービスをリリースし、40億パラメータと100言語対応を実現しました。このモデルは、テキストタグを通じてリアルタイムで感情、スタイル、イントネーションを制御可能で、ストリーミング合成と低遅延推論をサポートします。このAIと暗号通貨のニュースは、高度な音声技術を用いたオンチェーンニュース統合の前進を示しています。開発者はゼロショットクローンと軽量計算機能に今すぐアクセスできます。
ME AIのニュース、Boson AIとLMSYSがSGLang-Omni推論フレームワークに基づくHiggs Audio v3 TTSエンドツーエンドサービスを共同でリリース。このモデルは約4Bパラメータで、Qwen3-4Bをバックボーンとしており、100言語をサポート(内部評価では111言語をカバー)。Seed-TTS、CV3、MiniMax-Multilingual、およびHiggs-Multilingualのゼロショット音声クローンタスクにおいて、文字単位のWER/CERを達成。開発者はテキスト内の制御タグを使用して、感情(20種以上)、スタイル、リズム(話速/音高/停止)、および音効をリアルタイムで調整可能。モデルはストリーミング合成をサポートし、テキストが完全に提供される前から音声の生成を開始し、一貫性を維持。SGLang-Omniは多段階生成モデル向けに設計され、ARデコードと軽量計算を統一的にスケジューリングすることで、低遅延推論を実現。(出典:AiHot)
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。