بوزون AI وLMSYS تطلقان خدمة Higgs Audio v3 TTS المبنية على SGLang-Omni

KuCoinFlash

وقت الإصدار: 04‏/06‏/2026، 17:22:36

ملخص

أطلقت Boson AI وLMSYS خدمة Higgs Audio v3 TTS المبنية على SGLang-Omni، وتوفر 4 مليار معلمة ودعمًا لـ 100 لغة. يمكّن النموذج التحكم الفوري في العاطفة والأسلوب والنبرة عبر علامات نصية. كما يدعم التوليف البثي والاستنتاج منخفض التأخير. يُعد هذا الخبر المتعلق بالذكاء الاصطناعي والعملات المشفرة خطوة إلى الأمام في دمج الأخبار على السلسلة مع تقنيات الصوت المتقدمة. يمكن للمطورين الآن الوصول إلى ميزات الاستنساخ بدون تدريب والحساب الخفيف.

ME AI رسالة، أطلق Boson AI و LMSYS خدمة Higgs Audio v3 TTS端到端 مبنية على إطار SGLang-Omni للاستدلال. يحتوي النموذج على حوالي 4B معلمة، مبني على نواة Qwen3-4B، ويدعم 100 لغة (شمل التقييم الداخلي 111 لغة)، وحقق WER/CER على مستوى الحرف في مهام نسخ الصوت الصفرية Seed-TTS و CV3 و MiniMax-Multilingual و Higgs-Multilingual. يمكن للمطورين ضبط العاطفة (أكثر من 20 نوعًا) والأسلوب والإيقاع (السرعة/الارتفاع/الوقفات) والمؤثرات الصوتية في الوقت الفعلي عبر علامات التحكم داخل النص. يدعم النموذج التوليف التدفقي، حيث يبدأ توليد الصوت قبل اكتمال النص مع الحفاظ على الاتساق. تم تصميم SGLang-Omni خصيصًا للنماذج متعددة المراحل، ويُنسق بشكل موحد ترميز AR والحسابات الخفيفة لتحقيق استدلال منخفض التأخير. (المصدر: AiHot)

المصدر:عرض النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.