Beating Monitor کے مطابق، Xiaohongshu hi lab نے 20 ارب پیرامیٹرز والے اینڈ تو اینڈ آٹو ریگریسیو ٹیکسٹ ٹو اسپیچ (TTS) ماڈل dots.tts کو اوپن سورس کیا ہے اور مکمل انفرینس اور فائن ٹیوننگ کوڈ کو Apache 2.0 لائسنس کے تحت جاری کیا ہے۔ جاری کردہ وزن میں بنیادی پری ٹرینڈ ورژن، خود درستگی کے لیے مطابقت (SCA) فائن ٹیونڈ ورژن، اور کم تاخیر والے انفرینس کے لیے ڈسٹلڈ ورژن شامل ہیں۔ روایتی TTS ا架构 (جیسے VALL-E، CosyVoice، ChatTTS وغیرہ) جو غیر متصل آڈیو کوڈیک ٹوکنز (Discrete Codec Tokens) پر انحصار کرتی ہیں، کے برعکس، dots.tts نے مکمل متصل، اینڈ تو اینڈ آٹو ریگریسیو فلو میچنگ ا架构 ترتیب دیا ہے جس میں کسی بھی غیر متصل ٹوکن کا استعمال نہیں ہوتا۔ dots.tts 48 kHz نمونہ شرح والے AudioVAE سے نکالے گئے متصل خصوصیات، سیمنٹک انجن، بنیادی زبان کا ماڈل (Qwen2.5-1.5B-Base سے شروع کیا گیا، براہ راست BPE ٹیکسٹ کو معالجہ کرتا ہے، پائن ین کی ضرورت نہیں)، اور آٹو ریگریسیو فلو میچنگ اکوسٹک ہیڈ کو ملا کر متصل لینٹ ویریبلز کا پیشن دیتا ہے، جنہیں جنریٹر دوبارہ آڈیو میں تبدیل کرتا ہے۔ متصل خصوصیات کو براہ راست پیش کرنے کے باعث، dots.tts غیر متصل کوانٹائزیشن سے ہونے والے آڈیو کوالٹی کے نقصان سے بچ جاتا ہے اور تلفظ کے تفصیلات، آواز کی مماثلت اور جذباتی ظاہر ہونے کو برقرار رکھتا ہے۔ dots.tts تقریباً 1.5 ملین گھنٹوں آواز کے ڈیٹا پر پری ٹرینڈ ہوا۔ Seed-TTS-Eval جائزے میں، dots.tts نے چینی، انگریزی اور مشکل چینی ٹیسٹ سیٹس پر الفاظ کا غلط شمار (WER) ک lần 0.94% / 1.30% / 6.60% اور مماثلت اسکور (SIM) ک lần 81.0 / 77.1 / 79.5 حاصل کیا، جو اوپن سورس SOTA سطح تک پہنچ گئے۔ MiniMax Multilingual بینچ مارک میں، 24 زبانوں پر اوسط بولنے والے کی مماثلت 83.9 تھی۔ Xiaohongshu نے Hugging Face پر Gradio اسپیس فراہم کیا ہے تاکہ صارفین آن لائن زیرو شاٹ آواز کلوننگ کا آزمائش کر سکیں۔
شیائوہونگشو نے 2B پیرامیٹر TTS ماڈل dots.tts کو صفر شاٹ آواز کلوننگ کے ساتھ اوپن سورس کر دیا ہے
MarsBitبانٹیں






شیائوہونگشو کا HI لیب ایک 2B پیرامیٹر TTS ماڈل dots.tts کو اوپن سورس کر چکا ہے، جو زیرو شاٹ آواز کلوننگ کو سپورٹ کرتا ہے۔ ایپچ 2.0 کے تحت لائسنس شدہ، یہ ماڈل متعدد فارمیٹس میں پری ٹرینڈ وزوز کے ساتھ مکمل انفرنس اور فائن ٹیوننگ کوڈ فراہم کرتا ہے۔ dots.tts ایک مسلسل، end-to-end آٹو ریگریسیو فلو میچنگ اپروچ استعمال کرتا ہے، جو مخصوص آواز ٹوکنز پر انحصار کرنے والے روایتی ماڈلز سے بہتر ہے۔ یہ زبان کے بینچ مارکس میں بہترین پرفارمنس حاصل کرتا ہے اور Hugging Face پر ایک لائیو ڈیمو فراہم کرتا ہے۔ کرپٹو مارکیٹس میں بہتر لکویڈٹی کے ساتھ، ایسے ایجادات BTC کو سود کے خلاف ہیج کے طور پر مضبوط بن سکتی ہیں۔
ذریعہ:اصل دکھائیں۔
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔