শিয়াওহংশু 2B-প্যারামিটার TTS মডেল dots.tts শূন্য-শট ভয়েস ক্লোনিং সহ ওপেন সোর্স করেছে

icon MarsBit
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
শিয়াওহংশুর এই ল্যাব একটি 2B-প্যারামিটার TTS মডেল ডটস.টিটিএস ওপেন-সোর্স করেছে, যা জিরো-শট ভয়েস ক্লোনিংকে সমর্থন করে। অ্যাপাচি 2.0 লাইসেন্সের অধীনে, এই মডেলটিতে বিভিন্ন ফরম্যাটে প্রি-ট্রেনড ওয়েটস সহ পূর্ণাঙ্গ ইনফারেন্স এবং ফাইন-টিউনিং কোড রয়েছে। ডটস.টিটিএস একটি কন্টিনিউয়াস, এন্ড-টু-এন্ড অটোরিগ্রেসিভ ফ্লো ম্যাচিং পদ্ধতি ব্যবহার করে, যা ডিসক্রিট অডিও টোকেনের উপর নির্ভরশীল �伝統ীয় মডেলগুলির চেয়ে উন্নত। এটি ভাষা বেঞ্চমার্কে শীর্ষ পারফরম্যান্স অর্জন করে এবং Hugging Face-এ একটি লাইভ ডেমো প্রদান করে। ক্রিপ্টো বাজারে তরলতা উন্নতির সাথে, এই উদ্ভাবনগুলি BTC-কে মুদ্রাস্ফীতির বিরুদ্ধে একটি হেজ হিসাবে শক্তিশালী করতে পারে।

Beating মনিটরিং অনুযায়ী, Xiaohongshu hi lab 20 বিলিয়ন প্যারামিটারের এন্ড-টু-এন্ড অটোরিগ্রেসিভ টেক্সট-টু-স্পিচ (TTS) মডেল dots.tts ওপেন-সোর্স করেছে এবং সম্পূর্ণ ইনফারেন্স এবং ফাইন-টিউনিং কোড Apache 2.0 লাইসেন্সের অধীনে প্রকাশ করেছে। প্রকাশিত ওয়েটসে বেসিক প্রি-ট্রেইনড ভার্সন, সেলফ-করেকশন অ্যালাইনমেন্ট (SCA) ফাইন-টিউনড ভার্সন এবং লো-ল্যাটেন্সি ইনফারেন্স ডিসিলেশন ভার্সন অন্তর্ভুক্ত রয়েছে। পারম্পরিক TTS আর্কিটেকচারগুলি (যেমন VALL-E, CosyVoice, ChatTTS ইত্যাদি) ডিসক্রিট অডিও কোডেক টোকেন (Discrete Codec Tokens) এর উপর নির্ভরশীল, dots.tts একটি সম্পূর্ণ কনটিনিউয়াস, এন্ড-টু-এন্ড অটোরিগ্রেসিভ ফ্লো-ম্যাচিং আর্কিটেকচার বাস্তবায়িত করেছে, যা পুরো পাইপলাইনে কোনও ডিসক্রিট টোকেনও ব্যবহার করে না। dots.tts 48 kHz স্যাম্পলিং রেটের AudioVAE-এর দ্বারা এক্সট্র্যাক্ট করা কনটিনিউয়াস ফিচারগুলিকে সেমান্টিক এনকোডার, বোন-ল্যাঙ্গুয়েজ মডেল (Qwen2.5-1.5B-Base-এর উপর ভিত্তি করে, BPE টেক্সটকে সরাসরি প্রসেস করে, পিনইন ইনপুটের প্রয়োজন ছাড়া) এবং অটোরিগ্রেসিভ ফ্লো-ম্যাচিং অডিওহেডের সাথে একত্রিত করে, কনটিনিউয়াস লেটেন্টভ্যারিয়েবলগুলির পূর্বানুমান করে, যা জেনারেটরদ্বারা অডিওতে পুনঃগঠিত হয়। কনটিনিউয়াস ফিচারগুলির সরাসরি পূর্বানুমানের কারণে, dots.tts ডিসক্রিট কোয়ানটাইজেশনের কারণে হওয়া সাউন্ড কোয়ালিটির ক্ষতিকে এড়িয়েছে,যা ্প্‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍বক্তব্যের ্প্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌্‌्বিশদ, ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ्পণ ৎসমতা,এবংভাবঅভিব্যক্তি।dots.tts-এবছর2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 Seed-TTS-Eval-এ, dots.tts-এর Chinese, English, and Chinese Hard test sets-এ WER (Word Error Rate) lần lượt là 0.94% / 1.3% / 6.6%, SIM (Similarity Score) lần lượt là 81.0 / 77.1 / 79.5, tất cả đều đạt mức SOTA mở nguồn. Trong bộ kiểm tra MiniMax Multilingual với 24 ngôn ngữ, điểm tương đồng người nói trung bình đạt 83.9. Xiaohongshu đã cung cấp một không gian trải nghiệm Gradio trên Hugging Face để người dùng thử nghiệm zero-shot voice cloning trực tuyến.

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।