Xiaomi ওমনিভয়েস খোলা সোর্স করেছে: ওপেন ডেটাতে প্রশিক্ষিত ৬৪৬ ভাষার ভয়েস ক্লোনিং মডেল

MarsBit

রিলিজের সময়: ০৭/০৫/২০২৬, ১০:৪২:২৩

সারাংশ

Xiaomi AI Lab-এর Kaldi টিম OmniVoice নামক একটি জিরো-শট টেক্সট-টু-স্পিচ মডেল ওপেন-সোর্স করেছে, যা ৬৪৬ ভাষাকে সমর্থন করে। এই মডেলটি কয়েক সেকেন্ডের রেফারেন্স অডিও ব্যবহার করে ভয়েস টিম্বার ক্লোন করতে পারে এবং ভাষার ওপর নির্ভর করে কাজ করে। ওপেন-সোর্স ডেটা দিয়ে প্রশিক্ষিত, এটি বাণিজ্যিক সিস্টেমগুলির চেয়ে ভয়েস সাম্যতা এবং বোধগম্যতায় উত্তম। অন-চেইন ডেটা দেখায় যে AI টুলসের প্রতি আগ্রহ বাড়ছে, যা সংশ্লিষ্ট প্রকল্পগুলির ওপেন ইন্টারেস্টের ধারাবাহিক বৃদ্ধির সাথে প্রমাণিত। মডেলটি একটি একক বিডিরেকশনাল Transformer ব্যবহার করে এবং দ্রুত ইনফারেন্সের জন্য অপ্টিমাইজড।

Beating মনিটরিং অনুযায়ী, শাওমি AI ল্যাবের নতুন প্রজন্মের Kaldi দল OmniVoice নামক একটি ওপেন-সোর্স জিরো-শট স্পিচ ক্লোনিং TTS (টেক্সট-টু-স্পিচ) মডেল প্রকাশ করেছে, যা 646টি ভাষাকে সমর্থন করে। কয়েক সেকেন্ডের রেফারেন্স অডিও দিয়েই স্বর ক্লোন করা যায়, এবং এটি ভাষা পার্থক্য ছাড়াই কাজ করে: একটি চীনা রেকর্ডিং দিলে, মডেলটি একই স্বরে জাপানি, কোরিয়ান বা অন্যান্য ভাষায় বলতে পারে। কোড,ওয়েটস, এবং ট্রেনিং ডেটা সবকিছুই Apache-2.0 লাইসেন্সের অধীনে ওপেন-সোর্স। আর্কিটেকচারে, OmniVoice একটি অত্যন্ত সরল পদ্ধতি অনুসরণ করে। সম্পূর্ণ মডেলটি শুধুমাত্র একটি বাইডিরেকশনাল Transformer, যা সরাসরি টেক্সটকে মাল্টি-কোডবুক অডিওটোকেন (শব্দের ডিসক্রিট এনকোডিং) -এ ম্যাপ করে, যা প্রথমে সেমান্টিক টোকেনে, তারপর অডিওটোকেনে রূপান্তরিত হওয়ার দুই-পর্যায়ের পাইপলাইনের প্রয়োজনীয়তা বাদ দেয়। এই সরল কাঠামোকে দুটি কীভাবে সমর্থন করে: 1) ফুল-কোডবুক র‍্যান্ডম্‌-মাস্কিং স্ট্র্যাটেজি,যা ট্রেনিংয়ের দক্ষতা বাড়ায়; 2) BLM-এর প্রি-ট্রেনড প্যারামিটারগুলির initialization,যা উচ্চারণের 정확তা । ইনফারেন্সেরগতি 40x real-time, PyTorch-এর 100% direct run,অতিরিক্ত optimization-এর । ট্রেনিংয়ের 50টি open-source speech dataset-এর data-এর 580,000 hours (noise reduction and quality filtering after)। low-resource languages-এর training efficiency maintain korar jnno dynamic upsampling use kora hoyeche। 24টি language-এ test korle, OmniVoice-এর voice similarity and intelligibility koyekta commercial system-এর upor superioir। 102টি language-এ test korle, intelligibility real recording-এr soman or even better। 10 hours er kom training data thakleo low-resource language-er synthesis possible। Speech cloning-এর poriborte, model ta text-based voice customization (যেমন: "পুরুষ,মধ্যবয়স্ক,অতি low pitch" or "মহিলা,যুবতী,Sichuan dialect"), noisy reference audio auto denoising, laughter, sighs etc. prosodic symbols insertion, and Chinese/English homograph and proper noun pronunciation correction support kore।

উৎস:আসল দেখান

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।