StepAudio 2.5 TTS সূক্ষ্ম ভাবনা নিয়ন্ত্রণ সহ চালু হয়েছে

iconKuCoinFlash
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
১৬ এপ্রিল (UTC+8)-এ স্টেপঅডিও ২.৫ টিটিএস চালু হয়েছে, যা প্রাকৃতিক ভাষার মাধ্যমে সূক্ষ্ম আবেগ নিয়ন্ত্রণ প্রদান করে। ব্যবহারকারীরা এখন "সংযমিত দুঃখ, কান্নার স্বর ছাড়া, হালকা কম্পন" এর মতো স্বর নির্দিষ্ট করতে পারেন। সিস্টেমটি গ্লোবাল কনটেক্সট, ইন-টেক্সট নিয়ন্ত্রণ এবং জিরো-শট ভয়েস ক্লোনিংকে সমর্থন করে। অন-চেইন খবরে এই এআই অডিও প্রযুক্তির এই উন্নতির প্রশংসা করা হয়েছে। একইসময়ে, গুগল জেমিনি ৩.১ ফ্ল্যাশ টিটিএস প্রকাশ করেছে, যা প্রাকৃতিক ভাষার মাধ্যমে সঠিক বক্তব্য মডুলেশনের জন্যও ব্যবহার করা হয়। বিশ্বব্যাপী ক্রিপ্টো নীতিমালা আলোচনাগুলির মধ্যে শীঘ্রই এই টুলগুলিকে ব্যাপক নিয়ন্ত্রণমূলক কাঠামোর অংশ হিসেবে অন্তর্ভুক্ত করা হতে পারে।

ME সংবাদের মতে, ১৬ এপ্রিল (UTC+8), ডোংচা বিটিং-এর মনিটরিং অনুযায়ী, স্টেপ স্টার প্রকাশ করেছে স্টেপঅডিও ২.৫ টিটিএস। প্রাচীন টিটিএস-এর মতো যেখানে পূর্বনির্ধারিত আবেগ লেবেল প্রয়োজন হয়, এই সংস্করণটি প্রাকৃতিক ভাষায় বর্ণনা করে কথা বলার প্রতিটি বিস্তারিত নিয়ন্ত্রণ করতে সক্ষম—লেবেল শুধুমাত্র “দুঃখ” প্রকাশ করতে পারে, কিন্তু প্রাকৃতিক ভাষা “সংযত দুঃখ, কান্না ছাড়া, হালকা কম্পন”-এর মতো বিস্তারিত বর্ণনা দিতে পারে, এবং AI এইভাবে সংশ্লিষ্ট স্বর তৈরি করে। নিয়ন্ত্রণটি তিনটি স্তরে বিভক্ত। সামগ্রিক প্রসঙ্গ নিয়ন্ত্রণটি সম্পূর্ণ বক্তব্যের আবেগের ভিত্তি এবং পরিবেশের বাতাস নির্ধারণ করে, যাতে বহু-পর্যায়ের কথোপকথনের চরিত্রগুলির প্রকাশটি সমঞ্জস্যপূর্ণ থাকে; পাঠ্য-প্রসঙ্গ নিয়ন্ত্রণটি বাক্য-স্তরে সুর, গতি, বিরতি, জোরদারকরণ এবংশ্বাসের অনুভূতি সমন্বয় করে, এমনকি চরিত্রের মনস্তাত্ত্বিক অবস্থা এবং অনুপস্থিতভাবেও চিত্রিত করতে পারে; 0-নমুনা স্বর-পুনরুৎপাদন (Zeroshot TTS) -এর জন্য পুনঃশিক্ষণের প্রয়োজন হয়না,যেকোনও reference recording-এর ভিত্তিতেই 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-नमूना शुरू करें। आवेग और शैली को स्वतंत्र रूप से नियंत्रित किया जा सकता है। ये तीन सुविधाएँ पूर्ण रूप से स्टेप स्टार ओपन प्लेटफॉर्म और स्टेप प्लान पर लाइव हो चुकी हैं। उसी दिन, गूगल ने जेमिनी 3.1 फ्लैश टीटीएस भी लॉन्च किया, जो SSML लेबल के बजाय प्राकृतिक भाषा निर्देशों का उपयोग करके सूक्ष्म नियंत्रण प्रदान करता है और तीसरे पक्ष के मूल्यांकन में शीर्ष स्थान प्राप्त करता है। दोनों कंपनियां एक ही दिन में समान दृष्टिकोण के साथ प्रकाशित हुईं, जो संकेत देता है कि TTS का नियंत्रण परिपथ समूहगत रूप से 'लेबल चुनने' से 'आवश्यकता बताने' की ओर स्थानांतरित हो रहा है। ऑडियो कंटेंट क्रिएटर्स और डबिंग डायरेक्टर्स के लिए, पहले भावना समायोजित करने के लिए पुनः पुनः रिकॉर्डिंग की आवश्यकता होती थी, अब केवल एक वाक्य के माध्यम से स्वर की सूक्ष्म स्तरों को परिभाषित किया जा सकता है। (स्रोत: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।