StepAudio 2.5 TTS সূক্ষ্ম ভাবনা নিয়ন্ত্রণ সহ চালু হয়েছে

ME সংবাদের মতে, ১৬ এপ্রিল (UTC+8), ডোংচা বিটিং-এর মনিটরিং অনুযায়ী, স্টেপ স্টার প্রকাশ করেছে স্টেপঅডিও ২.৫ টিটিএস। প্রাচীন টিটিএস-এর মতো যেখানে পূর্বনির্ধারিত আবেগ লেবেল প্রয়োজন হয়, এই সংস্করণটি প্রাকৃতিক ভাষায় বর্ণনা করে কথা বলার প্রতিটি বিস্তারিত নিয়ন্ত্রণ করতে সক্ষম—লেবেল শুধুমাত্র “দুঃখ” প্রকাশ করতে পারে, কিন্তু প্রাকৃতিক ভাষা “সংযত দুঃখ, কান্না ছাড়া, হালকা কম্পন”-এর মতো বিস্তারিত বর্ণনা দিতে পারে, এবং AI এইভাবে সংশ্লিষ্ট স্বর তৈরি করে। নিয়ন্ত্রণটি তিনটি স্তরে বিভক্ত। সামগ্রিক প্রসঙ্গ নিয়ন্ত্রণটি সম্পূর্ণ বক্তব্যের আবেগের ভিত্তি এবং পরিবেশের বাতাস নির্ধারণ করে, যাতে বহু-পর্যায়ের কথোপকথনের চরিত্রগুলির প্রকাশটি সমঞ্জস্যপূর্ণ থাকে; পাঠ্য-প্রসঙ্গ নিয়ন্ত্রণটি বাক্য-স্তরে সুর, গতি, বিরতি, জোরদারকরণ এবংশ্বাসের অনুভূতি সমন্বয় করে, এমনকি চরিত্রের মনস্তাত্ত্বিক অবস্থা এবং অনুপস্থিতভাবেও চিত্রিত করতে পারে; 0-নমুনা স্বর-পুনরুৎপাদন (Zeroshot TTS) -এর জন্য পুনঃশিক্ষণের প্রয়োজন হয়না,যেকোনও reference recording-এর ভিত্তিতেই 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-নমুনা 0-नमूना शुरू करें। आवेग और शैली को स्वतंत्र रूप से नियंत्रित किया जा सकता है। ये तीन सुविधाएँ पूर्ण रूप से स्टेप स्टार ओपन प्लेटफॉर्म और स्टेप प्लान पर लाइव हो चुकी हैं। उसी दिन, गूगल ने जेमिनी 3.1 फ्लैश टीटीएस भी लॉन्च किया, जो SSML लेबल के बजाय प्राकृतिक भाषा निर्देशों का उपयोग करके सूक्ष्म नियंत्रण प्रदान करता है और तीसरे पक्ष के मूल्यांकन में शीर्ष स्थान प्राप्त करता है। दोनों कंपनियां एक ही दिन में समान दृष्टिकोण के साथ प्रकाशित हुईं, जो संकेत देता है कि TTS का नियंत्रण परिपथ समूहगत रूप से 'लेबल चुनने' से 'आवश्यकता बताने' की ओर स्थानांतरित हो रहा है। ऑडियो कंटेंट क्रिएटर्स और डबिंग डायरेक्टर्स के लिए, पहले भावना समायोजित करने के लिए पुनः पुनः रिकॉर्डिंग की आवश्यकता होती थी, अब केवल एक वाक्य के माध्यम से स्वर की सूक्ष्म स्तरों को परिभाषित किया जा सकता है। (स्रोत: BlockBeats)