একটি শাংহাই-ভিত্তিক এআই ল্যাব এখন প্রযুক্তি শিল্পের কয়েকটি সবচেয়ে বড় নামকে চুপচাপ অপমানিত করেছে। মে ২৪-এর দিকে প্রকাশিত স্টেপফানের স্টেপঅডিও ২.৫ রিয়েলটাইম, এপ্রিল ২০২৬-এর টেস্টিংয়ের সময় পাঁচটি প্রধান ভয়েস এআই বেঞ্চমার্কের সবগুলোতে শীর্ষস্থান অধিকার করেছে, যার মধ্যে GPT রিয়েলটাইম ১.৫ এবং জেমিনি লাইভকেও পরাজিত করেছে।
মডেলটি শুধু আপনার কথা বোঝে না। এটি আপনি কীভাবে কথা বলছেন তাও বুঝে, টোন, আবেগ এবং বক্তৃতার গতি এমনভাবে ব্যাখ্যা করে যে বেশিরভাগ প্রতিদ্বন্দ্বী ভয়েস অ্যাসিস্ট্যান্ট যেন একটি মনোটোনে স্ক্রিপ্ট পড়ছে।
শব্দের পিছনের সংখ্যাগুলি
StepAudio 2.5 Realtime পরীক্ষিত সমস্ত বেঞ্চমার্ক ক্যাটাগরিতে শীর্ষ স্কোর অর্জন করেছে। মানব মূল্যায়নে, এটি 80.41 স্কোর করেছে। সাধারণ ডায়ালগ পারফরম্যান্স 86.36 এ পৌঁছেছে। অটোমোটিভ সিনারিও টেস্টিং, যা ড্রাইভিং পরিস্থিতিতে ভয়েস ইন্টারঅ্যাকশন পরিচালনা করার মডেলের দক্ষতা পরিমাপ করে, 84.80 এ পৌঁছেছে।
11টি পৃথক কাজ জুড়ে বিস্তৃত কথ্য প্রশ্ন-উত্তর বেঞ্চমার্কটি 79.80 পেয়েছে। এবং প্যারালিঙ্গুইস্টিক বোঝার স্কোর, যা এখানে সম্ভবত সবচেয়ে আকর্ষণীয় মেট্রিক, পৌঁছেছে 82.18।
প্রেক্ষাপটে, মডেলটির পূর্বসূরি, স্টেপঅডিও ২, ইতিমধ্যেই MMAU বেঞ্চমার্ক স্কোর ৭৭.৪% এর মাধ্যমে দৃষ্টি আকর্ষণ করেছিল। ২.৫ রিয়েলটাইম-এ যাওয়া শুধু মার্কেটিং ভাষায় সজ্জিত একটি ক্রমবর্ধমান সংস্করণ বৃদ্ধি নয়, বরং একটি অর্থপূর্ণ প্রগতি।
এটি কিভাবে কাজ করে
এটিকে অন্যান্য থেকে আলাদা করে দেয় এর আর্কিটেকচার। স্টেপঅডিও 2.5 রিয়েলটাইম একটি একীভূত অডিও-ইন, অডিও-আউট ডিজাইন ব্যবহার করে যা তিনটি মূল ক্ষমতাকে একটি একক ফ্রেমওয়ার্কে একত্রিত করে: অটোমেটিক স্পিচ রিকগনিশন (ASR), টেক্সট-টু-স্পিচ (TTS), এবং রিয়েল-টাইম ডায়ালগ প্রসেসিং।
এটিকে এভাবে ভাবুন: বেশিরভাগ ভয়েস এআই সিস্টেম ধাপে ধাপে কাজ করে। এগুলি আপনার কথাকে টেক্সটে রুপান্তর করে, টেক্সটটি প্রসেস করে, টেক্সটে একটি প্রতিক্রিয়া তৈরি করে, তারপর সেটিকে আবার অডিওতে রুপান্তর করে। প্রতিটি হ্যান্ডঅফে ল্যাটেন্সি যোগ হয় এবং সূক্ষ্মতা হারিয়ে যায়। স্টেপফানের পদ্ধতিটি এই ধাপগুলিকে একটি সমন্বিত সিস্টেমে একত্রিত করে।
গোপন সাসে হল যা StepFun কে বলে পার্সোনা-নির্দিষ্ট মানব ফিডব্যাক থেকে শক্তিশালী শিক্ষা, বা RLHF। স্ট্যান্ডার্ড RLHF একটি মডেলকে মানব পছন্দের ভিত্তিতে ভালো উত্তর দিতে প্রশিক্ষিত করে। StepFun-এর সংস্করণটি এটির চেয়ে আরও এগিয়ে যায়, যেখানে এই ফিডব্যাক লুপটি নির্দিষ্ট পার্সোনা অনুযায়ী কাস্টমাইজ করা হয়, যার অর্থ মডেলটি দীর্ঘসময়ের ভূমিকা পালন বা গ্রাহক সেবা পরিস্থিতিতে সামঞ্জস্যপূর্ণ চরিত্রের বৈশিষ্ট্যগুলি বজায় রাখতে পারে।
মডেলটি বর্তমানে চীনা এবং ইংরেজি উভয়কেই সমর্থন করে, ‘step-2.5-realtime’ মডেল স্ট্রিংয়ের মাধ্যমে WebSocket API এর মাধ্যমে সংযুক্ত হয়, এবং StepFun-এর প্ল্যাটফর্ম API এবং একটি নির্দিষ্ট রিয়েলটাইম কনসোলের মাধ্যমে অ্যাক্সেসযোগ্য। আর্কাইভে অভিজ্ঞতা 2605.23463-এর অধীনে আর্কিটেকচার বিষয়ক একটি প্রযুক্তিগত রিপোর্ট প্রকাশিত হয়েছে।
কেন প্যারালিঙুইস্টিক বোঝাপড়া গুরুত্বপূর্ণ
প্যারালিঙগুইস্টিক বোঝাপড়ায় StepAudio 2.5-এর 82.18 স্কোর বোঝায় যে StepFun এই সমস্যায় প্রকৃত অগ্রগতি করেছে। একটি ভয়েস অ্যাসিস্ট্যান্ট যা কলারের স্বরে বিরক্তি শনাক্ত করতে পারে এবং মানব এজেন্টের কাছে স্থানান্তরিত করে, অথবা বিভ্রান্তি বুঝতে পারলে এর কথা ধীরে বলে, শুধুমাত্র শব্দগুলি সঠিকভাবে প্রক্রিয়াকরণ করে এমন পণ্যের চেয়ে মৌলিকভাবে ভিন্ন।
84.80 এর অটোমোটিভ সিনারিও বেঞ্চমার্ক স্কোরটি আরেকটি লাভজনক প্রয়োগের ইঙ্গিত দেয়। কারের ভয়েস অ্যাসিস্ট্যান্টগুলির শব্দযুক্ত পরিবেশের সাথে কাজ করতে হবে, দ্রুত কমান্ডগুলি ব্যাখ্যা করতে হবে এবং আদর্শভাবে ড্রাইভারের চাপযুক্ত বা শান্ত স্বরের পার্থক্য বুঝতে হবে।
