এপ্রিল 2026-এ স্টেপফানের স্টেপঅডিও 2.5 রিয়েলটাইম টপস ভয়েস এআই বেঞ্চমার্ক

iconCryptoBriefing
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
মে ২৪, ২০২৬-এর দিকে চালু হওয়া StepFun-এর StepAudio 2.5 Realtime এপ্রিল ২০২৬-এ ভয়েস এআই বেঞ্চমার্কে শীর্ষে পৌঁছেছিল, যা GPT Realtime 1.5 এবং Gemini Live-কে পরাজিত করেছিল। এটি মানব মূল্যায়নে ৮০.৪১, সাধারণ সংলাপে ৮৬.৩৬ এবং অটোমোটিভ পরিস্থিতিতে ৮৪.৮০ স্কোর করেছিল। মডেলটি স্পষ্ট প্রশ্ন-উত্তরে ৭৯.৮০ এবং প্যারালিঙ্গুইস্টিক বোধগম্যতায় ৮২.১৮ স্কোর করেছিল। StepAudio 2.5 Realtime একটি একীভূত অডিও-ইন, অডিও-আউট ডিজাইন ব্যবহার করে এবং WebSocket API-এর মাধ্যমে চিনা এবং ইংরেজি সমর্থন করে। ক্রিপ্টো মার্কেট যখন বিকশিত হচ্ছে, তখন এই এআই উন্নতির ফলে ভয় এবং লালসা সূচকের উপর প্রভাব পড়তে পারে।

একটি শাংহাই-ভিত্তিক এআই ল্যাব এখন প্রযুক্তি শিল্পের কয়েকটি সবচেয়ে বড় নামকে চুপচাপ অপমানিত করেছে। মে ২৪-এর দিকে প্রকাশিত স্টেপফানের স্টেপঅডিও ২.৫ রিয়েলটাইম, এপ্রিল ২০২৬-এর টেস্টিংয়ের সময় পাঁচটি প্রধান ভয়েস এআই বেঞ্চমার্কের সবগুলোতে শীর্ষস্থান অধিকার করেছে, যার মধ্যে GPT রিয়েলটাইম ১.৫ এবং জেমিনি লাইভকেও পরাজিত করেছে।

মডেলটি শুধু আপনার কথা বোঝে না। এটি আপনি কীভাবে কথা বলছেন তাও বুঝে, টোন, আবেগ এবং বক্তৃতার গতি এমনভাবে ব্যাখ্যা করে যে বেশিরভাগ প্রতিদ্বন্দ্বী ভয়েস অ্যাসিস্ট্যান্ট যেন একটি মনোটোনে স্ক্রিপ্ট পড়ছে।

শব্দের পিছনের সংখ্যাগুলি

StepAudio 2.5 Realtime পরীক্ষিত সমস্ত বেঞ্চমার্ক ক্যাটাগরিতে শীর্ষ স্কোর অর্জন করেছে। মানব মূল্যায়নে, এটি 80.41 স্কোর করেছে। সাধারণ ডায়ালগ পারফরম্যান্স 86.36 এ পৌঁছেছে। অটোমোটিভ সিনারিও টেস্টিং, যা ড্রাইভিং পরিস্থিতিতে ভয়েস ইন্টারঅ্যাকশন পরিচালনা করার মডেলের দক্ষতা পরিমাপ করে, 84.80 এ পৌঁছেছে।

11টি পৃথক কাজ জুড়ে বিস্তৃত কথ্য প্রশ্ন-উত্তর বেঞ্চমার্কটি 79.80 পেয়েছে। এবং প্যারালিঙ্গুইস্টিক বোঝার স্কোর, যা এখানে সম্ভবত সবচেয়ে আকর্ষণীয় মেট্রিক, পৌঁছেছে 82.18।

বিজ্ঞাপন

প্রেক্ষাপটে, মডেলটির পূর্বসূরি, স্টেপঅডিও ২, ইতিমধ্যেই MMAU বেঞ্চমার্ক স্কোর ৭৭.৪% এর মাধ্যমে দৃষ্টি আকর্ষণ করেছিল। ২.৫ রিয়েলটাইম-এ যাওয়া শুধু মার্কেটিং ভাষায় সজ্জিত একটি ক্রমবর্ধমান সংস্করণ বৃদ্ধি নয়, বরং একটি অর্থপূর্ণ প্রগতি।

এটি কিভাবে কাজ করে

এটিকে অন্যান্য থেকে আলাদা করে দেয় এর আর্কিটেকচার। স্টেপঅডিও 2.5 রিয়েলটাইম একটি একীভূত অডিও-ইন, অডিও-আউট ডিজাইন ব্যবহার করে যা তিনটি মূল ক্ষমতাকে একটি একক ফ্রেমওয়ার্কে একত্রিত করে: অটোমেটিক স্পিচ রিকগনিশন (ASR), টেক্সট-টু-স্পিচ (TTS), এবং রিয়েল-টাইম ডায়ালগ প্রসেসিং।

এটিকে এভাবে ভাবুন: বেশিরভাগ ভয়েস এআই সিস্টেম ধাপে ধাপে কাজ করে। এগুলি আপনার কথাকে টেক্সটে রুপান্তর করে, টেক্সটটি প্রসেস করে, টেক্সটে একটি প্রতিক্রিয়া তৈরি করে, তারপর সেটিকে আবার অডিওতে রুপান্তর করে। প্রতিটি হ্যান্ডঅফে ল্যাটেন্সি যোগ হয় এবং সূক্ষ্মতা হারিয়ে যায়। স্টেপফানের পদ্ধতিটি এই ধাপগুলিকে একটি সমন্বিত সিস্টেমে একত্রিত করে।

গোপন সাসে হল যা StepFun কে বলে পার্সোনা-নির্দিষ্ট মানব ফিডব্যাক থেকে শক্তিশালী শিক্ষা, বা RLHF। স্ট্যান্ডার্ড RLHF একটি মডেলকে মানব পছন্দের ভিত্তিতে ভালো উত্তর দিতে প্রশিক্ষিত করে। StepFun-এর সংস্করণটি এটির চেয়ে আরও এগিয়ে যায়, যেখানে এই ফিডব্যাক লুপটি নির্দিষ্ট পার্সোনা অনুযায়ী কাস্টমাইজ করা হয়, যার অর্থ মডেলটি দীর্ঘসময়ের ভূমিকা পালন বা গ্রাহক সেবা পরিস্থিতিতে সামঞ্জস্যপূর্ণ চরিত্রের বৈশিষ্ট্যগুলি বজায় রাখতে পারে।

মডেলটি বর্তমানে চীনা এবং ইংরেজি উভয়কেই সমর্থন করে, ‘step-2.5-realtime’ মডেল স্ট্রিংয়ের মাধ্যমে WebSocket API এর মাধ্যমে সংযুক্ত হয়, এবং StepFun-এর প্ল্যাটফর্ম API এবং একটি নির্দিষ্ট রিয়েলটাইম কনসোলের মাধ্যমে অ্যাক্সেসযোগ্য। আর্কাইভে অভিজ্ঞতা 2605.23463-এর অধীনে আর্কিটেকচার বিষয়ক একটি প্রযুক্তিগত রিপোর্ট প্রকাশিত হয়েছে।

কেন প্যারালিঙুইস্টিক বোঝাপড়া গুরুত্বপূর্ণ

প্যারালিঙগুইস্টিক বোঝাপড়ায় StepAudio 2.5-এর 82.18 স্কোর বোঝায় যে StepFun এই সমস্যায় প্রকৃত অগ্রগতি করেছে। একটি ভয়েস অ্যাসিস্ট্যান্ট যা কলারের স্বরে বিরক্তি শনাক্ত করতে পারে এবং মানব এজেন্টের কাছে স্থানান্তরিত করে, অথবা বিভ্রান্তি বুঝতে পারলে এর কথা ধীরে বলে, শুধুমাত্র শব্দগুলি সঠিকভাবে প্রক্রিয়াকরণ করে এমন পণ্যের চেয়ে মৌলিকভাবে ভিন্ন।

84.80 এর অটোমোটিভ সিনারিও বেঞ্চমার্ক স্কোরটি আরেকটি লাভজনক প্রয়োগের ইঙ্গিত দেয়। কারের ভয়েস অ্যাসিস্ট্যান্টগুলির শব্দযুক্ত পরিবেশের সাথে কাজ করতে হবে, দ্রুত কমান্ডগুলি ব্যাখ্যা করতে হবে এবং আদর্শভাবে ড্রাইভারের চাপযুক্ত বা শান্ত স্বরের পার্থক্য বুঝতে হবে।

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।