ME সংবাদের মতে, ১৪ এপ্রিল (UTC+8), 1M AI সংবাদের মনিটরিংয়ের ভিত্তিতে, AI প্রোগ্রামিং এজেন্ট একটি টাস্ক প্রতিবার চালানোর সময় প্রায়শই বিভিন্ন সমাধান পায়, যার মধ্যে কিছু সঠিক এবং কিছু ভুল। যদি সেই মধ্যে সর্বোত্তমটি স্বয়ংক্রিয়ভাবে বাছাই করা যায়, তবে মোট সফলতার হার একবারের চেয়ে বেশি হবে। সমস্যা হলো—কীভাবে বাছাই করবেন: অন্য একটি মডেলকে স্কোর দেওয়ার জন্য বিচারক হিসেবে ব্যবহার করা (অর্থাৎ LLM-as-a-Judge) বর্তমানের প্রচলিত পদ্ধতি, কিন্তু এই স্কোরিংয়ের গ্রেনুলারিটি খুবই মসৃণ, প্রায়শই বিভিন্ন সমাধানকে একই স্কোর দেয়, ফলে উত্তমতা চিহ্নিতকরণে ব্যর্থ। স্ট্যানফোর্ড AI ল্যাব এবং বার্কলি Sky Computing ল্যাব, NVIDIA-এর সঙ্গে মিলে LLM-as-a-Verifier পদ্ধতির প্রস্তাবনা করেছে, যা এই বাছাইয়ের প্রক্রিয়াকেউন্নতি করেছে।এখন,শুধুমাত্রবিচারকদ্বারাপ্রদত্তচূড়ান্তস্কোরদেখাহয়না,বরংমডেলটিপ্রতিটিস্কোরগ্রেডএপ্রদত্তসম্ভাবনারবণ্টনপড়েএকটিনিরবচ্ছিন্নপুরস্কারমানগণনাকরে।একইসঙ্গে,বিচারককেবহুবারপুনরায়মূল্যায়নকরতেহবেএবংগড়নিয়েআসতেহবে,যাতেঅনিশ্চয়তাদূরহয়,এবংসমগ্রমূল্যায়নকেতিনটিস্বতন্ত্রমাপদণ্ড(কিভাবেটাস্কেরঅপেক্ষাপূরণকরছে,আউটপুটফরম্যাটসঠিককি,এবংভুলসংকেতআছেকি)এরভিত্তিতেপৃথকভাবেযাচাইকরাহচ্ছে।পরীক্ষায়,Gemini 2.5 Flash-কেভেরিফায়ারহিসেবেব্যবহারকরাহয়েছিল,একবারেরভেরিফিকেশনসঠিকতা74.7%,পুরনো Judge-এর 57.0%; 16বারপুনরাবৃত্তিরপরVerifier-এরসঠিকতা77.4%,Judge-এর70.2%।পুরনোJudge-এ26.5%পরীক্ষাপরিণতিড্রয়-এশেষপায়,যখনVerifier-এসমস্তকনফিগারেশনেড্রয়-এরহার70%।বাস্তবপ্রভাব:Terminal-Bench 2-এ,GPT-5.4-কেএকইটাস্ক5বারচালানোহয়,এলোমেলোভাবেএকটিনির্বচ্ছনির্বচ ছ ও ন য দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ (অসম্পূর্ণ)
স্ট্যানফোর্ড এবং বার্কলে LLM-as-a-Verifier, টপ টার্মিনাল-বেঞ্চ এবং SWE-বেঞ্চ প্রস্তাব করেছে
KuCoinFlashশেয়ার
এপ্রিল ১৪ (UTC+৮)-এ শীর্ষ অল্টকয়েন সংবাদ অনুযায়ী, স্ট্যানফোর্ড এআই ল্যাব এবং বার্কলে স্কাই কম্পিউটিং ল্যাব, এনভিডিয়ার সহযোগিতায়, এআই সমাধান নির্বাচন উন্নত করতে LLM-as-a-Verifier প্রস্তাব করেছে। এই পদ্ধতিটি মূল্যায়নের মাধ্যমে রেটিং বণ্টন থেকে নিরন্তর পুরস্কার ব্যবহার করে, ১৬টি পরীক্ষার পর ৭৭.৪% সঠিকতা অর্জন করে, যা প্রচলিত LLM-as-a-Judge-এর ৭০.২% এর চেয়ে ভালো। টারমিনাল-বেঞ্চ ২ এবং SWE-বেঞ্চ ভেরিফাইড-এ, সফলতার হার যথাক্রমে ৮৬.৪% এবং ৭৭.৮% পৌঁছেছে, যা এপ্রিল ৯-এর মধ্যে শীর্ষ পারফরমার হিসেবে পরিগণিত। এই ফ্রেমওয়ার্কটি এখন ওপেন-সোর্সড। এআই + ক্রিপ্টো সংবাদগুলি ভেরিফিকেশন এবং পারফরম্যান্সে বিপ্লবী অগ্রগতির উপর জোর দিচ্ছে।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।