নতুন এআই এজেন্ট বেঞ্চমার্ক ALE বাস্তব বিশ্বের কাজগুলিতে প্রধান পারফরম্যান্স ব্যবধান প্রকাশ করে

ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এর নেতৃত্বে ২৫০-এরও বেশি শিল্প বিশেষজ্ঞদের একটি গবেষণা দল গঠন করেছে এবং AI এজেন্ট মূল্যায়ন বেঞ্চমার্ক Agents' Last Exam (ALE) প্রস্তাব করেছে। এই বেঞ্চমার্কটি ১,৪৯০টি বাস্তব পেশাদার কাজ নিয়ে গঠিত, যা উৎপাদন, আইন, চিকিৎসা, ভিজুয়াল মিডিয়া ইত্যাদি ক্ষেত্রগুলিকে কভার করে, যা AI-এর দীর্ঘমেয়াদী, অর্থনৈতিকভাবে মূল্যবান বাস্তব কাজপ্রবাহগুলিতে পারফরম্যান্স পরিমাপ করতে ব্যবহৃত হয়। গবেষণার ফলাফলগুলি দেখায় যে, বর্তমানের প্রধান মডেলগুলি ঐতিহাসিক বেঞ্চমার্কগুলিতে উচ্চ স্কোর অর্জন করতে পারে, তবে ALE-এর সবচেয়ে কঠিন লেভেলে গড়ে সম্পূর্ণ পাস হওয়ার হার মাত্র ২.৬%, সর্বোত্তম কনফিগারেশনটিরও ৮.৬%। গবেষণা দলটি উল্লেখ করেছে যে, বর্তমান সিস্টেমগুলির মূল বাধা হলো কার্যক্ষমতা নয়, বরং ডোমেইন-জ্ঞান; মডেলের নির্বাচনটির ফলাফলের উপর ৩গুণ বেশি প্রভাব রয়েছে, ALE-এর তুলনায়। ALE, যা ধারাবাহিকভাবে আপডেটযুক্ত, ভবিষ্যতে নতুন কাজপ্রবাহগুলিতেও প্রসারিত হবে।

লেখক, উৎস: 36Kr

ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলির নেতৃত্বে এবং ২৫০-এরও বেশি শিল্প বিশেষজ্ঞদের সমন্বয়ে গঠিত গবেষণা দল একটি নতুন AI এজেন্ট মূল্যায়ন বেঞ্চমার্ক ALE প্রস্তাব করেছে, যা বর্তমান বেঞ্চমার্কগুলির অক্ষমতা দূর করবে যা বাস্তব, দীর্ঘ-প্রক্রিয়া এবং আর্থিকভাবে মূল্যবান কাজে AI-এর পারফরম্যান্সকে স্থায়ীভাবে মাপতে পারে না।

পেপারের লিঙ্ক: https://arxiv.org/abs/2606.05405

শেষ পরীক্ষাটি কী পরীক্ষা করে?

এজেন্টস' লাস্ট এক্সাম (ALE) হল একটি এআই এজেন্ট মূল্যায়ন বেঞ্চমার্ক, যা ২৫০-এরও বেশি শিল্প বিশেষজ্ঞের সহযোগিতায় তৈরি করা হয়েছে এবং যা দীর্ঘমেয়াদী, আর্থিকভাবে মূল্যবান বাস্তব কাজের প্রক্রিয়াগুলিতে এআই-এর পারফরম্যান্স পরিমাপ করে।

একটি গবেষণা দল একটি কম্পিউটারে এআই-কে মানুষের মতো বাস্তব কাজ সম্পন্ন করতে পারে কিনা তা পরীক্ষা করার জন্য ১৪৯০টি কাজ সংগ্রহ করেছে, যা উৎপাদন, আইন, চিকিৎসা, দৃশ্যমান মিডিয়াসহ বিভিন্ন ক্ষেত্রকে কভার করে। এই কাজগুলি বাস্তব পেশাদারদের দৈনন্দিন কাজ থেকে আসে: কিছুতে এআইকে 3D মডেল আঁকতে বলা হয়েছে, অন্যগুলিতে এটিকে ডাভিনচিতে গ্রিনস্ক্রিন কীয়িং এবং ভিডিও সংমিশ্রণ সম্পন্ন করতে বলা হয়েছে।

চিত্র | ALE ক্লাসিফিকেশন সিস্টেমে 1490টি টাস্ক ইনস্ট্যান্সের বণ্টন

সাধারণ প্রশ্নোত্তর বা ছোট প্রক্রিয়া বেঞ্চমার্কের তুলনায় এই ধরনের কাজগুলি Agent-এর জন্য বেশি চাহিদা রাখে। গবেষণা দল এই ধরনের Agent-কে Generalist Computer-Use Agent (GCUA) বলেছে: এটি শুধুমাত্র ইন্টারফেস চালানোর ক্ষমতা রাখে না, বরং কমান্ড লাইন চালাতে, ফাইল পরিচালনা করতে, কোড লিখতে এবং টুলগুলি ব্যবহার করে একটি সম্পূর্ণ কাজের প্রবাহ সম্পন্ন করতে পারতে হবে।

চিত্র｜ একটি প্রতিনিধিত্বকারী GCUA ফ্রেমওয়ার্ক কাঠামো।

এই অবজেক্টগুলির প্রকৃত ক্ষমতা পরীক্ষা করার জন্য, ALE একটি সম্পূর্ণ টাস্ক পরিবেশ প্রদান করে যা বাস্তবায়ন এবং স্কোরিংয়ের জন্য ব্যবহার করা যায়। বাস্তবায়নের সময়, টাস্ক স্ক্রিপ্টগুলি টাস্ক লোড, পরিবেশ প্রস্তুতকরণ এবং শেষে স্কোরিংয়ের দায়িত্ব বহন করে, যখন এজেন্টগুলি টাস্ক বর্ণনা অনুযায়ী পরিবেশ পর্যবেক্ষণ, কার্যকলাপ নির্বাচন এবং নিরন্তরভাবে বাস্তবায়ন করে। টাস্কটি শেষ হওয়ার পর, স্ক্রিপ্টটি সরাসরি ফলাফল পরীক্ষা করে, 93.2% টাস্কের স্কোরিংয়ের জন্য মানব-পরিচালিত স্কোরিংয়ের প্রয়োজন হয় না।

চিত্র | কাজ গঠন প্রক্রিয়া।

How did you do on the exam?

গবেষণা দল বলেছেন যে, যদি শুধুমাত্র সবচেয়ে কঠিন কাজগুলি বিবেচনা করা হয়, তাহলে বর্তমানে সর্বোত্তম কনফিগারেশন হল Codex + GPT-5.5, যার পূর্ণ সফলতার হার মাত্র 8.6%; গবেষণা দল দ্বারা উল্লিখিত প্রচলিত সিস্টেমগুলির গড় পূর্ণ সফলতার হার হল 2.6%।

গবেষণা দল কয়েকটি বিশেষ ব্যর্থতার উদাহরণ উল্লেখ করেছে। সঙ্গীত স্কোর রূপান্তর কাজে, সম্পূর্ণ স্কোর PDF, MIDI এবং ইন্টারফেসের স্ক্রিনশট জমা দেওয়ার প্রয়োজন ছিল, কিন্তু AI শুধুমাত্র MIDI ফাইল রপ্তানি করেছিল এবং শেষ পর্যন্ত 0 পায়। ইনজেকশন মডেলিং কাজে, AI Moldex3D-এ সিমুলেশন সম্পন্ন করে ফলাফল রপ্তানি করেছিল, কিন্তু মূল মানগুলি স্থিরভাবে বের করতে পারেনি, ফলে শেষ স্কোর 0.4762। গ্রিনস্ক্রিন সংযোজন কাজে, AI ভিডিওটি রপ্তানি করেছিল, কিন্তু ফলাফলটির রেফারেন্স প্রয়োজনীয়তা পূরণ হয়নি, তাই এটিও 0 পেয়েছিল।

চিত্র | ALE-এর প্রধান ফলাফল।

চিত্র | পরীক্ষামূলক বিশ্লেষণের সারাংশ।

পরবর্তীতে গবেষণা দল ব্যর্থতার কারণগুলি শ্রেণিবদ্ধ করে। Claude Code + Opus 4.7-এর ক্ষেত্রে, 31% বোঝার সমস্যা, 47% পদ্ধতির সমস্যা এবং 22% বাস্তবায়নের সমস্যা হিসাবে শ্রেণিবদ্ধ করা হয়েছে, যা বোঝা এবং পদ্ধতির সমস্যা একত্রে প্রায় আটশতাংশ গঠন করে। গবেষণা দল এই ভিত্তিতে উল্লেখ করেছে যে, বর্তমান সিস্টেমের প্রধান বাধা হল বাস্তবায়ন ক্ষমতা নয়, বরং ক্ষেত্রজ্ঞান।

গবেষণা দল মডেল এবং এজেন্ট ফ্রেমওয়ার্কের প্রভাবও তুলনা করেছে। ফলাফলগুলি দেখায় যে, মডেল পরিবর্তন করার ফলে উৎপন্ন পার্থক্য, এজেন্ট ফ্রেমওয়ার্ক পরিবর্তন করার তুলনায় প্রায় তিনগুণ বেশি। এজেন্ট ফ্রেমওয়ার্ক স্থির রেখে শুধুমাত্র মডেল পরিবর্তন করলে, সর্বোচ্চ এবং সর্বনিম্ন সামগ্রিক পাস হারের মধ্যে 18 পারসেন্টপয়েন্টের পার্থক্য দেখা যায়; মডেল স্থির রেখে শুধুমাত্র এজেন্ট ফ্রেমওয়ার্ক পরিবর্তন করলে, এই পার্থক্য প্রায় 5-6 পারসেন্টপয়েন্ট।

অপর্যাপ্ততা এবং ভবিষ্যতের দিকনির্দেশ

গবেষণা দল এও উল্লেখ করেছে যে, ALE এর পেশাগত বিভাগের কাঠামো হিসেবে SOC 2018 ব্যবহার করা হয়েছে এবং এটি মূলত সফটওয়্যার-ভিত্তিক এবং ডিজিটাল পেশাগত কাজগুলিকে কভার করে। বর্তমানে, কাজগুলি মূলত Linux বা Windows ভার্চুয়াল মেশিনে চলছে।

এছাড়াও, ALE-এর বিভিন্ন ক্ষেত্রে কভারেজ সমান নয়। কিছু দিকে অনেক টাস্ক কভার করা হয়েছে, আবার কিছু দিকে খুব কম। উদাহরণস্বরূপ, শক্তি এবং নিউক্লিয়ার ইঞ্জিনিয়ারিং-এ মাত্র 4টি টাস্ক ইনস্ট্যান্স রয়েছে, শহর এবং স্থানিক পরিকল্পনায় 5টি, আইনি ক্ষেত্রে 15টি। বর্তমানে পাবলিক সেটটি পূর্ণাঙ্গ টাস্ক পুলের একটি অংশমাত্র। গবেষণা দল একটি পরীক্ষা চালিয়েছে: Claude Code + Opus 4.7-এ, পাবলিক সাবসেট এবং পূর্ণাঙ্গ টাস্ক পুলের মধ্যে প্রতিটি ক্ষেত্রে পাস রেটের সহসম্পর্ক মাত্র 0.89।

তবে, গবেষণা দল মনে করে যে ALE একটি নিয়মিত আপডেট করা বেঞ্চমার্ক। ভবিষ্যতে, টাস্ক পুলটি নতুন ওয়ার্কফ্লো এবং নতুন শিল্পে বাড়িয়ে তোলা হবে, এবং বর্তমানে প্রাইভেট পুলে রাখা টাস্কগুলি নিয়মিতভাবে পাবলিক সেটে রোটেশন করা হবে।