নতুন এআই বেঞ্চমার্ক পরীক্ষাগুলি স্ট্যান্ডার্ড উত্তর ছাড়াই ইঞ্জিনিয়ারিং অপ্টিমাইজেশন পরীক্ষা করে

icon MarsBit
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
Einsia AI-এর নেভার্স ল্যাব ফ্রন্টিয়ার-এঞ্জ বেঞ্চমার্ক চালু করেছে, যা মানক উত্তর ছাড়াই ইঞ্জিনিয়ারিং অপ্টিমাইজেশন টাস্কে AI এজেন্টগুলিকে পরীক্ষা করে। 47টি টাস্কে জটিল সীমাবদ্ধতার অধীনে অপ্টিমাইজেশনের জন্য পুনরাবৃত্তি সমন্বয় এবং সিমুলেশন প্রয়োজন। এই বেঞ্চমার্কটি AI-এর মানব ইঞ্জিনিয়ারিং ওয়ার্কফ্লোকে অনুকরণের দিকে একটি পরিবর্তনকে প্রতিফলিত করে। AI পারফরম্যান্স বিশ্লেষণকারী ট্রেডারদের ফলাফল মূল্যায়নের সময় ঝুঁকি-থেকে-পুরস্কার অনুপাত বিবেচনা করা উচিত। মডেলগুলি উন্নতির সাথে AI বিকাশের সমর্থন এবং প্রতিরোধের স্তরগুলি আরও পরিষ্কারভাবে দৃশ্যমান হচ্ছে।

যদি একটি এআইকে একটি অ্যালগরিদমিক সমাধান বিহীন ইঞ্জিনিয়ারিং সাইটে ফেলে দেওয়া হয়, তবে কি এটি বেঁচে থাকতে পারবে?

দীর্ঘ সময় ধরে, এআই এজেন্টগুলি সবকিছু করতে পারে বলে মনে হয়েছিল, কিন্তু বাস্তবে তারা বেশিরভাগই পরিচিত জ্ঞানভাণ্ডারে “মনের কথা” খুঁজছে।

কিন্তু বাস্তব প্রকৌশল জগত নির্মম: জলের নিচের রোবটের স্থিতিশীলতা, ডিসি ব্যাটারির লিথিয়াম প্লেটিংয়ের সীমা, কোয়ান্টাম সার্কিটের শব্দ নিয়ন্ত্রণ... এই সমস্যাগুলির কোনো “পারফেক্ট স্কোর” নেই, শুধু “সীমানার দিকে আরও কাছাকাছি অপটিমাইজেশন” আছে।

সাম্প্রতিক সময়ে, Einsia AI-এর অধীনে নভার্স ল্যাব দ্বারা প্রকাশিত Agent Benchmark—Frontier-Eng Bench এখন পর্যন্ত AI-এর “প্রশ্ন সমাধানকারী” লেবেলটি সরিয়ে ফেলেছে।

অটো গবেষণা

গবেষণা দলটি এআইকে পুরনো কোড প্রশ্নগুলি সলভ করতে দেয়নি, বরং এটিকে একটি সম্পূর্ণ "ইঞ্জিনিয়ারিং সাইকেল" দিয়েছে: প্রস্তাবনা প্রস্তুত করা, সিমুলেটরে যুক্ত করা, এরর গ্রহণ করা, প্যারামিটার পরিবর্তন করা এবং আবার রান করা।

47টি বহুবিষয়ক কঠিন টাস্কের সামনে, AI-কে শক্তি খরচ, নিরাপত্তা এবং পারফরম্যান্সের “অসম্ভব ত্রিভুজ”-এর মধ্যে সেরা সমাধান খুঁজে বার করতে হবে।

এটি শুধু একটি টেস্ট সেট নয়, এটি একটি এজেন্টের "প্রজন্মান্তর" এর পূর্বাভাস।

যখন এআই ফিডব্যাকের মাধ্যমে নিজেকে সংশোধন করা শিখবে, তখন “মানুষ লক্ষ্য নির্ধারণ করবে, এআই ২৪ ঘন্টা অবিচ্ছিন্নভাবে পুনরাবৃত্তি করবে” এই অটো রিসার্চ যুগটি আমাদের কল্পনার চেয়েও বেশি কাছাকাছি হয়ে পড়তে পারে।

এআই এখন কঠিন কাজ শুরু করেছে

পূর্বের বড় মডেলগুলি একটি সুপার বুদ্ধিমানের মতো ছিল।

তুমি প্রশ্ন করো, এটি বিপুল পরিমাণ প্রশিক্ষণ ডেটা থেকে “মেমোরি খোঁজে” এবং একটি যুক্তিসঙ্গত মনে হওয়া উত্তর তৈরি করে।

এই মোডে, বড় মডেলগুলি বাস্তব সমস্যা সমাধানের পরিবর্তে শুধুমাত্র "অক্ষরের খেলা" খেলছে।

কিন্তু ফ্রন্টিয়ার-এঞ্জ বেঞ্চের আবির্ভাবের ফলে এআই এখন “ইঞ্জিনিয়ারিং অপ্টিমাইজেশন” কাজ করছে।

প্রক্রিয়াটি এখন এআইকে প্রথমে প্রস্তাব দেওয়ার জন্য পরিবর্তিত হয়েছে, তারপর simulators-এ পরীক্ষা চালানো, তারপর ফিডব্যাক এবং ত্রুটি পাওয়া, প্যারামিটার এবং কোড সংশোধন করা, এবং পারফরম্যান্স আরও বাড়ানো পর্যন্ত পুনরায় চালানো।

এই বন্দী ব্যবস্থায়, এআইয়ের পরিচয় গুণগতভাবে পরিবর্তিত হয়েছে।

আপনি কি জলের নিচের রোবটকে আরও স্থিতিশীল করতে চান? এআইকে অটোমেটিকভাবে কন্ট্রোলার সামঞ্জস্য করা শুরু করতে হবে।

আপনি কি রোবোটিক আর্মের গতি আরও বাড়াতে চান? এআইকে নিজে সিমুলেশন চালাতে হবে।

কিছুটা পরিমাণে, এআইগুলি শুধুমাত্র বাক্যাংশের বোঝাপড়া থেকে বেরিয়ে একজন পেশাদার ইঞ্জিনিয়ারের মতো বাস্তব পরিবেশের ফিডব্যাকের মাধ্যমে নিরন্তর অপ্টিমাইজেশন শুরু করেছে।

অটো গবেষণা

ফ্রন্টিয়ার-এঞ্জ বেঞ্চের সবচেয়ে আকর্ষণীয় বিষয় হল: এটি AI-এর উত্তর সঠিক কিনা তা পরীক্ষা করে না, বরং AI কি সত্যিই ধারাবাহিকভাবে শক্তিশালী হতে পারে কিনা তা পরীক্ষা করে।

কারণ প্রকৃত প্রকৌশল অপ্টিমাইজেশন কখনই একটি বহুনির্বাচনী প্রশ্ন নয়, এর একমাত্র মানক উত্তর নেই।

ব্যাটারি দ্রুত চার্জিংয়ের উদাহরণ হিসেবে, লক্ষ্যটি সহজ মনে হয়—যত দ্রুত চার্জ করা যায়, তত ভালো, কিন্তু বাস্তবতা এতটাই সহজ নয়।

AI কে তাপমাত্রা বিস্ফোরিত হওয়ার সীমার বাইরে যেতে দেওয়া যাবে না, ভোল্টেজ অতিরিক্ত বেড়ে যাবে না, ব্যাটারির আয়ু খুব দ্রুত কমবে না, এবং লিথিয়াম প্রক্রিয়াকরণ এড়ানো হবে—এই কঠোর সীমাবদ্ধতার মধ্যে পারফরম্যান্সের সঠিক ভারসাম্য বজায় রাখতে হবে।

এর অর্থ হল এআই কোনো চালাকির মাধ্যমে “প্রশ্ন সমাধান” করে পার হতে পারবে না, এটিকে দীর্ঘমেয়াদি ফিডব্যাকের মধ্যে ধারাবাহিকভাবে উন্নতির সহনশীলতা প্রদর্শন করতে হবে।

কি এআই বাস্তব পরিবেশে দীর্ঘমেয়াদী অপ্টিমাইজেশন করতে পারে?

ফলাফল অনুযায়ী, GPT5.4 সবচেয়ে স্থিতিশীল পারফর্ম করেছে, কিন্তু বেঞ্চমার্ককে “ভেদ” করার জন্য AI-দের এখনও অনেক পথ অতিক্রম করতে হবে।

অটো গবেষণা

অটো রিসার্চ "ইটারেশন অপ্টিমাইজেশন" যুগে প্রবেশ করেছে

গবেষণা দল পেপারে একটি খুব আকর্ষণীয় বিষয় উল্লেখ করেছে:

সত্যিকারের উন্নত বুদ্ধিমত্তা মূলত দীর্ঘমেয়াদি ফিডব্যাক লুপের উপর নির্ভর করে।

অ্যালফাগো যেমন লি সে-জিনকে পরাজিত করেছিল, তেমনি এর প্রতিটি সিদ্ধান্তের পিছনে গভীর পরিমাণে সিমুলেশন এবং প্রতিক্রিয়ার সমন্বয় ছিল, যা পূর্বনির্ধারিত চাক্ষুষ পদ্ধতির মুখস্থকরণ নয়।

প্রকৃত গবেষণাও একইভাবে, শীর্ষস্থানীয় পরীক্ষাগারগুলি কোনো একক অনুপ্রেরণার উপর নির্ভর করে না, বরং ধাপে ধাপে অনুমান তৈরি করে, পরীক্ষা চালায়, ফলাফল পর্যবেক্ষণ করে, পরিকল্পনা পরিবর্তন করে এবং আবার চেষ্টা করে।

একইভাবে, ইঞ্জিনিয়ারিং অপ্টিমাইজেশনের ক্ষেত্রেও প্রথম সংস্করণটি করা সহজ, কিন্তু প্রকৃতপক্ষে শেষ 1% পারফরম্যান্স বৃদ্ধি করা কঠিন।

ফ্রন্টিয়ার-এঞ্জ বেঞ্চের অর্থ হল: এটি প্রথমবারের মতো AI-এর "পুনরাবৃত্তি অপ্টিমাইজেশন ক্ষমতা" প্রায় সিস্টেমেটিকভাবে পরীক্ষা করেছে এবং দুটি প্রায় নির্মম AI বিবর্তনের নিয়ম চিহ্নিত করেছে।

অটো গবেষণা

প্রথম নিয়ম হল: যত পিছনে যাবে, উন্নতি তত কঠিন হবে।

এই পেপারটি পায় যে, এজেন্টের উন্নতির ক্রম এবং পরিমাণ উভয়ই পাওয়ার ল হ্রাস পায়:

  • উন্নতির ক্রম ∝ 1/পুনরাবৃত্তি সংখ্যা
  • উন্নতির পরিমাণ ∝ 1/উন্নতির সংখ্যা

সহজ কথায়, প্রথম কয়েক রাউন্ডে সবচেয়ে দ্রুত বৃদ্ধি হয়েছিল, তারপর ধীরে ধীরে এটি কঠিন এবং ছোট হয়ে যাচ্ছে।

এটি প্রকৃত গবেষণা ও উন্নয়ন প্রক্রিয়ার মতো, প্রথম সংস্করণে AI দ্রুত অসংখ্য “নিচের ফল” সংগ্রহ করে ফেলে, কিন্তু পরবর্তীতে এটি বাধার কাছাকাছি চলে আসে, আরও কিছু পারফরম্যান্স উন্নত করতে হলে অনেক কঠোর পরিশ্রম করতে হয়।

কি একাধিক পথ একসাথে পরীক্ষা করলে তা আরও লাভজনক হবে? উত্তরটি দ্বিতীয় নিয়মে লুকিয়ে আছে।

অটো গবেষণা

দ্বিতীয় নিয়ম: প্রস্থ উপকারী, কিন্তু গভীরতা অপরিহার্য।

একসাথে একাধিক লাইন চালানো বন্ধ হওয়া এড়াতে পারে, কিন্তু বাজেট স্থির থাকলে, প্রতিটি অতিরিক্ত চেইন খোলা গভীরতা কমিয়ে দেয়।

অনেক প্রকৌশল অগ্রগতি শুধুমাত্র ধারাবাহিক সঞ্চয় এবং নিয়মিত সংশোধনের মাধ্যমেই গঠনগত পরিবর্তন ঘটায়, শুধু “আরও কয়েকবার চেষ্টা করা” দিয়ে এটি সম্ভব নয়।

এটি আমাদের পরবর্তী প্রজন্মের এজেন্টের বিকাশের দিকনির্দেশনা দেয়: একবারে উত্তর দেওয়ার মডেল নয়, বরং দীর্ঘমেয়াদী ফিডব্যাকের মধ্যে ধারাবাহিকভাবে পুনরায় বিকাশ ও নিজেকে উন্নত করার সিস্টেম।

এআই ইঞ্জিনিয়ার, সম্ভবত আসতে চলেছেন

এই গবেষণার প্রকৃত গভীর প্রভাব হল এটি প্রাথমিকভাবে একটি এআই সিস্টেমের চিত্র আঁকে যা বাস্তব প্রকৌশল চক্রের কাছাকাছি আসছে।

অটো গবেষণা

কল্পনা করুন, যখন এআই শিল্প সফটওয়্যার, সিমুলেশন পরিবেশ, সিএডি সিস্টেম, চিপ ডিজাইন টুল, বিজ্ঞান গণনা প্ল্যাটফর্মের সাথে যুক্ত হয়...

একটি উৎপাদনশীলতা মোডের বড় পরিবর্তন আসন্ন।

ভবিষ্যতের পরীক্ষাগারে, এমন একটি বিভাজন দেখা যাবে:

মানুষের গবেষকরা দিক এবং লক্ষ্য নির্ধারণের দায়িত্ব বহন করেন।

যেমন “এই পিসের শক্তি খরচ 30% কমানো”, “এই মডেলের ফরওয়ার্ড GPU ব্যবহার আরও কমানো”, “রোবট নিয়ন্ত্রণের স্থিতিশীলতা আরও একটু উন্নত করা”, “কোয়ান্টাম সার্কিটের ফিডেলিটি আরও বেশি সীমার দিকে নিয়ে যাওয়া” ইত্যাদি।

এবং এআই পথের জন্য “কঠোরভাবে কাজ করে”, যেগুলো এই লক্ষ্যগুলোর চারপাশে অবিরাম অপ্টিমাইজেশন করে।

উদাহরণস্বরূপ, অটোমেটিকভাবে সিমুলেশন এবং পরীক্ষা চালানো, ভেরিফায়ার এবং সিমুলেটরের ফিডব্যাক অটোমেটিকভাবে পড়া, এবং 24 ঘন্টা ধরে অবিরামভাবে সংশোধন ও অপ্টিমাইজ করা।

এই উন্নয়নের যুক্তি দিয়ে এআই একটি "সহায়ক টুল" হিসেবে তার পরিচয় ছেড়ে দিয়েছে এবং এখন একটি প্রকৃত ইঞ্জিনিয়ারিং দলের মতো জটিল সিস্টেমের সমস্যা সমাধান করছে, আর কখনও ক্লান্ত হয়না।

কিন্তু ফ্রন্টিয়ার-এং বেঞ্চমার্কটি যে সমস্যাগুলি প্রকাশ করে, তা প্রকৃতপক্ষে খুবই সরাসরি:

যখন এআই "দীর্ঘমেয়াদি অপ্টিমাইজেশন" শিখতে শুরু করে, তখন এটি প্রকৃত ইঞ্জিনিয়ারিং বুদ্ধিমত্তার কতটা দূরে?

প্রবন্ধের শিরোনাম: Frontier-Eng: জেনারেটিভ অপ্টিমাইজেশন ব্যবহার করে বাস্তব-বিশ্ব ইঞ্জিনিয়ারিং কাজে সেলফ-এভোলভিং এজেন্টগুলির বেঞ্চমার্কিং

প্রকল্পের হোমপেজ: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub রিপো: https://github.com/EinsiaLab/Frontier-Engineering

এই লেখাটি ওয়েইচ্যান গিয়াওহুয়ান "কোয়ানটাম বিট" থেকে এসেছে, লেখক: ইউন জং

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।