এটি একটি প্রশ্ন যা গবেষকদের রাত জাগিয়ে রাখে: কি এআই প্রকৃতপক্ষে গণিত করতে পারে, নাকি এটি শুধুমাত্র এমন সমস্যাগুলির বিরুদ্ধে প্যাটার্ন-ম্যাচিংয়ের জন্য খুব ভালো, যেগুলি এটি ইতিমধ্যে দেখেছে? হার্ভার্ডের ৩০জন গণিতবিদের একটি দল সিদ্ধান্ত নিয়েছিল যে, শীর্ষস্থানীয় এআই সিস্টেমগুলিকে এমন একটি পরীক্ষা দেওয়া হবে যা এগুলির জন্য অধ্যয়নের সম্ভাবনা ছিল না।
“প্রথম প্রমাণ, দ্বিতীয় ব্যাচ” নামক প্রকল্পটি ২০২৬ সালের জুনের প্রথমদিকে হার্ভার্ডের গাণিতিক বিজ্ঞান ও প্রয়োগ কেন্দ্রে তাদের বিশেষজ্ঞদের প্যানেল জড়ো করে। তাদের কাজটি ছিল সরল কিন্তু পরিসরে অতীতে অনুপম: ১০টি মৌলিক, অপ্রকাশিত গবেষণা-স্তরের গাণিতিক সমস্যার AI-জেনারেটেড সমাধানগুলি অন্ধভাবে মূল্যায়ন করা। ১০ জুন প্রকাশিত ফলাফলগুলি একটি চিত্র এঁকেছে, যা না তো কোনও পক্ষের পছন্দের বিপদের পরিস্থিতি, না তো বিজয়।
সেটআপ: কেন অপ্রকাশিত সমস্যাগুলি গুরুত্বপূর্ণ
সম্পূর্ণ ব্যায়ামটি একটি গুরুত্বপূর্ণ ডিজাইন বাছাইয়ের উপর নির্ভর করে। সেটের প্রতিটি সমস্যা সক্রিয়, অপ্রকাশিত গবেষণা থেকে নেওয়া হয়েছে। এই প্রশ্নগুলির কোনোটিই পাঠ্যবই, arXiv বা অন্য কোথাও দেখা যায়নি, যেখানে একটি AI-এর প্রশিক্ষণ ডেটা এগুলি স্ক্র্যাপ করতে পারত।
প্রকল্পটির পিছনে থাকা গণিতবিদদেরও ঠিক তেমন সাধারণ মানুষ নয়। এই তালিকায় রয়েছে স্ট্যানফোর্ডের মোহাম্মদ আবুজাইদ, ইউসি বার্কলের নিখিল শ্রীবাস্তব, ইউটি অস্টিনের রেচেল ওয়ার্ড, এবং হার্ভার্ডের লরেন উইলিয়ামস।
এআই কীভাবে সঠিকভাবে এবং ভুলভাবে কাজ করেছে
মূল্যায়নে চারটি শীর্ষস্থানীয় এআই সিস্টেম অংশগ্রহণ করেছে, যার মধ্যে অপেনএআই এবং গুগলের মডেল অন্তর্ভুক্ত। মুখ্য সংখ্যাটি: চারটি পরীক্ষিত সিস্টেমের মধ্যে ১০টি সমস্যার মধ্যে ৭টির জন্য বিশেষজ্ঞ প্যানেল পাস গ্রেড প্রদান করেছে।
প্রাথমিক এবং প্রারম্ভিক পরীক্ষায়, এআই সিস্টেমগুলি বলা হয়েছে যে 10টি সমস্যার মধ্যে মাত্র 2টি সমাধান করেছে। প্রারম্ভিক পারফরম্যান্স এবং চূড়ান্ত ফলাফলের মধ্যে ব্যবধানটি এটি �示ত করে যে মডেলগুলি একাধিক চেষ্টা বা ভিন্ন প্রম্পটিং কৌশলগুলির সুবিধা নিয়েছিল হতে পারে, যদিও ব্লাইন্ড গ্রেডিং প্রোটোকলটি জমা দেওয়া সমাধানগুলির মানকে কেবলমাত্র তাদের নিজস্ব গুণাবলির ভিত্তিতে মূল্যায়নের জন্য ডিজাইন করা হয়েছিল।
আগের ফলাফলগুলির উপর ভিত্তি করে
এই দ্বিতীয় ব্যাচটি ফেব্রুয়ারি ২০২৬-এ পরিচালিত প্রাথমিক মূল্যায়নের উপর ভিত্তি করে তৈরি করা হয়েছে। ফার্স্ট প্রুফ প্রকল্পটি শুরু থেকেই একটি স্থায়ী মূল্যায়ন কাঠামো হিসেবে ডিজাইন করা হয়েছিল, একবারের মতো প্রদর্শন নয়। প্রতিবার নতুন সমস্যা নিয়ে একাধিক রাউন্ড চালিয়ে, আয়োজকদের কাছে এটি বুঝতে সহজ হবে যে AI-এর গবেষণা-স্তরের গণিতে প্রকৃতপক্ষে উন্নতি হচ্ছে কিনা, নাকি বেঞ্চমার্কের প্রাথমিক লাভের পরে এটি শুধুমাত্র স্থির হয়ে গিয়েছে।
স্ট্যান্ডার্ড গাণিতিক বেঞ্চমার্ক, এমনকি প্রতিযোগিতামূলক স্তরের সমস্যাগুলির মতো কঠিন সমস্যাগুলি ধীরে ধীরে অগ্রগামী মডেলগুলির দ্বারা সমাধান করা হচ্ছে। কিন্তু প্রতিযোগিতামূলক সমস্যাগুলি, সংজ্ঞানুযায়ী, জানা সমাধান এবং জানা সমাধানের পদ্ধতি রয়েছে। গবেষণা-স্তরের গণিত একটি সম্পূর্ণভাবে ভিন্ন পরিস্থিতিতে কাজ করে, যেখানে আপনি প্রায়শই জানেন না যে কোনও সমাধান বিদ্যমান কি না, তবে এটি পৌঁছানোর জন্য কোন পদ্ধতি ব্যবহার করা হবে তা আরও কমই জানেন।
