হার্ভার্ডের গণিতবিদরা অপ্রকাশিত গবেষণা-স্তরের সমস্যাগুলিতে এআই পরীক্ষা করেন

iconCryptoBriefing
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
হার্ভার্ড থেকে এআই এবং ক্রিপ্টো সংবাদ অনুযায়ী, এআই সিস্টেমগুলি ১০টি মূল গণিতের সমস্যার মধ্যে ৭টি সমাধান করেছে। ২০২৬ সালের ১০ জুন প্রকাশিত এই পরীক্ষাটি ট্রেনিং ডেটার বাইরের সমস্যাগুলি ব্যবহার করেছে। ওপেনএআই এবং গুগলের মডেলগুলি প্রাথমিক পরীক্ষাগুলির তুলনায় উন্নতি লাভ করেছে। অন-চেইন সংবাদ এবং এআই-এর উন্নতি এখনও মনোযোগ আকর্ষণ করছে। এই উন্নতির সঠিক কারণগুলি এখনও অস্পষ্ট।

এটি একটি প্রশ্ন যা গবেষকদের রাত জাগিয়ে রাখে: কি এআই প্রকৃতপক্ষে গণিত করতে পারে, নাকি এটি শুধুমাত্র এমন সমস্যাগুলির বিরুদ্ধে প্যাটার্ন-ম্যাচিংয়ের জন্য খুব ভালো, যেগুলি এটি ইতিমধ্যে দেখেছে? হার্ভার্ডের ৩০জন গণিতবিদের একটি দল সিদ্ধান্ত নিয়েছিল যে, শীর্ষস্থানীয় এআই সিস্টেমগুলিকে এমন একটি পরীক্ষা দেওয়া হবে যা এগুলির জন্য অধ্যয়নের সম্ভাবনা ছিল না।

“প্রথম প্রমাণ, দ্বিতীয় ব্যাচ” নামক প্রকল্পটি ২০২৬ সালের জুনের প্রথমদিকে হার্ভার্ডের গাণিতিক বিজ্ঞান ও প্রয়োগ কেন্দ্রে তাদের বিশেষজ্ঞদের প্যানেল জড়ো করে। তাদের কাজটি ছিল সরল কিন্তু পরিসরে অতীতে অনুপম: ১০টি মৌলিক, অপ্রকাশিত গবেষণা-স্তরের গাণিতিক সমস্যার AI-জেনারেটেড সমাধানগুলি অন্ধভাবে মূল্যায়ন করা। ১০ জুন প্রকাশিত ফলাফলগুলি একটি চিত্র এঁকেছে, যা না তো কোনও পক্ষের পছন্দের বিপদের পরিস্থিতি, না তো বিজয়।

সেটআপ: কেন অপ্রকাশিত সমস্যাগুলি গুরুত্বপূর্ণ

সম্পূর্ণ ব্যায়ামটি একটি গুরুত্বপূর্ণ ডিজাইন বাছাইয়ের উপর নির্ভর করে। সেটের প্রতিটি সমস্যা সক্রিয়, অপ্রকাশিত গবেষণা থেকে নেওয়া হয়েছে। এই প্রশ্নগুলির কোনোটিই পাঠ্যবই, arXiv বা অন্য কোথাও দেখা যায়নি, যেখানে একটি AI-এর প্রশিক্ষণ ডেটা এগুলি স্ক্র্যাপ করতে পারত।

বিজ্ঞাপন

প্রকল্পটির পিছনে থাকা গণিতবিদদেরও ঠিক তেমন সাধারণ মানুষ নয়। এই তালিকায় রয়েছে স্ট্যানফোর্ডের মোহাম্মদ আবুজাইদ, ইউসি বার্কলের নিখিল শ্রীবাস্তব, ইউটি অস্টিনের রেচেল ওয়ার্ড, এবং হার্ভার্ডের লরেন উইলিয়ামস।

এআই কীভাবে সঠিকভাবে এবং ভুলভাবে কাজ করেছে

মূল্যায়নে চারটি শীর্ষস্থানীয় এআই সিস্টেম অংশগ্রহণ করেছে, যার মধ্যে অপেনএআই এবং গুগলের মডেল অন্তর্ভুক্ত। মুখ্য সংখ্যাটি: চারটি পরীক্ষিত সিস্টেমের মধ্যে ১০টি সমস্যার মধ্যে ৭টির জন্য বিশেষজ্ঞ প্যানেল পাস গ্রেড প্রদান করেছে।

প্রাথমিক এবং প্রারম্ভিক পরীক্ষায়, এআই সিস্টেমগুলি বলা হয়েছে যে 10টি সমস্যার মধ্যে মাত্র 2টি সমাধান করেছে। প্রারম্ভিক পারফরম্যান্স এবং চূড়ান্ত ফলাফলের মধ্যে ব্যবধানটি এটি �示ত করে যে মডেলগুলি একাধিক চেষ্টা বা ভিন্ন প্রম্পটিং কৌশলগুলির সুবিধা নিয়েছিল হতে পারে, যদিও ব্লাইন্ড গ্রেডিং প্রোটোকলটি জমা দেওয়া সমাধানগুলির মানকে কেবলমাত্র তাদের নিজস্ব গুণাবলির ভিত্তিতে মূল্যায়নের জন্য ডিজাইন করা হয়েছিল।

আগের ফলাফলগুলির উপর ভিত্তি করে

এই দ্বিতীয় ব্যাচটি ফেব্রুয়ারি ২০২৬-এ পরিচালিত প্রাথমিক মূল্যায়নের উপর ভিত্তি করে তৈরি করা হয়েছে। ফার্স্ট প্রুফ প্রকল্পটি শুরু থেকেই একটি স্থায়ী মূল্যায়ন কাঠামো হিসেবে ডিজাইন করা হয়েছিল, একবারের মতো প্রদর্শন নয়। প্রতিবার নতুন সমস্যা নিয়ে একাধিক রাউন্ড চালিয়ে, আয়োজকদের কাছে এটি বুঝতে সহজ হবে যে AI-এর গবেষণা-স্তরের গণিতে প্রকৃতপক্ষে উন্নতি হচ্ছে কিনা, নাকি বেঞ্চমার্কের প্রাথমিক লাভের পরে এটি শুধুমাত্র স্থির হয়ে গিয়েছে।

স্ট্যান্ডার্ড গাণিতিক বেঞ্চমার্ক, এমনকি প্রতিযোগিতামূলক স্তরের সমস্যাগুলির মতো কঠিন সমস্যাগুলি ধীরে ধীরে অগ্রগামী মডেলগুলির দ্বারা সমাধান করা হচ্ছে। কিন্তু প্রতিযোগিতামূলক সমস্যাগুলি, সংজ্ঞানুযায়ী, জানা সমাধান এবং জানা সমাধানের পদ্ধতি রয়েছে। গবেষণা-স্তরের গণিত একটি সম্পূর্ণভাবে ভিন্ন পরিস্থিতিতে কাজ করে, যেখানে আপনি প্রায়শই জানেন না যে কোনও সমাধান বিদ্যমান কি না, তবে এটি পৌঁছানোর জন্য কোন পদ্ধতি ব্যবহার করা হবে তা আরও কমই জানেন।

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।