یہ ایک سوال ہے جو تحقیق کرنے والوں کو رات بھر جاگے رکھتا ہے: کیا AI اصل میں ریاضی کر سکتا ہے، یا یہ صرف اس بات کے لیے بہت اچھا ہے کہ وہ پہلے سے دیکھے گئے مسائل کے خلاف نمونہ میلہ لگائے؟ ہارورڈ کے 30 ریاضیدانوں نے اس بات کا پتہ لگانے کے لیے مشکل طریقہ اختیار کیا، جس میں انہوں نے اگلے AI سسٹمز کو ایک ٹیسٹ دیا جس کے لیے وہ بالکل بھی تیار نہیں ہو سکتے تھے۔
اس منصوبے، جس کا نام "پہلا ثبوت، دوسرا سیٹ" ہے، نے جون 2026 کے شروع میں ہارورڈ کے ریاضیاتی علوم اور заیوکیشن سینٹر میں اپنے ماہرین کی پینل تشکیل دی۔ ان کا کام آسان تھا لیکن اس سے پہلے کبھی نہ ہونے والا تھا: 10 اصل، ناشورٹ شدہ تحقیقی سطح کے ریاضی کے مسائل کے AI جنریٹڈ حلز کو اندھا درجہ دینا۔ جون 10 کو جاری کردہ نتائج ایک تصویر پیش کرتے ہیں جو نہ تو اس طرف کے لوگوں کے لیے تباہی کا سیناریو ہے اور نہ ہی دوسری طرف کے لوگوں کے لیے فتح۔
سیٹ اپ: کیوں غیر شائع شدہ مسائل اہم ہیں
پورا مشغلہ ایک اہم ڈیزائن کے انتخاب پر منحصر ہے۔ مجموعے کا ہر مسئلہ متحرک، غیر شائع شدہ تحقیق سے لیا گیا تھا۔ ان سوالات میں سے کوئی بھی کسی کتاب، arXiv یا کسی اور جگہ پر نہیں آیا تھا جہاں AI کے تربیتی ڈیٹا نے انہیں اکٹھا کیا ہو۔
منصوبے کے پیچھے کے ریاضیدان بھی بالکل ہلکے پھلکے نہیں ہیں۔ اس فہرست میں اسٹینفورڈ کے محمد ابوظید، یو سی بیکلی کے نکھیل شریواستو، یو ٹی آسٹن کے ریچل وارڈ، اور ہارورڈ کی لارین وِلیمز شامل ہیں۔
ای آئی نے کیا صحیح اور کیا غلط کیا
چار اہم AI سسٹمز نے جائزہ لیا، جن میں OpenAI اور Google کے ماڈلز شamil ہیں۔ سرخی کا عدد: ماہرین کی پینل نے چاروں جانچے گئے سسٹمز میں سے 10 مسائل میں سے 7 پر پاس گریڈز دیے۔
ابتدائی اور ابتدائی ٹرائل کے دوران، AI سسٹمز نے صرف 10 مسائل میں سے 2 مسائل حل کیے۔ ابتدائی کارکردگی اور نتائج کے درمیان فرق سے ظاہر ہوتا ہے کہ ماڈلز کو متعدد کوششوں یا مختلف پرامپٹنگ حکمت عملیوں سے فائدہ ہوا ہوگا، حالانکہ اندھا جائزہ پروٹوکول صرف جمع کردہ حل کی معیار پر بنیاد رکھنے کے لیے ڈیزائن کیا گیا تھا۔
پچھلے نتائج پر مبنی
یہ دوسری بیچ فروری 2026 میں کی گئی ابتدائی تشخیص کے بنیاد پر تعمیر کی گئی ہے۔ پہلا ثبوت منصوبہ شروع سے ہی ایک لگاتار جائزہ کا فریم ورک ہونے کے لیے ڈیزائن کیا گیا تھا، صرف ایک مرتبہ کا عجوبہ نہیں۔ ہر بار نئے مسائل کے ساتھ متعدد جائزے کرنے سے منظمین یہ پیچھے رکھ سکتے ہیں کہ AI کی صلاحیتیں حقیقت میں تحقیقی سطح کے ریاضی میں بہتر ہو رہی ہیں یا ابتدائی بینچ مارک فائدے کے بعد صرف سطح پر ٹھہر گئی ہیں۔
معیاری ریاضی کے معیارات، حتی کہ مقابلہ سطح کے مسائل جیسے مشکل مسائل، بڑھتے ہوئے سرحدی ماڈلز کے سامنے کم ہوتے جا رہے ہیں۔ لیکن مقابلہ کے مسائل، تعریف کے مطابق، جانے ہوئے حل اور جانے ہوئے حل کے طریقے رکھتے ہیں۔ تحقیقی سطح کی ریاضی ایک بنیادی طور پر مختلف نظام میں کام کرتی ہے، جہاں آپ اکثر نہیں جانتے کہ حل موجود ہے یا نہیں، نہ ہی اس بات کا پتہ ہوتا ہے کہ کون سے طریقے آپ کو اس تک پہنچائیں گے۔
