ہارورڈ ریاضیدان ای آئی کا امتحان غیر شائع شدہ تحقیقی سطح کے مسائل پر لیتے ہیں

iconCryptoBriefing
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ہارورڈ سے AI اور کرپٹو خبریں ظاہر کرتی ہیں کہ AI سسٹم نے 10 میں سے 7 اصل ریاضی کے مسائل حل کر لیے۔ 10 جون، 2026 کو جاری کیا گیا یہ ٹیسٹ، تربیتی ڈیٹا میں موجود نہیں تھے۔ اوپن اے آئی اور گوگل کے ماڈلز نے ابتدائی ٹرائلز سے بہتری دکھائی۔ آن چین خبریں اور AI کی ترقیات اب بھی توجہ کا مرکز بنی ہوئی ہیں۔ ترقی کے بالکل درست وجوہات اب تک واضح نہیں ہیں۔

یہ ایک سوال ہے جو تحقیق کرنے والوں کو رات بھر جاگے رکھتا ہے: کیا AI اصل میں ریاضی کر سکتا ہے، یا یہ صرف اس بات کے لیے بہت اچھا ہے کہ وہ پہلے سے دیکھے گئے مسائل کے خلاف نمونہ میلہ لگائے؟ ہارورڈ کے 30 ریاضیدانوں نے اس بات کا پتہ لگانے کے لیے مشکل طریقہ اختیار کیا، جس میں انہوں نے اگلے AI سسٹمز کو ایک ٹیسٹ دیا جس کے لیے وہ بالکل بھی تیار نہیں ہو سکتے تھے۔

اس منصوبے، جس کا نام "پہلا ثبوت، دوسرا سیٹ" ہے، نے جون 2026 کے شروع میں ہارورڈ کے ریاضیاتی علوم اور заیوکیشن سینٹر میں اپنے ماہرین کی پینل تشکیل دی۔ ان کا کام آسان تھا لیکن اس سے پہلے کبھی نہ ہونے والا تھا: 10 اصل، ناشورٹ شدہ تحقیقی سطح کے ریاضی کے مسائل کے AI جنریٹڈ حلز کو اندھا درجہ دینا۔ جون 10 کو جاری کردہ نتائج ایک تصویر پیش کرتے ہیں جو نہ تو اس طرف کے لوگوں کے لیے تباہی کا سیناریو ہے اور نہ ہی دوسری طرف کے لوگوں کے لیے فتح۔

سیٹ اپ: کیوں غیر شائع شدہ مسائل اہم ہیں

پورا مشغلہ ایک اہم ڈیزائن کے انتخاب پر منحصر ہے۔ مجموعے کا ہر مسئلہ متحرک، غیر شائع شدہ تحقیق سے لیا گیا تھا۔ ان سوالات میں سے کوئی بھی کسی کتاب، arXiv یا کسی اور جگہ پر نہیں آیا تھا جہاں AI کے تربیتی ڈیٹا نے انہیں اکٹھا کیا ہو۔

اعلان

منصوبے کے پیچھے کے ریاضیدان بھی بالکل ہلکے پھلکے نہیں ہیں۔ اس فہرست میں اسٹینفورڈ کے محمد ابوظید، یو سی بیکلی کے نکھیل شریواستو، یو ٹی آسٹن کے ریچل وارڈ، اور ہارورڈ کی لارین وِلیمز شامل ہیں۔

ای آئی نے کیا صحیح اور کیا غلط کیا

چار اہم AI سسٹمز نے جائزہ لیا، جن میں OpenAI اور Google کے ماڈلز شamil ہیں۔ سرخی کا عدد: ماہرین کی پینل نے چاروں جانچے گئے سسٹمز میں سے 10 مسائل میں سے 7 پر پاس گریڈز دیے۔

ابتدائی اور ابتدائی ٹرائل کے دوران، AI سسٹمز نے صرف 10 مسائل میں سے 2 مسائل حل کیے۔ ابتدائی کارکردگی اور نتائج کے درمیان فرق سے ظاہر ہوتا ہے کہ ماڈلز کو متعدد کوششوں یا مختلف پرامپٹنگ حکمت عملیوں سے فائدہ ہوا ہوگا، حالانکہ اندھا جائزہ پروٹوکول صرف جمع کردہ حل کی معیار پر بنیاد رکھنے کے لیے ڈیزائن کیا گیا تھا۔

پچھلے نتائج پر مبنی

یہ دوسری بیچ فروری 2026 میں کی گئی ابتدائی تشخیص کے بنیاد پر تعمیر کی گئی ہے۔ پہلا ثبوت منصوبہ شروع سے ہی ایک لگاتار جائزہ کا فریم ورک ہونے کے لیے ڈیزائن کیا گیا تھا، صرف ایک مرتبہ کا عجوبہ نہیں۔ ہر بار نئے مسائل کے ساتھ متعدد جائزے کرنے سے منظمین یہ پیچھے رکھ سکتے ہیں کہ AI کی صلاحیتیں حقیقت میں تحقیقی سطح کے ریاضی میں بہتر ہو رہی ہیں یا ابتدائی بینچ مارک فائدے کے بعد صرف سطح پر ٹھہر گئی ہیں۔

معیاری ریاضی کے معیارات، حتی کہ مقابلہ سطح کے مسائل جیسے مشکل مسائل، بڑھتے ہوئے سرحدی ماڈلز کے سامنے کم ہوتے جا رہے ہیں۔ لیکن مقابلہ کے مسائل، تعریف کے مطابق، جانے ہوئے حل اور جانے ہوئے حل کے طریقے رکھتے ہیں۔ تحقیقی سطح کی ریاضی ایک بنیادی طور پر مختلف نظام میں کام کرتی ہے، جہاں آپ اکثر نہیں جانتے کہ حل موجود ہے یا نہیں، نہ ہی اس بات کا پتہ ہوتا ہے کہ کون سے طریقے آپ کو اس تک پہنچائیں گے۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔