CUSP بینچ مارک سے پتہ چلتا ہے کہ AI ماڈلز کے پاس سائنسی پیشگوئی کی صلاحیت نہیں ہے

ME AI کی خبر، Beating مانیٹرنگ کے مطابق، اسٹنفورڈ یونیورسٹی، اکس فورڈ یونیورسٹی اور ایلن انسٹیٹیوٹ آف آرٹیفیشل انٹیلی جنس نے AI سائنسی پیشرفت کے پیشگوئی کے صلاحیت کا جائزہ لینے کے لیے CUSP نامی ایک ٹائم سیریز بینچ مارک متعارف کرایا ہے۔ اس جائزے میں GPT-5.4، Claude Sonnet 4.5 اور DeepSeek R1 جیسے عصری بڑے ماڈلز کا جائزہ لیا گیا۔ نتائج نے ظاہر کیا کہ بڑے ماڈلز موجودہ ٹیکنالوجی کے راستوں کو سمجھنے اور مکینزم کے طور پر استدلال کرنے میں بہترین کارکردگی دکھاتے ہیں۔ لیکن نئی درآمد کے حقیقی طور پر حاصل ہونے کی پیشگوئی کرتے وقت، ان کی درستگی تقریباً تصادفی انداز کے برابر ہے۔ علاوہ ازیں، بڑے ماڈلز سائنسی پیشرفت کے طرزِ تبدیلی کے وقت کی پیشگوئی میں نظام مند تاخیر دکھاتے ہیں۔ روایتی AI جائزے میں معلومات کا نفاذ آسان ہوتا ہے۔ ماڈل صرف اپنے تربیتی ڈیٹا میں شائع شدہ سائنسی نتائج کو حفظ کر سکتے ہیں۔ حقیقی پیشگوئی کے صلاحیت کا جائزہ لینے کے لیے، CUSP نے ٹائم سیریز جانکاری کا خاتمہ لازم رکھا۔ تحقیقی ٹیم نے Nature اور Science جیسے جرائد سے متعدد شعبوں کی عصری پیشرفت کو جمع کیا۔ اس بینچ مارک میں 4,760 سائنسی اہم لمحات شامل ہیں، جن سے 17,429 خاص جائزہ کے امور بنائے گئے۔ جائزہ محدود معلومات کے ساتھ ماڈلز کو ٹاسک پر عمل کرنے دیتا ہے، اور pre-cutoff انٹرنیٹ سرچ جیسے کنٹرول تجربات مقرر کرتا ہے تاکہ جانکاری کا فرق اور پیشگوئی کا فرق الگ کیا جا سکے۔ جائزہ نتائج نے ظاہر کیا کہ بڑے ماڈلز معیاری جوابات والے سائنسی تلاش میں قابلِ اعتماد رہنمائی فراہم نہیں کر سکتے۔ کم از کم سائنسی پیشرفت کے پیشگوئی میدان میں، موجودہ ماڈلز قابلِ اعتماد مستقبل کا اندازہ نہیں لگا سکتے۔ مکینزم رینسنگ ٹاسکس میں، ماڈلز نے بہترین کارکردگی دکھائی۔ مثال کے طور پر، درست تحقیقی راستوں کو منتخب کرتے وقت GPT-5.4 نے 81.9% درستگی حاصل کی۔ لیکن ممکنہ طور پر حقائق کا جائزہ لینے، چھوٹوں کو حاصل ہونے کا فرض لگانے پر، تمام ماڈلز کا درستگی صرف 45% سے 52% تک رہا۔ طرزِ تبدیلی کے وقت کی پیشگوئی میں، بڑے ماڈلز عام طور پر زائد اندازہ لگاتے ہیں۔ GPT-5.4 نے 14 ماہ تاخیر دکھائی، Claude S4.5 نے 17 ماہ تاخیر دکھائی، جبکہ GPT-4o نے 26 ماہ تاخیر دکھائی۔ اس قسم کے ٹاسکس میں، LLaMA 3.3 وقت مें سب سے کم غلط تھا، صرف +4 ماہ۔ تخلقات حل تخلصات مें، حالانکہ GPT-5.4 نے 5.04/10 پر سب سے زائد نمبر حاصل کئے، لेकن تخلصات فنکشنل راستوں سے حقائق سائنس راستوں سے مطابقت نہ رکھتے۔ اس سے ظاہر ہوتا ہے کہ ماڈلز مناسب حل لکھ سکتے ہيں، لेकن بعد ميں واقعياً واقع ہونے والي تخلصات راستوں تک نہيں پهچنتي۔ زبردست اثر والي شروعاتي برخاستوں ميں، سائنسي پيشگويي فرق زائد واضح ہوتا ہے۔ (ذرائع: BlockBeats)