CUSP بینچ مارک سے پتہ چلتا ہے کہ AI ماڈلز کے پاس سائنسی پیشگوئی کی صلاحیت نہیں ہے
KuCoinFlash
بانٹیں
خلاصہ
AI اور کرپٹو خبروں کے پلیٹ فارمز اسٹینفورڈ، آکسفورڈ اور آلن انسٹیٹیوٹ فار AI کے ذریعہ تیار کیا گیا ایک نیا معیار CUSP کا پیروی کر رہے ہیں۔ یہ ٹیسٹ دکھاتا ہے کہ GPT-5.4 اور Claude Sonnet 4.5 جیسے بہترین ماڈلز سائنسی ترقی کا پیش گوئی کرنے میں پریشان ہیں۔ درستگی تقریباً تصادفی ہے اور وقت کے اندازے ماہوں تک غلط ہیں۔ CUSP ڈیٹا سیٹ میں 4,760 اہم مراحل اور 17,429 کام شامل ہیں۔ نئے ٹوکن لسٹنگز اکثر پیش گوئی ماڈلز پر منحصر ہوتی ہیں، لیکن اس مطالعہ نے ان کی قابلِ اعتمادیت کے بارے میں خدشات اُبھارے ہیں۔
ME AI کی خبر، Beating مانیٹرنگ کے مطابق، اسٹنفورڈ یونیورسٹی، اکس فورڈ یونیورسٹی اور ایلن انسٹیٹیوٹ آف آرٹیفیشل انٹیلی جنس نے AI سائنسی پیشرفت کے پیشگوئی کے صلاحیت کا جائزہ لینے کے لیے CUSP نامی ایک ٹائم سیریز بینچ مارک متعارف کرایا ہے۔ اس جائزے میں GPT-5.4، Claude Sonnet 4.5 اور DeepSeek R1 جیسے عصری بڑے ماڈلز کا جائزہ لیا گیا۔ نتائج نے ظاہر کیا کہ بڑے ماڈلز موجودہ ٹیکنالوجی کے راستوں کو سمجھنے اور مکینزم کے طور پر استدلال کرنے میں بہترین کارکردگی دکھاتے ہیں۔ لیکن نئی درآمد کے حقیقی طور پر حاصل ہونے کی پیشگوئی کرتے وقت، ان کی درستگی تقریباً تصادفی انداز کے برابر ہے۔ علاوہ ازیں، بڑے ماڈلز سائنسی پیشرفت کے طرزِ تبدیلی کے وقت کی پیشگوئی میں نظام مند تاخیر دکھاتے ہیں۔ روایتی AI جائزے میں معلومات کا نفاذ آسان ہوتا ہے۔ ماڈل صرف اپنے تربیتی ڈیٹا میں شائع شدہ سائنسی نتائج کو حفظ کر سکتے ہیں۔ حقیقی پیشگوئی کے صلاحیت کا جائزہ لینے کے لیے، CUSP نے ٹائم سیریز جانکاری کا خاتمہ لازم رکھا۔ تحقیقی ٹیم نے Nature اور Science جیسے جرائد سے متعدد شعبوں کی عصری پیشرفت کو جمع کیا۔ اس بینچ مارک میں 4,760 سائنسی اہم لمحات شامل ہیں، جن سے 17,429 خاص جائزہ کے امور بنائے گئے۔ جائزہ محدود معلومات کے ساتھ ماڈلز کو ٹاسک پر عمل کرنے دیتا ہے، اور pre-cutoff انٹرنیٹ سرچ جیسے کنٹرول تجربات مقرر کرتا ہے تاکہ جانکاری کا فرق اور پیشگوئی کا فرق الگ کیا جا سکے۔ جائزہ نتائج نے ظاہر کیا کہ بڑے ماڈلز معیاری جوابات والے سائنسی تلاش میں قابلِ اعتماد رہنمائی فراہم نہیں کر سکتے۔ کم از کم سائنسی پیشرفت کے پیشگوئی میدان میں، موجودہ ماڈلز قابلِ اعتماد مستقبل کا اندازہ نہیں لگا سکتے۔ مکینزم رینسنگ ٹاسکس میں، ماڈلز نے بہترین کارکردگی دکھائی۔ مثال کے طور پر، درست تحقیقی راستوں کو منتخب کرتے وقت GPT-5.4 نے 81.9% درستگی حاصل کی۔ لیکن ممکنہ طور پر حقائق کا جائزہ لینے، چھوٹوں کو حاصل ہونے کا فرض لگانے پر، تمام ماڈلز کا درستگی صرف 45% سے 52% تک رہا۔ طرزِ تبدیلی کے وقت کی پیشگوئی میں، بڑے ماڈلز عام طور پر زائد اندازہ لگاتے ہیں۔ GPT-5.4 نے 14 ماہ تاخیر دکھائی، Claude S4.5 نے 17 ماہ تاخیر دکھائی، جبکہ GPT-4o نے 26 ماہ تاخیر دکھائی۔ اس قسم کے ٹاسکس میں، LLaMA 3.3 وقت مें سب سے کم غلط تھا، صرف +4 ماہ۔ تخلقات حل تخلصات مें، حالانکہ GPT-5.4 نے 5.04/10 پر سب سے زائد نمبر حاصل کئے، لेकن تخلصات فنکشنل راستوں سے حقائق سائنس راستوں سے مطابقت نہ رکھتے۔ اس سے ظاہر ہوتا ہے کہ ماڈلز مناسب حل لکھ سکتے ہيں، لेकن بعد ميں واقعياً واقع ہونے والي تخلصات راستوں تک نہيں پهچنتي۔ زبردست اثر والي شروعاتي برخاستوں ميں، سائنسي پيشگويي فرق زائد واضح ہوتا ہے۔ (ذرائع: BlockBeats)
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔