كشف معيار CUSP أن نماذج الذكاء الاصطناعي تفتقر إلى القدرة على التنبؤ العلمي

ME AI رسالة، وفقًا لمراقبة Beating، أطلقت جامعة ستانفورد وجامعة أكسفورد ومعهد ألين للذكاء الاصطناعي معًا المعيار الزمني CUSP لتقييم قدرة الذكاء الاصطناعي على التنبؤ بالتقدم العلمي. خضع نظام التقييم لاختبار منهجي لنموذجات كبيرة متقدمة مثل GPT-5.4 وClaude Sonnet 4.5 وDeepSeek R1. أظهرت النتائج أن النماذج الكبيرة تؤدي أداءً ممتازًا في فهم آليات مثل مسارات التقنية الحالية. لكنها عندما يتعلق الأمر بالتنبؤ بما إذا كانت الاكتشافات الجديدة ستتحقق فعليًا، فإن دقتها تقترب من التخمين العشوائي. بالإضافة إلى ذلك، أظهرت النماذج الكبيرة تأخيرًا منهجيًا في التنبؤ بتوقيت الاختراقات العلمية. إن تقييمات الذكاء الاصطناعي التقليدية عرضة بسهولة لتسريب المعلومات؛ فقد تكون النماذج مجرد تكرار لإنجازات علمية نُشرت بالفعل في بيانات التدريب. لقياس القدرة التنبؤية الحقيقية، أدخل CUSP قيودًا زمنية على انتهاء المعرفة. قام فريق البحث بجمع تقدمات متقدمة متعددة التخصصات من دوريات مثل Nature وScience. يحتوي هذا المعيار على 4,760 محطة علمية، وتولد 17,429 مهمة تقييم محددة. يتم إجراء الاختبارات من خلال قيود التوقف التي تحد من المعلومات المتاحة للنموذج، مع إجراء تجارب مقارنة مثل البحث عبر الإنترنت قبل التوقف، لتمييز فجوة المعرفة عن فجوة التنبؤ. أظهرت نتائج التقييم أن النماذج الكبيرة لا تستطيع تقديم إرشادات موثوقة في الاستكشاف العلمي الذي لا يحتوي على إجابات معيارية. على الأقل في التنبؤ بالتقدم العلمي، لا تستطيع النماذج الحالية تقديم أحكام استشرافية موثوقة. في مهام الاستدلال الآلي، أظهرت النماذج أداءً ممتازًا؛ على سبيل المثال، حقق GPT-5.4 دقة 81.9٪ في تحديد الاتجاهات البحثية المعقولة من بين الخيارات. لكن عند مواجهة تحديد الجدوى، أي تقييم ما إذا كان يمكن تحقيق الادعاء أم لا، لم تتجاوز دقة النماذج المختلفة 45٪ إلى 52٪. بالنسبة للتنبؤ بتوقيت الاختراقات، قدرت النماذج الكبيرة بشكل عام وقتًا أطول من الواقع. تأخر GPT-5.4 بمقدار 14 شهرًا، وClaude S4.5 بمقدار 17 شهرًا، بينما تأخر GPT-4o بمقدار 26 شهرًا. في هذه المهام، كان LLaMA 3.3 لديه أقل خطأ زمني، عند +4 أشهر. في تصميم الحلول التوليدية، حتى مع حصول GPT-5.4 على أعلى درجة وهي 5.04/10، لم تتماشَ المسارات التقنية التي أنشأها مع المسارات العلمية الحقيقية. وهذا يشير إلى أن النماذج يمكنها كتابة حلول تبدو معقولة، لكنها تكافح من أجل تحديد المسارات التقنية المحددة التي ستحدث فعليًا لاحقًا. بالنسبة للاختراقات الرائدة ذات التأثير العالي، تكون فجوة التنبؤ العلمي أكثر وضوحًا. (المصدر: BlockBeats)