كشف معيار CUSP أن نماذج الذكاء الاصطناعي تفتقر إلى القدرة على التنبؤ العلمي
KuCoinFlash
مشاركة
ملخص
منصات أخبار الذكاء الاصطناعي والعملات المشفرة تتبع معيارًا جديدًا يُسمى CUSP، تم تطويره من قبل جامعة ستانفورد وأكسفورد ومعهد ألين للذكاء الاصطناعي. تُظهر الاختبارات أن النماذج الرائدة مثل GPT-5.4 وClaude Sonnet 4.5 تواجه صعوبة في التنبؤ بالتقدم العلمي. الدقة قريبة من العشوائية، وتقديرات التوقيت خاطئة بشهور. يحتوي مجموعة بيانات CUSP على 4,760 محطة و17,429 مهمة. غالبًا ما تعتمد القوائم الجديدة للعملات المعدنية على نماذج تنبؤية، لكن هذه الدراسة تثير مخاوف بشأن موثوقيتها.
ME AI رسالة، وفقًا لمراقبة Beating، أطلقت جامعة ستانفورد وجامعة أكسفورد ومعهد ألين للذكاء الاصطناعي معًا المعيار الزمني CUSP لتقييم قدرة الذكاء الاصطناعي على التنبؤ بالتقدم العلمي. خضع نظام التقييم لاختبار منهجي لنموذجات كبيرة متقدمة مثل GPT-5.4 وClaude Sonnet 4.5 وDeepSeek R1. أظهرت النتائج أن النماذج الكبيرة تؤدي أداءً ممتازًا في فهم آليات مثل مسارات التقنية الحالية. لكنها عندما يتعلق الأمر بالتنبؤ بما إذا كانت الاكتشافات الجديدة ستتحقق فعليًا، فإن دقتها تقترب من التخمين العشوائي. بالإضافة إلى ذلك، أظهرت النماذج الكبيرة تأخيرًا منهجيًا في التنبؤ بتوقيت الاختراقات العلمية. إن تقييمات الذكاء الاصطناعي التقليدية عرضة بسهولة لتسريب المعلومات؛ فقد تكون النماذج مجرد تكرار لإنجازات علمية نُشرت بالفعل في بيانات التدريب. لقياس القدرة التنبؤية الحقيقية، أدخل CUSP قيودًا زمنية على انتهاء المعرفة. قام فريق البحث بجمع تقدمات متقدمة متعددة التخصصات من دوريات مثل Nature وScience. يحتوي هذا المعيار على 4,760 محطة علمية، وتولد 17,429 مهمة تقييم محددة. يتم إجراء الاختبارات من خلال قيود التوقف التي تحد من المعلومات المتاحة للنموذج، مع إجراء تجارب مقارنة مثل البحث عبر الإنترنت قبل التوقف، لتمييز فجوة المعرفة عن فجوة التنبؤ. أظهرت نتائج التقييم أن النماذج الكبيرة لا تستطيع تقديم إرشادات موثوقة في الاستكشاف العلمي الذي لا يحتوي على إجابات معيارية. على الأقل في التنبؤ بالتقدم العلمي، لا تستطيع النماذج الحالية تقديم أحكام استشرافية موثوقة. في مهام الاستدلال الآلي، أظهرت النماذج أداءً ممتازًا؛ على سبيل المثال، حقق GPT-5.4 دقة 81.9٪ في تحديد الاتجاهات البحثية المعقولة من بين الخيارات. لكن عند مواجهة تحديد الجدوى، أي تقييم ما إذا كان يمكن تحقيق الادعاء أم لا، لم تتجاوز دقة النماذج المختلفة 45٪ إلى 52٪. بالنسبة للتنبؤ بتوقيت الاختراقات، قدرت النماذج الكبيرة بشكل عام وقتًا أطول من الواقع. تأخر GPT-5.4 بمقدار 14 شهرًا، وClaude S4.5 بمقدار 17 شهرًا، بينما تأخر GPT-4o بمقدار 26 شهرًا. في هذه المهام، كان LLaMA 3.3 لديه أقل خطأ زمني، عند +4 أشهر. في تصميم الحلول التوليدية، حتى مع حصول GPT-5.4 على أعلى درجة وهي 5.04/10، لم تتماشَ المسارات التقنية التي أنشأها مع المسارات العلمية الحقيقية. وهذا يشير إلى أن النماذج يمكنها كتابة حلول تبدو معقولة، لكنها تكافح من أجل تحديد المسارات التقنية المحددة التي ستحدث فعليًا لاحقًا. بالنسبة للاختراقات الرائدة ذات التأثير العالي، تكون فجوة التنبؤ العلمي أكثر وضوحًا. (المصدر: BlockBeats)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.