علماء رياضيات من هارفارد يختبرون الذكاء الاصطناعي على مسائل بحثية غير منشورة

هذا سؤال يُبقي الباحثين مستيقظين طوال الليل: هل يمكن للذكاء الاصطناعي فعل الرياضيات فعليًا، أم أنه ببساطة جيد جدًا في التعرف على الأنماط من المسائل التي رآها من قبل؟ قرر فريق من 30 رياضيًا في هارفارد معرفة الإجابة بطريقة صعبة، من خلال إعطاء أنظمة الذكاء الاصطناعي الرائدة اختبارًا لم يكن من الممكن أن يدرسوا له مسبقًا.

تم جمع الفريق الخبير للمشروع المسمى "الإثبات الأول، الدفعة الثانية" في مركز العلوم والتطبيقات الرياضية بجامعة هارفارد في أوائل يونيو 2026. كانت مهمتهم بسيطة ولكنها غير مسبوقة من حيث الحجم: تقييم عشوائي لحلول مولدة بالذكاء الاصطناعي لـ 10 مشكلات رياضية أصلية وغير منشورة على مستوى الأبحاث. وقد رسمت النتائج، التي نُشرت في 10 يونيو، صورة لا تشبه سيناريو الكارثة ولا الانتصار الذي قد يفضله أنصار أي جانب.

الإعداد: لماذا تهم المشكلات غير المنشورة

يعتمد整個 التمرين على خيار تصميمي حاسم. تم استخلاص جميع المشكلات في المجموعة من أبحاث نشطة وغير منشورة. لم تظهر أي من هذه الأسئلة في الكتب المدرسية أو على arXiv أو في أي مكان آخر يمكن لبيانات تدريب الذكاء الاصطناعي أن تجمعها منها.

ليس علماء الرياضيات وراء المشروع أيضًا من الهواة. ويشمل قائمة الأعضاء محمد أبو زيد من جامعة ستانفورد، ونيخيل سريڤاستافا من جامعة كاليفورنيا بيركلي، ورACHEL وارد من جامعة تكساس في أوستن، ولورين ويليامز من هارفارد.

ما أصابته الذكاء الاصطناعي بشكل صحيح، وما أخطأ فيه

شاركت أربع أنظمة ذكاء اصطناعي رائدة في التقييم، بما في ذلك نماذج من OpenAI وGoogle. الرقم الرئيسي: منح الفريق الخبير درجات ناجحة على سبعة من أصل 10 مسائل عبر الأنظمة الأربعة المختبرة.

في التجارب الأولية والمبكرة، أُبلغ أن أنظمة الذكاء الاصطناعي حلت فقط 2 من أصل 10 مسائل. إن الفجوة بين الأداء المبكر والنتائج النهائية تشير إلى أن النماذج قد استفادت من محاولات متعددة أو استراتيجيات تحفيز مختلفة، على الرغم من أن بروتوكول التقييم العشوائي تم تصميمه لتقييم جودة الحلول المقدمة بناءً على جودتها فقط.

البناء على النتائج السابقة

هذه الدفعة الثانية تبني على جولة أولية من التقييمات أُجريت في فبراير 2026. تم تصميم مشروع First Proof من البداية كإطار تقييم مستمر، وليس كمغامرة لمرة واحدة. من خلال إجراء جولات متعددة بمشاكل جديدة في كل مرة، يمكن للمنظمين تتبع ما إذا كانت قدرات الذكاء الاصطناعي تتحسن حقًا في الرياضيات على مستوى البحث أو أنها ببساطة تصل إلى مرحلة توقف بعد الاندفاع الأولي للاستفادة من مقاييس الأداء.

لقد تراجعت معايير الرياضيات القياسية، حتى الصعبة منها مثل مسائل المستوى التنافسي، أمام النماذج المتقدمة. لكن مسائل التنافس، بحكم تعريفها، لديها حلول معروفة وطرق حل معروفة. تعمل الرياضيات على مستوى البحث في نظام مختلف جوهريًا، حيث غالبًا لا تعرف حتى ما إذا كان الحل موجودًا أصلًا، ناهيك عن التقنيات التي قد توصلك إليه.