اختبارات معيارية جديدة للذكاء الاصطناعي تُقيّم تحسين الهندسة دون إجابات قياسية

إذا تم إلقاء الذكاء الاصطناعي في موقع هندسي لا توجد فيه إجابات معيارية، هل سيتمكن من البقاء؟

لطالما بدا وكأن وكلاء الذكاء الاصطناعي قادرون على كل شيء، لكن في الواقع، فإن معظمهم يقتصر على "البحث في قاعدة المعرفة" المعروفة.

لكن عالم الهندسة الحقيقي قاسٍ: استقرار الروبوتات تحت الماء، وحدود ترسيب الليثيوم في بطاريات الطاقة، والتحكم في الضوضاء في الدوائر الكمية... هذه المشكلات لا تمتلك "درجة كاملة"، بل فقط "تحسينات أقرب إلى الحدود القصوى".

في الآونة الأخيرة، أزالت Frontier-Eng Bench، التي أصدرتها Navers lab التابعة لـ Einsia AI، الوسم "طالب حل المسائل" عن الذكاء الاصطناعي.

البحث التلقائي

لم تُعطِ فريق البحث للذكاء الاصطناعي مهام برمجية قديمة للحل، بل قدمت له دورة هندسية كاملة: اقتراح حل، توصيله بمحاكي، معالجة الأخطاء، تعديل المعلمات، وإعادة التشغيل.

أمام 47 مهمة صعبة متعددة التخصصات، يجب على الذكاء الاصطناعي أن يتصرف كمهندس خبير في البحث عن الحل الأمثل داخل "المثلث المستحيل" للطاقة، والأمان، والأداء.

هذا ليس مجرد مجموعة اختبار، بل هو أكثر شبهاً بتمرين تمهيدي لـ"تطور" العامل.

عندما يبدأ الذكاء الاصطناعي في تعلم تصحيح نفسه بناءً على التغذية الراجعة، قد يكون عصر البحث التلقائي "حيث يحدد البشر الأهداف، ويُكرر الذكاء الاصطناعي باستمرار على مدار 24 ساعة" أقرب مما نتخيل.

الذكاء الاصطناعي بدأ في أداء المهام الصعبة

النماذج الكبيرة السابقة كانت تشبه طالبًا متميزًا للغاية.

أنت تطرح سؤالاً، وهو يبحث في ذاكرة تدريب ضخمة، ثم يجمع إجابة تبدو منطقية.

في هذا النمط، فإن النموذج الكبير يلعب في جوهره "لعبة تسلسل الكلمات" بدلاً من حل المشكلات الواقعية.

لكن ظهور Frontier-Eng Bench جعل الذكاء الاصطناعي يُنفّذ مهام "تحسين الهندسة".

تحولت العملية إلى جعل الذكاء الاصطناعي يقترح الحل أولاً، ثم يتصل بالمحاكي لإجراء التجارب، ثم الحصول على التغذية الراجعة والأخطاء، وتعديل المعلمات والكود، ثم إعادة التشغيل مرة أخرى حتى تستمر الأداء في الارتفاع.

في هذا النظام المغلق، تغير هوية الذكاء الاصطناعي بشكل جوهري.

هل تريد جعل الروبوت تحت الماء أكثر استقرارًا؟ يجب على الذكاء الاصطناعي أن يبدأ في ضبط المُحكم تلقائيًا.

هل تريد زيادة سرعة الذراع الميكانيكية أكثر؟ يجب على الذكاء الاصطناعي تشغيل المحاكاة بنفسه.

إلى حد ما، تجاوزت الذكاءات الاصطناعية فهم المعنى البسيط، وبدأت تعمل كمهندس محترف، وتعمل على التحسين المستمر بناءً على ملاحظات البيئة الحقيقية.

البحث التلقائي

△

الأمر الأكثر إثارة في Frontier-Eng Bench هو أنه لا يقيس ما إذا كان الذكاء الاصطناعي يجيب بشكل صحيح، بل ما إذا كان الذكاء الاصطناعي قادرًا على التحسن المستمر.

لأن التحسينات الهندسية الحقيقية ليست أبداً اختياراً من متعدد، ولا توجد إجابة معيارية واحدة.

على سبيل المثال، شحن البطارية بسرعة، الهدف يبدو بسيطًا — كلما كان الشحن أسرع، كان ذلك أفضل، لكن الواقع ليس بهذه السهولة.

يجب على الذكاء الاصطناعي أن يلتقط بدقة نقطة التوازن في الأداء ضمن قيود صارمة: عدم تجاوز درجة الحرارة، وعدم تجاوز الجهد، وعدم تدهور عمر البطارية بسرعة، وتجنب ترسيب الليثيوم.

هذا يعني أن الذكاء الاصطناعي لا يمكنه تجاوز الاختبار من خلال أي حيل أو "تمارين تدريبية"، بل يجب أن يُظهر قدرة على التطور المستمر عبر التغذية الراجعة الطويلة المدى.

هل يمكن للذكاء الاصطناعي إجراء تحسينات طويلة الأجل في بيئة حقيقية؟

من النتائج، أظهر GPT5.4 أداءً أكثر استقرارًا بشكل عام، لكن الطريق لا يزال طويلًا أمام الذكاء الاصطناعي لتحقيق اختراق حقيقي في المعيار المرجعي.

البحث التلقائي

△

Auto Research يدخل عصر "التحسين التكراري"

ذكر فريق البحث نقطة مثيرة جدًا في الورقة البحثية:

الذكاء الحقيقي المتقدم يعتمد جوهريًا على حلقات التغذية الراجعة الطويلة الأجل.

كما أن AlphaGo تمكّن من هزيمة لي سيتشي بسبب الملايين من المحاكاة والتغذية الراجعة الفورية التي تدعم كل قرار يتخذه، وليس بسبب الحفظ الميكانيكي للأنماط الثابتة للعبة.

نفس الشيء ينطبق على البحث العلمي الحقيقي؛ فالمختبرات الرائدة لا تعتمد على لحظة إلهام واحدة، بل تستمر في طرح الفرضيات، وتنفيذ التجارب، ومراجعة النتائج، وتعديل الخطط، ثم المحاولة مرة أخرى.

وبالمثل، فإن تحسين الهندسة: غالبًا ما يستطيع أي شخص إنجاز النسخة الأولى، لكن الصعوبة الحقيقية تكمن في تلك الـ 1% الأخيرة من التحسن في الأداء.

إن معنى Frontier-Eng Bench هو أنه لأول مرة بدأ اختبار منهجي لقدرة الذكاء الاصطناعي على التكرار والتحسين، وخلص إلى قانونين للتطور الذكي الاصطناعي شبه قاسيين.

البحث التلقائي

△

القاعدة الأولى هي: كلما تقدّمت، أصبح التحسين أصعب.

وجدت هذه الورقة أن تردد ودرجة تحسين العامل تتبعان تناقصًا أسّيًا:

تحسين التردد ∝ 1/عدد التكرارات
مقدار التحسين ∝ 1/عدد مرات التحسين

ببساطة: كانت الدورات الأولى هي الأسرع في الارتفاع، ثم أصبحت لاحقًا أصعب وأصغر.

هذا يشبه إلى حد كبير عملية التطوير الحقيقية، حيث يمكن للنسخة الأولى من الذكاء الاصطناعي القضاء بسرعة على الكثير من "الثمار المنخفضة"، لكن كلما تقدمنا أكثر، اقتربنا من الحدود، وأصبح تحقيق أي تحسين إضافي في الأداء يتطلب جهدًا كبيرًا.

هل سيكون أكثر ربحية فتح عدة طرق بالتوازي لتجربة الأخطاء؟ الإجابة مخفية في القاعدة الثانية.

البحث التلقائي

△

القاعدة الثانية: العرض مفيد، لكن العمق أكثر ضرورة.

تشغيل عدة خطوط بالتوازي يمكن أن يتجنب التوقف، لكن عند ثبات الميزانية، فإن فتح كل سلسلة إضافية سيقلل من عمق السوق.

تتطلب العديد من الإنجازات الهندسية تراكمًا مستمرًا وتصحيحًا دائمًا لتحقيق قفزة هيكلية، ولا يمكن تحقيقها فقط من خلال "التجربة عدة مرات".

هذا يُشير فعليًا إلى اتجاه تطوير الوكلاء من الجيل التالي: ليس نماذج "تُعطي إجابة واحدة"، بل أنظمة قادرة على التكرار المستمر والتطور الذاتي من خلال التغذية الراجعة الطويلة المدى.

مُهندس الذكاء الاصطناعي، قد يأتي حقًا

المعنى العميق الحقيقي لهذا البحث يكمن في أنه رسم أولي لنظام ذكاء اصطناعي يقترب من دورة هندسية حقيقية.

البحث التلقائي

△

تخيل عندما يتم توصيل الذكاء الاصطناعي ببرمجيات الصناعة، وبيئات المحاكاة، وأنظمة CAD، وأدوات تصميم الرقائق، ومنصات الحساب العلمي...

تغير جذري في نمط الإنتاج على وشك الحدوث.

في مختبرات المستقبل، من المرجح أن تظهر مثل هذه التقسيمات الوظيفية:

يُشرف الباحثون البشر على تحديد الاتجاهات والأهداف.

على سبيل المثال، "خفض استهلاك الطاقة لهذا المكون بنسبة 30%"، "خفض استخدام GPU في التقدم الأمامي لهذا النموذج"، "تحسين استقرار التحكم في الروبوت قليلاً"، "مواصلة تقريب درجة صدق الدوائر الكمية من الحد الأقصى" إلخ.

بينما تُشرف الذكاء الاصطناعي على "التركيز على المسار"، حيث تُحسّن باستمرار بناءً على هذه الأهداف.

على سبيل المثال، تشغيل التمثيل والتجارب تلقائيًا، وقراءة ردود فعل المحقق والمحاكي تلقائيًا، ثم مواصلة التعديل والتحسين، مع التكرار المستمر على مدار 24 ساعة.

هذا المنطق التطوّري يسمح للذكاء الاصطناعي بالخروج من دور "الأداة المساعدة" والبدء في حل مشكلات الأنظمة المعقدة كما يفعل فريق هندسي حقيقي، دون كلل.

لكن المشكلة التي كشف عنها Frontier-Eng هذه هي أيضًا مباشرة جدًا:

عندما يبدأ الذكاء الاصطناعي في تعلم "التحسين على المدى الطويل"، كم يبعد عن الذكاء الهندسي الحقيقي؟

عنوان البحث: Frontier-Eng: تقييم الوكلاء الذاتيين المتطورة في مهام هندسية حقيقية باستخدام التحسين التوليدي

الصفحة الرئيسية للمشروع: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

مستودع GitHub: https://github.com/EinsiaLab/Frontier-Engineering

هذا المقال من حساب WeChat "Quantum Bit"، الكاتب: يونزهونغ