الذكاء الفائق التكراري يكشف عن أول نظام بحثي ذكي آلي

في الأيام القليلة الماضية، نشرت Anthropic مقالًا بعنوان "When AI Builds Itself" أثار جدلًا واسعًا. وكشف المقال عن مجموعة من البيانات الداخلية المذهلة: حتى مايو 2026، كتب Claude أكثر من 80% من الكود في قاعدة كود Anthropic، وكمية الكود التي يدمجها المهندسون يوميًا تزيد عن 8 أضعاف ما كانت عليه في عام 2024؛ وفي اختبار داخلي، قام Claude بتحسين سرعة تشغيل كود تدريبي بنسبة حوالي 52 مرة مقارنة بالقيمة المرجعية، بينما يحتاج باحث بشري ذو خبرة عادةً من 4 إلى 8 ساعات لتحقيق تسريع بقيمة 4 مرات.

تُشير Anthropic هذه المسار إلى وجهة أعمق: "التحسين الذاتي التكراري" — حيث تقوم أنظمة الذكاء الاصطناعي بتصميم وبناء وتدريب إصداراتها التالية بشكل مستقل، دون أن يقود البشر كل خطوة. ويُجدر بالذكر أن الشركة دعت أيضًا إلى تنسيق صناعي، ليكون هناك خيار تأجيل أو إيقاف مؤقت لتطوير الذكاء الاصطناعي المتقدم عند وصول لحظة التحسين الذاتي التكراري. كما أن Anthropic تقوم بالفعل بذلك: فهي تقيّد استخدام أحدث نسخة من Claude Fable 5 في تطوير الذكاء الاصطناعي المتقدم.

والآن، أعلنت Recursive Superintelligence عن اتخاذ خطوتها الأولى نحو البحث الآلي بالذكاء الاصطناعي.

الشركة الجديدة التي أسسها تيان يوان دونغ بالمشاركة، والتي خرجت للتو من حالة التخفي بعد شهر واحد فقط، أطلقت الآن أول إنجاز تقني علني لها. لقد طوروا نظامًا مفتوحًا لاكتشاف المعرفة التلقائي، وحققوا نتائج SOTA على ثلاثة اختبارات مرجعية. باختصار، نجحوا في تمكين الذكاء الاصطناعي من إجراء التجارب نيابةً عنك.

https://x.com/tydsh/status/2065062838255649082

الإنجاز الأول: اجعل الذكاء الاصطناعي يجري التجارب نيابةً عنك

Recursive هذه أول إنجاز تقني عام يُسمى "First Steps Toward Automated AI Research".

تويتر: https://x.com/Recursive_SI/status/2064980090702962699
عنوان المستودع: https://github.com/recursive-org/first-steps-toward-automated-ai-research
عنوان المدونة: https://www.recursive.com/articles/first-steps-toward-automated-ai-research

باختصار، يكمن جوهر هذا العمل في بناء نظام قادر على دفع دورة بحث الذكاء الاصطناعي ذاتيًا، وتحقيق أفضل النتائج على ثلاثة اختبارات مرجعية.

قبل تفكيك النتائج الرسمية، من الضروري أولاً فهم منطق تصميم هذا النظام.

إن عملية البحث التقليدية في الذكاء الاصطناعي هي حلقة مغلقة تعتمد بشكل كبير على الإنسان: "اقتراح فكرة — كتابة كود — تشغيل تجربة — تحليل النتائج — اقتراح فكرة جديدة". إن عقبة الكفاءة ليست في قوة الحوسبة، بل في الإنسان. فعدد الباحثين القادرين على تصميم عمليات تدريب متقدمة في جميع أنحاء العالم قليل جدًا، وكل دورة تكرار تجريبية تتطلب تدخلًا مكثفًا منهم.

يحاول نظام Recursive أتمتة هذه الدورة المغلقة.

كيف يعمل: بناءً على هدف تحسين محدد، يقوم النظام تلقائيًا باقتراح أفكار تجارب، وتنفيذ الكود، وتشغيل التحقق، والتعلم من النتائج، ثم تحديد الخطوة التالية في البحث. يمكن المضي قدمًا في عدة خطوط بحثية بالتوازي، ويمكن إعادة استخدام الاكتشافات الفعالة عبر المهام المختلفة، كما تم تضمين آلية كشف التلاعب بالمكافآت (reward hacking) داخل الدورة بأكملها لمنع النظام من "أخذ طرق مختصرة" لرفع مؤشرات التقييم دون تحسين حقيقي لأي شيء.

هذا ليس أداة مخصصة لضبط مشكلة واحدة، بل هو إطار عمل عام لأتمتة البحث عبر مجالات متعددة. يستخدم Recursive ثلاث سيناريوهات اختبار مختلفة بشكل ملحوظ لإثبات ذلك.

ثلاثة ساحات، ثلاثة أرقام قياسية جديدة

السيناريو الأول: تدريب نموذج صغير ضمن ميزانية ثابتة (NanoChat Autoresearch)

قواعد هذه المهمة المرجعية مستمدة من مشروع autoresearch الذي أطلقه أندريه كارباتي (مؤلف GPT-2 والمؤسس المشارك السابق لـ OpenAI): على وحدة معالجة رسومات واحدة، وبميزانية تدريب ثابتة قدرها خمس دقائق، قم بتدريب نموذج لغوي صغير لتحقيق أقل خسارة تحقق ممكنة (مقاسة بـ BPB، وكلما كان أقل كان أفضل).

هذا السيناريو مثالي طبيعيًا للبحث الآلي: دورات التجربة قصيرة، وتباين المؤشرات منخفض، وسهل نسبيًا اكتشاف السلوكيات غير المشروعة. ولهذا السبب، يعمل مشروع مجتمعي يُسمى "autoresearch@home" على هذا المعيار منذ فترة طويلة — حيث يعمل عشرات الباحثين البشريين ومئات الوكلاء الذكاء الاصطناعي معًا باستمرار على خفض المؤشرات.

بدأ نظام Recursive بنفس الكود الأولي، ورفع دقة التحقق من BPB من أفضل قيمة في المجتمع وهي 0.9372 إلى 0.9109، مما أدى إلى تحسين قدره 0.0263 BPB. وبصيغة أخرى: بجودة تدريب مماثلة، يحتاج حل Recursive إلى وقت تدريب أقل بـ 1.3 مرة مقارنة بالمنافسين.

التحسينات التي اكتشفها النظام ليست حلاً سحريًا واحدًا. فهي تجمع بين تعديلات في البنية، وخسائر مساعدة، وتعديلات في آلية الانتباه، وسلوك المُحسِّن، وجدولة تدهور الأوزان، وإعدادات المُجمِّع، وغيرها من التغييرات. وأهم اكتشاف بينها هو آلية ذاكرة سياقية قصيرة أغنى: حيث يتم تضمين معلومات الـ bigram (أزواج الكلمات المتجاورة) والـ trigram (المجموعات الثلاثية) في مسار قيمة الانتباه عبر جدول تجزئة، مع مزجها باستخدام وزن قابل للتعلم ومُحكَم. وتستخدم طبقات Transformer المختلفة وظائف تجزئة مختلفة، مما يقلل من احتمال التصادم المتكرر عبر الطبقات.

يرتبط هذا الأسلوب مفاهيميًا بأعمال مثل DeepSeek Engram، لكن النظام طبّقه في سيناريوهات ميزانية ثابتة بأسلوب محدد لم يُنشر من قبل في الأدبيات العامة.

السيناريو الثاني: سباق سرعة التدريب (NanoGPT Speedrun)

إذا كان المشهد السابق يمثل خطوة إضافية على أساس مجتمع نشط، فإن هذا المشهد أصعب بكثير.

NanoGPT Speedrun هو معيار آخر أطلقه كارباتي وتم تحسينه من قبل المجتمع لأكثر من عامين: أقصر وقت مطلوب لتدريب نموذج GPT حتى الوصول إلى خسارة التحقق 3.28 باستخدام 8 وحدات H100 GPU. منذ منتصف عام 2024، نجح المجتمع في تقليل الوقت من حوالي 45 دقيقة إلى 79.7 ثانية من خلال 83 مساهمة مسجلة. يتطلب كل حل جديد استخلاص وقت إضافي من كود مُحسّن بشكل شديد، مما يجعل التحدي هائلاً.

استخدم نظام Recursive الحل الأمثل الحالي كنقطة انطلاق، وقام بضغط وقت التدريب مرة أخرى إلى 77.5 ثانية، مما وفر 2.2 ثانية. وهذا يعادل أو يفوق مستوى التحسينات التي يمكن للمساهمين البشريين تحقيقها مؤخرًا.

تشمل التقنيات الأساسية التي وجدتها النظام هذا الوقت:

حساب الانتباه بدقة FP8. تستخدم الحلول المجتمعية FP8 (العائمة بـ 8 بت) فقط في الطبقة الأخيرة للنموذج (رأس نموذج اللغة)، بينما يمتد النظام باستخدام FP8 إلى عمليات المصفوفة في طبقات الانتباه، حيث يستخدم التقدم الأمامي FP8 للحصول على ضعف إنتاجية Tensor Core، ويحتفظ التقدم الخلفي بـ BF16 للحفاظ على الاستقرار.

ضجيج الاستكشاف بالتبريد في المُحسِّن. يُحقن النظام ضجيجًا غاوسيًا ذا متوسط صفر في خطوات التحديث لمُحسِّن NorMuon، وتنخفض سعة الضجيج خطيًا إلى الصفر مع تقدم التدريب. هذا يشبه إعطاء المُحسِّن نمط سلوك "استكشاف جريء أولًا، ثم تقارب ثابت"، مما يساعد على وصول الحل النهائي إلى بحيرة خسارة أكثر انتظامًا.

نواة MLP مدمجة أكثر إيجازًا. أعاد النظام كتابة نواة Triton GPU لتخزين激活ات مربع ReLU فقط أثناء التقدم الأمامي، وإعادة حساب النتائج الوسيطة غير المربعة داخل النواة أثناء التراجع، مما يلغي الحاجة إلى قراءة وكتابة كاملة لمصفوفة التنشيط في ذاكرة GPU عالية النطاق الترددي — وهي زيادة مباشرة على مستوى الأجهزة.

ثلاثة تحسينات، تعود إلى ثلاثة مجالات متخصصة مختلفة: استراتيجية الدقة، تصميم المُحسّن، وبرمجة نواة GPU. أن النظام وجد مساحة للتحسين إضافية على أساس نتائج التحسين المجتمعي على مدار سنتين، فهذا يُظهر المشكلة بذاتها.

السيناريو الثالث: تحسين نواة GPU (SOL-ExecBench)

يعمل السيناريوان الأولان على مستوى تدريب النموذج، بينما يعمق السيناريو الثالث في المستوى الأدنى: تحسين نوى حسابات GPU.

SOL-ExecBench هو اختبار معياري أصدرته NVIDIA، ويتضمن 235 مهمة مكتوبة بKernel، وتغطي مجموعة متنوعة من أحمال العمل الحقيقية مثل ضرب المصفوفات، والاختزال، وطبقات التطبيع، ومكونات الانتباه، وإجراءات التكميم، والكتل المدمجة. يتم تقييم الأداء باستخدام درجة SOL: 0.5 تتوافق مع التنفيذ المرجعي لـ PyTorch، و1.0 تتوافق مع الحد النظري للعتاد. كانت أفضل نتيجة عامة سابقة هي 0.699.

يعمل نظام Recursive على 235 نواة بشكل شامل، مما يسمح بإعادة استخدام أنماط التحسين المكتشفة عبر المهام (مثل استراتيجيات نقل الذاكرة، وطرق التجزئة، وتقنيات التقليل)، وارتفع النقاط النهائية إلى 0.754، مما قلل الفجوة بين الأداء والحد الأقصى للعتاد بنسبة 18%.

هذا السيناريو ذو أهمية خاصة لأن هندسة النواة مجال متخصص للغاية — المهندسون القادرون على كتابة نوى Triton/CUDA فعالة هم نادرون عالميًا. واعترف فريق Recursive في مدونته أنهم ليسوا خبراء في مجال النوى بأنفسهم: "هذه الأفكار مستمدة من النظام نفسه، وليس من خلفيتنا المهنية."

Recursive: استخدام الذكاء الاصطناعي لدراسة التكرار لتحسين الذكاء الاصطناعي

الشركة التي نشرت هذا الإنجاز، Recursive Superintelligence، تأسست في أواخر عام 2025 أو أوائل عام 2026، وانتهت للتو من فترة السرية الشهر الماضي، ويشمل أعضاؤها المؤسسون مدير الأبحاث السابق في Meta FAIR، تيان يوان دونغ، بالإضافة إلى:

ريتشارد سوشر، الرئيس التنفيذي لشركة Recursive، العالم الرئيسي السابق في Salesforce

أليكساي دوسوفيتسيكي، عالم أبحاث سابق في Google DeepMind ومؤلف Vision Transformer الأول، مع أكثر من 160,000 اقتباس على Google Scholar

تيم روكتاشيل، العالم الرئيسي السابق في DeepMind وأستاذ الذكاء الاصطناعي في UCL

بيتر نورفيغ، المدير السابق للبحث في جوجل، قام بتأليف كتاب "الذكاء الاصطناعي: أسلوب حديث" مع ستوارت راسل، وهو كتاب مشهور في مجال الذكاء الاصطناعي.

كايمينغ شيونغ، نائب رئيس الذكاء الاصطناعي السابق في Salesforce

تيم شي، باحث سابق في OpenAI، والمؤسس المشارك ورئيس التكنولوجيا في شركة الذكاء الاصطناعي Cresta

جوش توبين، الرئيس التنفيذي للتقنية في Recursive، المدير السابق للأبحاث في OpenAI وUber ATG

جيف كلاون، نائب رئيس الأبحاث السابق في Google DeepMind، وأستاذ علوم الحاسوب بجامعة كولومبيا البريطانية في كندا

ومنذ ظهور الشركة الناشئة، حتى قبل إطلاق منتج عام، جمعت تمويلًا بقيمة 6.5 مليار دولار أمريكي، بقيمة تقييم تصل إلى 46.5 مليار دولار أمريكي، بقيادة GV (استثمار جوجل) وGreycroft، مع مشاركة NVIDIA وAMD Ventures.

المبدأ الأساسي للشركة يتوافق مباشرة مع اسمه: بناء أنظمة ذكاء اصطناعي قادرة على تعزيز قدراتها البحثية بشكل تكراري، بحيث يشارك الذكاء الاصطناعي في تسريع عملية تطوير الذكاء الاصطناعي نفسه، ليشكل في النهاية حلقة مغلقة مستمرة للتعزيز الذاتي.

لمزيد من التفاصيل، راجع التقرير "بعد مغادرة ميتا، أعلنت تيان يواندونغ للتو عن بدء مشروعه الخاص".

بالطبع، على مستوى المسار، لا تُعد Recursive وحدها. فقد أكملت مختبرات AMI التابعة ليان لِكُن تمويلًا بقيمة 1 مليار دولار في مارس من هذا العام، وحصلت شركة Ineffable Intelligence التابعة لديفيد سيلفر على جولة بذور بقيمة 1.1 مليار دولار في أبريل، وكلتاهما تشيران إلى اتجاه مشابه: تمكين أنظمة الذكاء الاصطناعي من توليد المعرفة بشكل ذاتي، وتقليل تدخل البشر في عمليات البحث. لكن من حيث وتيرة الإنجازات العامة، فإن هذه "الخطوة الأولى" من Recursive تعد واحدة من أكثر العروض التقنية وضوحًا وقابلية للتكرار بين الشركات المماثلة حتى الآن.

فجر النمط التكراري

تمثل النتيجة التي نشرها Recursive، في السياق الأوسع للصناعة، تطبيقًا أوليًا لنمط جديد من البحث الذكي الاصطناعي: جعل النظام الذكي الاصطناعي نفسه يتحمل دورًا رئيسيًا في البحث.

المنطق الأساسي لهذا النوع من "الذكاء الاصطناعي التكراري" ليس معقدًا: الذكاء الاصطناعي يعزز قدرات البحث في الذكاء الاصطناعي، والذكاء الاصطناعي المحسن يمكنه تحسين نفسه بشكل أكثر فعالية، وهكذا دواليك. إنه لا يعتمد على اختراق واحد فقط، بل يعتمد على نظام يولد اختراقات بشكل مستمر.

هذه الفكرة لها أهمية اقتصادية كبيرة لأبحاث الذكاء الاصطناعي نفسها. لا تزال عمليات تدريب النماذج الرائدة تعتمد بشكل كبير على عدد قليل من الباحثين ذوي المهارات الخاصة، ولا يتجاوز عدد الأشخاص القادرين على أداء هذا العمل عالميًا عدة آلاف. إذا تمكّن نظام البحث الآلي من تولي حتى جزء صغير من هذا العمل، فسيتغير مسار تقدم الذكاء الاصطناعي وانحناءة التكلفة.

يتوافق هذا التقييم مع أصوات أخرى أُطلقت مؤخرًا في الصناعة. على سبيل المثال، يحمل مقال "When AI Builds Itself" الذي ذُكر في بداية هذا المقال نبرة غير مريحة — فهو يدعو إلى تنسيق الصناعة، ليكون لديها خيار تأجيل أو إيقاف مؤقت لتطوير الذكاء الاصطناعي المتقدم عند وصول لحظة التحسين الذاتي التكراري، وذلك لإعطاء الوقت الكافي للبنية الاجتماعية وأبحاث التوافق لمواكبة الوتيرة. لمزيد من التفاصيل، راجع المقال: "AI Self-Evolution Too Fast, Anthropic Calls for Global Halt in Development".

https://www.anthropic.com/institute/recursive-self-improvement

حدث شيئان في نفس الوقت، وهو أمر مثير للاهتمام. من ناحية، تُسجل وتنذر Anthropic باتجاه هذا المسار، ومن ناحية أخرى، تعمل فرق مثل Recursive خطوة بخطوة لتحويل هذا المسار إلى واقع.

بالطبع، يعترف Recursive بنفسه أن هذا ما زال "الخطوة الأولى": فالنظام الحالي يعمل بأفضل شكل في السيناريوهات التي تكون فيها المؤشرات واضحة، والردود سريعة، والغش قابل للكشف، ولا يزال هناك فرق كبير عن القدرة على دفع مسائل علمية مفتوحة بشكل مستقل. ستظل منع الغش للحصول على المكافآت التحدي الأساسي الذي سيواجهه النظام على طريق التوسع.

لكن دورة مغلقة قد بدأت بالدوران. السؤال التالي هو مدى سرعة دورانها.

هذا المقال من حساب WeChat "Machine Heart" (ID: almosthuman2014)، الكاتب: Machine Heart في التطور التكراري، المحرر: Panda