طريقة جديدة تُقدّر GPT-5.5 بـ 9.7 تريليون، وGrok-4 بـ 3.2 تريليون

رسالة AIMPACT، 30 أبريل (UTC+8)، وفقًا لمراقبة Beating، نشر لي بوجيه، العالم الرئيسي في Pine AI، ورقة بحثية بعنوان "مستكشف المعرفة غير القابلة للضغط: تقدير عدد المعلمات في نماذج اللغة الكبيرة ذات الصندوق الأسود بناءً على سعة الحقائق"، واستخدم 1400 سؤال معرفي نادر لاستنتاج عدد المعلمات في النماذج المغلقة المصدر. حيث يتطلب حفظ حقيقة واحدة مساحة من المعلمات، وكلما زاد عدد الحقائق النادرة التي يجيب عليها النموذج بشكل صحيح، كان من المستحيل أن يكون عدد المعلمات صغيرًا. أولاً، استخدم 89 نموذجًا مفتوح المصدر مع عدد معلمات معروف لرسم منحنى تطابق عالي الدقة، ثم أدخل درجات الإجابات للنماذج المغلقة المصدر لقراءة عدد المعلمات المقابل. اختبرت الورقة 92 نموذجًا مغلقًا المصدر، والأرقام ليست قيماً دقيقة؛ فمثلاً، نموذج مقدر بـ 9.7 تريليون قد يكون في الواقع بين 3 تريليون و 29 تريليون، لكن الترتيب النسبي والمستوى لا يزالان ذا قيمة مرجعية: GPT-5.5 حوالي 9.7 تريليون، متقدمًا بفارق كبير في المركز الأول، وهو تقريبًا ضعف ثاني أقوى نموذج Claude Opus 4.6 (حوالي 5.3 تريليون). في الفئة الثانية، تتجمع النماذج بين 3 و 4 تريليون: GPT-5 حوالي 4.1 تريليون، Claude Opus 4.7 حوالي 4.0 تريليون، o1 حوالي 3.5 تريليون، Grok-4 حوالي 3.2 تريليون، o3 حوالي 3.0 تريليون. تتصدر شركات OpenAI وAnthropic وxAI الفئة العليا بفارق لا يتجاوز 1.4 مرة. في الفئة الثالثة، النماذج المتوسطة بين 1 و 2 تريليون: GPT-4.1 حوالي 2.2 تريليون، Claude Sonnet 4.6 حوالي 1.7 تريليون، Gemini 2.5 Pro حوالي 1.2 تريليون. النماذج الصغيرة في القاع تتراوح من GPT-4o حوالي 720 مليار حتى Claude Haiku 4.5 حوالي 65 مليار. يُقدّر النموذج الأساسي GPT-5 بحوالي 4.1 تريليون، لكن إصدارات .x اللاحقة (من 5.1 إلى 5.4) انخفضت سعتها لتخزين الحقائق إلى 1.0 إلى 1.5 تريليون، حتى قفز GPT-5.5 إلى حوالي 9.7 تريليون ليحقق اختراقًا حقيقيًا. احتوت الورقة أيضًا على طريقة فحص ذكية: مقارنة ما إذا كان نموذجان يرتكبان نفس الأخطاء في الأسئلة النادرة. كل تحديث .x في GPT-5 ارتكب أخطاء مختلفة (درجة التشابه أقل من 0.08 دائمًا)، مما يدل على أن كل إصدار تم تدريبه من الصفر، وليس من خلال ضبط الأوزان الحالية. ارتفع عدد معلمات Claude Opus من 1.4 تريليون في الجيل الرابع إلى 4.0 تريليون في الجيل 4.7، لكنه لم يكن نتيجة ضبط مستمر: الأخطاء بين الإصدارين 4 و4.1 كانت متطابقة تقريبًا، مما يؤكد أنهما نفس القاعدة الأساسية مع ضبط؛ بينما الأخطاء بين الإصدارين 4.6 و4.7 لم تتداخل إطلاقًا (درجة التشابه انخفضت إلى صفر)، مما يعني أن أحدث نموذج رائد هو أيضًا نتيجة إعادة التدريب. في نماذج MoE (الخبراء المختلطين)، فقط إجمالي عدد المعلمات وليس عدد المعلمات المُفعّلة أثناء الاستدلال يمكنه التنبؤ بسعة المعرفة. اكتشفت الورقة أيضًا أن النماذج ذات الحجم نفسه، سواء كانت حديثة أو من سنتين مضت، تحتفظ بنفس كمية المعرفة النادرة؛ فبينما يمكن تحسين القدرة الاستدلالية باستمرار، لا يمكن تقليل تخزين الحقائق. تم فتح أدوات التقييم والبيانات الكاملة للجمهور. (المصدر: BlockBeats)