تقرير حكومي أمريكي يدّعي أن أقوى نموذج ذكاء اصطناعي صيني متأخر بمقدار 8 أشهر

CryptoScoop يُبلغ:

أصدرت وكالة حكومية أمريكية نتائج تقييم لأقوى ذكاء اصطناعي صيني: متأخر بثمانية أشهر، ومع مرور الوقت، يتسع الفرق أكثر فأكثر. بعد قراءة المستخدمين على الإنترنت منهجية التقييم، بدأوا في طرح أسئلة متنوعة.

CAISI——مركز المعايير والابتكار في الذكاء الاصطناعي، وهو قسم تابع للالمعهد الوطني الأمريكي للمعايير والتقنية (NIST) — أصدر تقرير تقييم لـ DeepSeek V4 Pro الذي تم إصداره في 1 مايو. الخلاصة: أن منتج DeepSeek المفتوح المصدر الرائد "متأخر عن التقنيات الرائدة بحوالي 8 أشهر".

كما وصفت كايساي هذا النموذج بأنه أقوى نموذج صيني للذكاء الاصطناعي تم تقييمه حتى الآن.

Rating System

لا يحسب CAISI متوسط درجات المرجعية كما تفعل معظم هيئات التقييم. على العكس، فإنه يطبق نظرية ردود العناصر (وهي طريقة إحصائية مستمدة من الاختبارات المعيارية) لتقدير القدرة الكامنة لكل نموذج من خلال تتبع المشكلات التي حَلَّها كل نموذج والتي لم يحلها في تسعة اختبارات مرجعية عبر خمسة مجالات (الأمن السيبراني، وهندسة البرمجيات، والعلوم الطبيعية، والاستدلال المجرد، والرياضيات).

وفقًا لتقييمات Elo المقدرة من قبل IRT، يحصل GPT-5.5 على 1260 نقطة، بينما يحصل Claude Opus 4.6 من Anthropic على 999 نقطة. يحصل DeepSeek V4 Pro على حوالي 800 نقطة (±28)، وهو قريب جدًا من 749 نقطة لـ GPT-5.4 mini. في نظام تقييم CAISI، يكون DeepSeek أقرب إلى إصدار GPT mini السابق، وليس إلى Opus.

نظام التقييم في الاختبار المرجعي يحاكي طريقة منح الدرجات في الامتحانات القياسية للطلاب — حيث لا تُمنح الدرجات مباشرة بناءً على النسبة المئوية للإجابات الصحيحة، بل وفقًا لوزن الأسئلة التي أجاب عنها الطالب بشكل صحيح أو خاطئ، مما يؤدي إلى تقدير الدرجة. هذا التقدير يكون ذا معنى نسبي فقط عند مقارنته مع نماذج أخرى باستخدام نفس التقييم. بشكل عام، كلما زادت الدرجة، كان النموذج أفضل، وتصبح درجة أفضل نموذج نقطة مرجعية لقياس قدرات النماذج.

بسبب عدم إفصاح اثنتين من الاختبارات التسعة، وكون الفجوة الأكثر وضوحًا في هذين الاختبارين، لا يمكن إعادة إنتاج نتائج CAISI. على سبيل المثال، حصل GPT-5.5 على درجة 71% في أحد اختبارات الأمن السيبراني لـ CAISI المسمى CTF-Archive-Diamond، بينما حصل DeepSeek على درجة حوالي 32%.

في الاختبارات المرجعية العامة، تختلف الأمور قليلاً. في اختبار GPQA-Diamond (اختبار استدلال علمي على مستوى الدكتوراه، يُقيّم حسب دقة الإجابات)، حصل DeepSeek على درجة 90٪، وهي أقل بدرجة واحدة فقط من درجة Opus 4.6 البالغة 91٪. وفي اختبارات الأولمبياد الرياضي (OTIS-AIME-2025 و PUMaC 2024 و SMT 2025)، حصل DeepSeek على درجات 97٪ و 96٪ و 96٪ على التوالي. وفي اختبار SWE-Bench Verified (المخصص لإصلاح أخطاء حقيقية على GitHub، ويُقيّم حسب معدل الحل)، حصل DeepSeek على درجة 74٪، بينما حصل GPT-5.5 على درجة 81٪. وتزعم تقارير DeepSeek التقنية نفسها أن أداء V4 Pro يعادل أداء Opus 4.6 و GPT-5.4.

لمقارنة التكاليف، استبعدت CAISI جميع النماذج الأمريكية التي كانت أداؤها أقل بكثير من DeepSeek أو كانت تكلفة كل عملة مفردة أعلى بكثير من DeepSeek. ونتيجةً لذلك، لم يبقَ سوى نموذج واحد يلبي المعايير: GPT-5.4 mini. وهذا يشمل تقريبًا جميع الخوارزميات الأكثر تقدمًا في الولايات المتحدة، ولم يبقَ سوى هذا النموذج الوحيد.

أظهر DeepSeek تكلفة أقل في 5 من أصل 7 اختبارات معيارية، حتى تفوق على أصغر نموذج ذكاء اصطناعي وأضعف ميزات لدى OpenAI.

الرأي المعارض: هل الفجوة أكبر أم أصغر؟

انتقاد منهجية CAISI لا يثبت صحة DeepSeek بالكامل. ردّ مطور الذكاء الاصطناعي الذي يستخدم اسمًا مستعارًا CAISI Ex0bit مباشرةً قائلًا: "لا توجد أيّة 'فجوة' على الإطلاق، ولا أحد متأخر بثمانية أشهر. كل مرة نُعقد فيها بيعًا مغلقًا في الولايات المتحدة، نُسخر منها، وعندما نُجري بيعًا مفتوحًا، نُسخر منها أيضًا."

أظهر تحليل الذكاء الاصطناعي للمؤشر الذكي الإصدار 4.0 (نظام تقييم يتتبع ذكاء النماذج الرائدة عبر 10 تقييمات) أنه بحلول مايو 2026، اقتربت درجة OpenAI من 60 نقطة، بينما كانت درجة DeepSeek حوالي 50 نقطة، مما يدل على تقلص الفجوة بكثير مقارنةً بالعام السابق.

وفقًا للمعايير القياسية، تشير طريقتهم إلى أن الفجوة تضيق فعليًا.

عند ظهور DeepSeek لأول مرة في يناير 2025، كانت المسألة هي ما إذا كانت الصين قد لحقت بالركب. ردت المختبرات الأمريكية بسرعة. أفاد تقرير مؤشر الذكاء الاصطناعي لعام 2026 من جامعة ستانفورد — الذي نُشر في 13 أبريل — أن الفجوة في قائمة Arena بين Claude Opus 4.6 وDola-Seed-2.0 Preview الصينية تتقلص، وهي الآن تبلغ فقط 2.7%.

CAISI تخطط لإصدار شرح أكثر شمولاً منهجية IRT في المستقبل القريب.