امریکی حکومت کی رپورٹ کے مطابق چین کا بڑا AI ماڈل 8 ماہ پیچھے ہے

CryptoNewsSite نے رپورٹ کیا:

ایک امریکی حکومتی ادارے نے چین کے طاقتور ترین آرٹیفیشل انٹیلی جنس کا جائزہ جاری کیا: آٹھ ماہ پیچھے، اور وقت کے ساتھ ساتھ یہ فرق بڑھتا جا رہا ہے۔ انٹرنیٹ صارفین نے اس جائزے کے طریقہ کار کو پڑھنے کے بعد مختلف سوالات اٹھانے شروع کر دیے۔

CAISI——人工智能标准与 انویشن سینٹر، جو امریکی قومی معیارات اور ٹیکنالوجی انسٹی ٹیوٹ (NIST) کے تحت ایک شعبہ ہے——ایک جائزہ رپورٹ جاری کی جس میں 1 مئی کو جاری کیے گئے DeepSeek V4 Pro کا جائزہ لیا گیا۔ نتیجہ یہ تھا کہ DeepSeek کا اوپن سورس فلگشپ مصنوع “آگے کی تکنیک سے تقریباً 8 ماہ پیچھے” ہے۔

CAISI نے اسے اب تک جانچے گئے سب سے طاقتور چینی AI ماڈل بھی کہا ہے۔

评分系统

CAISI، زیادہ تر جائزہ کرنے والے اداروں کی طرح بنچ مارک اسکورز کا اوسط نہیں نکالتا۔ اس کے بجائے، یہ معیاری ٹیسٹنگ سے لی گئی ایک احصائی طریقہ کار، جسے آئٹم ری ایکشن تھیوری کہا جاتا ہے، استعمال کرتا ہے تاکہ ہر ماڈل کی بالقوہ صلاحیت کا اندازہ لگائے، جس میں ہر ماڈل کو پانچ شعبوں (سائبر سیکورٹی، سافٹ ویئر انجینئرنگ، قدرتی علوم، تجریدی استدلال اور ریاضی) میں نو بنچ مارک ٹیسٹس میں کون سے سوالات حل کیے اور کون سے نہیں حل کیے، اس کا جائزہ لیا جاتا ہے۔

IRT کے اندازے کے مطابق، GPT-5.5 کا ایلو اسکور 1260 ہے، جبکہ Anthropic کا Claude Opus 4.6 کا اسکور 999 ہے۔ DeepSeek V4 Pro کا اسکور تقریباً 800 (±28) ہے، جو GPT-5.4 mini کے 749 کے بہت قریب ہے۔ CAISI کے اسکورنگ سسٹم میں، DeepSeek Opus کے بجائے پچھلی نسل کے GPT mini کے قریب ہے۔

بینچ مارک میں اسکورنگ سسٹم، طلبہ کو معیاری امتحانات کی طرح اسکور دیتا ہے — صرف صحیح جوابات کی فیصد کے مطابق نہیں، بلکہ طلبہ کے درست اور غلط جوابات کے وزن کے مطابق اسکور دیتا ہے تاکہ اسکور کا اندازہ لگایا جا سکے۔ یہ اسکور کا اندازہ صرف دوسرے ماڈلز کے ساتھ ایک ہی تقویم کے دوران ہی نسبی معنی رکھتا ہے۔ عام طور پر، جتنا زیادہ اسکور ہوگا، ماڈل اتنا بہتر ہوگا، اور بہترین ماڈل کا اسکور ماڈل کی صلاحیت کا معیار بن جائے گا۔

چونکہ نو بنچ مارکس میں سے دو غیر شائع ہیں اور ان دو میں فرق سب سے زیادہ واضح ہے، اس لیے CAISI کے نتائج کو دوبارہ نہیں کیا جا سکتا۔ مثال کے طور پر، GPT-5.5 نے CAISI کے سائبر سیکیورٹی ٹیسٹ میں سے ایک، CTF-Archive-Diamond پر 71% نمبر حاصل کیے، جبکہ DeepSeek کا اسکور صرف تقریباً 32% تھا۔

عوامی بینچ مارکس میں صورتحال مختلف ہے۔ GPQA-Diamond ٹیسٹ (ڈاکٹری سطح کا سائنسی استدلال ٹیسٹ، جسے درستی کے تناسب سے نصاب دیا جاتا ہے) میں، DeepSeek کا اسکور 90% ہے، جو Opus 4.6 کے 91% سے صرف ایک فیصد کم ہے۔ ریاضی کے المپیڈ بینچ مارکس (OTIS-AIME-2025، PUMaC 2024 اور SMT 2025) میں، DeepSeek کے اسکور 97%، 96% اور 96% تھے۔ SWE-Bench Verified ٹیسٹ (جس میں GitHub پر موجود حقیقی بگ فکسز کو حل کرنے کی شرح کے تناسب سے نصاب دیا جاتا ہے) میں، DeepSeek کا اسکور 74% تھا، جبکہ GPT-5.5 کا اسکور 81% تھا۔ DeepSeek کی اپنی ٹیکنیکل رپورٹ میں دعویٰ کیا گیا ہے کہ V4 Pro کی کارکردگی Opus 4.6 اور GPT-5.4 کے برابر ہے۔

لاگت کی تقابل کے لیے، CAISI نے تمام ایسے امریکی ماڈلز کو خارج کر دیا جن کی کارکردگی DeepSeek سے واضح طور پر کم تھی یا جن کی ایک ٹوکن کی لاگت DeepSeek سے کافی زیادہ تھی۔ آخرکار صرف ایک ہی ماڈل معیار پر پورا اترتا ہے: GPT-5.4 mini۔ یہ تقریباً تمام امریکی سب سے جدید الگورتھمز کو شامل کرتا ہے، جن میں سے صرف یہی ایک باقی رہا۔

ڈیپسیک نے 7 بنچ مارکس میں سے 5 میں زیادہ سستا اور یہاں تک کہ OpenAI کے سب سے چھوٹے اور کم طاقت والے AI ماڈل کو بھی شکست دی۔

اعتراض: فرق زیادہ ہے یا کم؟

CAISI کے طریقہ کار کی تنقید DeepSeek کی درستگی کو مکمل طور پر ثابت نہیں کرتی۔ اس نام کے پیچھے کے AI ڈویلپر Ex0bit نے براہ راست جواب دیا: "کوئی 'فروق' موجود نہیں ہے، اور کوئی 8 ماہ پیچھے نہیں ہے۔ ہر بار جب امریکہ میں بند معاہدہ ہوتا ہے، تو ہمیں مزاح بنایا جاتا ہے، اور جب ہم علیحدہ فروخت کرتے ہیں، تو ہمیں ہنسا جاتا ہے۔"

人工智能 تجزیہ اسمارٹ انڈیکس v4.0 (جو 10 جائزہ کے ذریعے اگلے سطح کے ماڈلز کی ذہانت کا جائزہ لیتا ہے) کے مطابق، مئی 2026 تک، OpenAI کا اسکور تقریباً 60 کے قریب ہے، جبکہ DeepSeek کا اسکور تقریباً 50 ہے، جو ایک سال پہلے کے مقابلے میں کافی کم ہو گیا ہے۔

معیاری بنیادوں کے مطابق، ان کا طریقہ یہ ظاہر کرتا ہے کہ فرق واقعی کم ہو رہا ہے۔

دیپسیک کا پہلا ظہور جنوری 2025 میں، سوال یہ تھا کہ کیا چین پہلے ہی پہنچ چکا ہے۔امریکی لیبز نے فوری رد عمل ظاہر کیا۔ اسٹنفورڈ یونیورسٹی کا2026 کا آرٹیفیشل انٹیلی جنس انڈیکس — 13 اپریل کو جاری — میں رپورٹ کیا گیا کہ کلوڈ آپس 4.6 اور چین کے Dola-Seed-2.0 Preview کے درمیان ایرینا رینکنگ میں فرق کم ہو رہا ہے، جو اب صرف 2.7% کا ہے۔

CAISI جلد ہی IRT طریقہ کار کی مکمل تفصیل جاری کرے گا۔