امریکی حکومت کی رپورٹ کے مطابق چین کا بڑا AI ماڈل 8 ماہ پیچھے ہے

icon币界网
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ایک امریکی حکومتی رپورٹ، جو NIST کے تحت AI معیارات اور نوآوری کے مرکز (CAISI) سے جاری کی گئی ہے، کا دعویٰ ہے کہ چین کا بہترین AI ماڈل، DeepSeek V4 Pro، عالمی لیڈرز سے تقریباً آٹھ ماہ پیچھے ہے۔ رپورٹ نے نو بینچ مارکس پر کارکردگی کا جائزہ لینے کے لیے آئٹم ریسپانس تھیوری کا استعمال کیا۔ DeepSeek V4 Pro نے تقریباً 800 اسکور حاصل کیا، جو GPT-5.4 mini کے قریب ہے لیکن GPT-5.5 اور Claude Opus 4.6 سے کم۔ تنقید کرنے والوں کا کہنا ہے کہ طریقہ کار ناقص ہے اور فرق بڑھایا گیا ہے۔ کچھ بینچ مارکس خفیہ رکھے گئے ہیں، جس سے تصدیق مشکل ہو جاتی ہے۔ اس کے درمیان، CFT کے احکامات عالمی سطح پر مائعیت اور کرپٹو مارکیٹس پر متواصل اثرات ڈال رہے ہیں۔
CryptoNewsSite نے رپورٹ کیا:

ایک امریکی حکومتی ادارے نے چین کے طاقتور ترین آرٹیفیشل انٹیلی جنس کا جائزہ جاری کیا: آٹھ ماہ پیچھے، اور وقت کے ساتھ ساتھ یہ فرق بڑھتا جا رہا ہے۔ انٹرنیٹ صارفین نے اس جائزے کے طریقہ کار کو پڑھنے کے بعد مختلف سوالات اٹھانے شروع کر دیے۔

CAISI——人工智能标准与 انویشن سینٹر، جو امریکی قومی معیارات اور ٹیکنالوجی انسٹی ٹیوٹ (NIST) کے تحت ایک شعبہ ہے——ایک جائزہ رپورٹ جاری کی جس میں 1 مئی کو جاری کیے گئے DeepSeek V4 Pro کا جائزہ لیا گیا۔ نتیجہ یہ تھا کہ DeepSeek کا اوپن سورس فلگشپ مصنوع “آگے کی تکنیک سے تقریباً 8 ماہ پیچھے” ہے۔

CAISI نے اسے اب تک جانچے گئے سب سے طاقتور چینی AI ماڈل بھی کہا ہے۔

评分系统

CAISI، زیادہ تر جائزہ کرنے والے اداروں کی طرح بنچ مارک اسکورز کا اوسط نہیں نکالتا۔ اس کے بجائے، یہ معیاری ٹیسٹنگ سے لی گئی ایک احصائی طریقہ کار، جسے آئٹم ری ایکشن تھیوری کہا جاتا ہے، استعمال کرتا ہے تاکہ ہر ماڈل کی بالقوہ صلاحیت کا اندازہ لگائے، جس میں ہر ماڈل کو پانچ شعبوں (سائبر سیکورٹی، سافٹ ویئر انجینئرنگ، قدرتی علوم، تجریدی استدلال اور ریاضی) میں نو بنچ مارک ٹیسٹس میں کون سے سوالات حل کیے اور کون سے نہیں حل کیے، اس کا جائزہ لیا جاتا ہے۔

IRT کے اندازے کے مطابق، GPT-5.5 کا ایلو اسکور 1260 ہے، جبکہ Anthropic کا Claude Opus 4.6 کا اسکور 999 ہے۔ DeepSeek V4 Pro کا اسکور تقریباً 800 (±28) ہے، جو GPT-5.4 mini کے 749 کے بہت قریب ہے۔ CAISI کے اسکورنگ سسٹم میں، DeepSeek Opus کے بجائے پچھلی نسل کے GPT mini کے قریب ہے۔

بینچ مارک میں اسکورنگ سسٹم، طلبہ کو معیاری امتحانات کی طرح اسکور دیتا ہے — صرف صحیح جوابات کی فیصد کے مطابق نہیں، بلکہ طلبہ کے درست اور غلط جوابات کے وزن کے مطابق اسکور دیتا ہے تاکہ اسکور کا اندازہ لگایا جا سکے۔ یہ اسکور کا اندازہ صرف دوسرے ماڈلز کے ساتھ ایک ہی تقویم کے دوران ہی نسبی معنی رکھتا ہے۔ عام طور پر، جتنا زیادہ اسکور ہوگا، ماڈل اتنا بہتر ہوگا، اور بہترین ماڈل کا اسکور ماڈل کی صلاحیت کا معیار بن جائے گا۔

چونکہ نو بنچ مارکس میں سے دو غیر شائع ہیں اور ان دو میں فرق سب سے زیادہ واضح ہے، اس لیے CAISI کے نتائج کو دوبارہ نہیں کیا جا سکتا۔ مثال کے طور پر، GPT-5.5 نے CAISI کے سائبر سیکیورٹی ٹیسٹ میں سے ایک، CTF-Archive-Diamond پر 71% نمبر حاصل کیے، جبکہ DeepSeek کا اسکور صرف تقریباً 32% تھا۔

عوامی بینچ مارکس میں صورتحال مختلف ہے۔ GPQA-Diamond ٹیسٹ (ڈاکٹری سطح کا سائنسی استدلال ٹیسٹ، جسے درستی کے تناسب سے نصاب دیا جاتا ہے) میں، DeepSeek کا اسکور 90% ہے، جو Opus 4.6 کے 91% سے صرف ایک فیصد کم ہے۔ ریاضی کے المپیڈ بینچ مارکس (OTIS-AIME-2025، PUMaC 2024 اور SMT 2025) میں، DeepSeek کے اسکور 97%، 96% اور 96% تھے۔ SWE-Bench Verified ٹیسٹ (جس میں GitHub پر موجود حقیقی بگ فکسز کو حل کرنے کی شرح کے تناسب سے نصاب دیا جاتا ہے) میں، DeepSeek کا اسکور 74% تھا، جبکہ GPT-5.5 کا اسکور 81% تھا۔ DeepSeek کی اپنی ٹیکنیکل رپورٹ میں دعویٰ کیا گیا ہے کہ V4 Pro کی کارکردگی Opus 4.6 اور GPT-5.4 کے برابر ہے۔

لاگت کی تقابل کے لیے، CAISI نے تمام ایسے امریکی ماڈلز کو خارج کر دیا جن کی کارکردگی DeepSeek سے واضح طور پر کم تھی یا جن کی ایک ٹوکن کی لاگت DeepSeek سے کافی زیادہ تھی۔ آخرکار صرف ایک ہی ماڈل معیار پر پورا اترتا ہے: GPT-5.4 mini۔ یہ تقریباً تمام امریکی سب سے جدید الگورتھمز کو شامل کرتا ہے، جن میں سے صرف یہی ایک باقی رہا۔

ڈیپسیک نے 7 بنچ مارکس میں سے 5 میں زیادہ سستا اور یہاں تک کہ OpenAI کے سب سے چھوٹے اور کم طاقت والے AI ماڈل کو بھی شکست دی۔

اعتراض: فرق زیادہ ہے یا کم؟

CAISI کے طریقہ کار کی تنقید DeepSeek کی درستگی کو مکمل طور پر ثابت نہیں کرتی۔ اس نام کے پیچھے کے AI ڈویلپر Ex0bit نے براہ راست جواب دیا: "کوئی 'فروق' موجود نہیں ہے، اور کوئی 8 ماہ پیچھے نہیں ہے۔ ہر بار جب امریکہ میں بند معاہدہ ہوتا ہے، تو ہمیں مزاح بنایا جاتا ہے، اور جب ہم علیحدہ فروخت کرتے ہیں، تو ہمیں ہنسا جاتا ہے۔"

人工智能 تجزیہ اسمارٹ انڈیکس v4.0 (جو 10 جائزہ کے ذریعے اگلے سطح کے ماڈلز کی ذہانت کا جائزہ لیتا ہے) کے مطابق، مئی 2026 تک، OpenAI کا اسکور تقریباً 60 کے قریب ہے، جبکہ DeepSeek کا اسکور تقریباً 50 ہے، جو ایک سال پہلے کے مقابلے میں کافی کم ہو گیا ہے۔

معیاری بنیادوں کے مطابق، ان کا طریقہ یہ ظاہر کرتا ہے کہ فرق واقعی کم ہو رہا ہے۔


دیپسیک کا پہلا ظہور جنوری 2025 میں، سوال یہ تھا کہ کیا چین پہلے ہی پہنچ چکا ہے۔امریکی لیبز نے فوری رد عمل ظاہر کیا۔ اسٹنفورڈ یونیورسٹی کا2026 کا آرٹیفیشل انٹیلی جنس انڈیکس — 13 اپریل کو جاری — میں رپورٹ کیا گیا کہ کلوڈ آپس 4.6 اور چین کے Dola-Seed-2.0 Preview کے درمیان ایرینا رینکنگ میں فرق کم ہو رہا ہے، جو اب صرف 2.7% کا ہے۔

CAISI جلد ہی IRT طریقہ کار کی مکمل تفصیل جاری کرے گا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔