سابقہ DeepMind ریسرچر کا کہنا ہے کہ AI صنعت اپنے بنیادی بوٹلنیک کو غلط سمجھ رہی ہے

AI کی تربیت کا اصل瓶颈 توانائی، ڈیٹا یا کمپیوٹیشنل پاور میں نہیں، بلکہ ایوانگ سسٹم میں ہے۔

مضمون کا مصنف، ذریعہ: نئی بُدھی

AI ٹریننگ، بالآخر کتنی دیر تک جاری رہے گی؟

یہ 2026 کا وہ سوال ہے جسے پورے ٹیک صنعت میں پوچھا جا رہا ہے۔

GPT-5.5، کلاؤڈ اوپس 4.7، جیمنی 3، گروک 4 — ہر ایک ٹاپ لیب اپنی اگلی نسل کو تربیت دینے کے لیے پیسہ خرچ کر رہا ہے۔

لیکن اب越来越多 لوگ پوچھنے لگے ہیں: اس راستے کا کب خاتمہ ہوگا؟

ہر گروپ کا اپنا جواب ہوتا ہے—

ہر جواب کے پیچھے، ایک سرمایہ کاروں کا گروہ، ایک انجینئرز کا گروہ، اور ایک ٹریلین ڈالر کی قیمت والی کمپنی کھڑی ہے۔

لیکن 17 مئی 2026 کو، ایک نوجوان ریسرچر جس کا نام لون وانگ ہے — جو گوگل ڈیپ مائنڈ سے استعفیٰ دینے کے دن — اپنے ذاتی بلاگ پر ایک 4000 الفاظ کا لمبا مضمون شائع کیا۔

اس نے کہا: سب غلط راستہ اپنا رہے ہیں۔

حقیقی رکاوٹ، طاقت نہیں، ڈیٹا نہیں، توانائی نہیں، ڈھانچہ نہیں۔

اصلی رکاوٹ یہ ہے — جائزہ لینا (Evaluation)۔

اسی دن، اس نے اپنی X پر شائع کردہ استعفیٰ کی اطلاع میں کوئی شکایت یا افواہ نہیں دی، صرف ایک جملہ —

اس سفر کے ختم ہونے پر، میں نے وہ موضوع لکھا جس پر میں لگاتار سوچ رہا تھا: جائزہ۔

اور اس دن کے ٹیکنالوجی ہیڈلائنز اب بھی دوسری چیزوں پر بحث کر رہے تھے — GPT-5.5 کا متعدد ماڈل استدلال، Claude Opus4.7 کا 1M کنٹیکسٹ، Gemini 3 کا Agent انجینئرنگ، اور سنتھیٹک ڈیٹا کیا شروع ہو گیا ہے کنارے پر؟

پورے AI صنعت کا توجہ 90% تربیت پر مرکوز ہے۔

کوئی بھی ایوان اول میں جائزہ کا ذکر نہیں کر رہا۔

اور اس ماہر نے کہا کہ اصل رکاوٹ دوسرے 10 فیصد میں ہے۔

ایوان کیا ہے

اس بلاگ کو سمجھنے کے لیے، پہلے ایک منٹ صرف کریں اور AI کے دنیا میں "ایوال" کا مطلب کیا ہے، اسے سمجھ لیں۔

evaluation (اندروز میں eval کہلاتا ہے) — ایک جملہ: AI ماڈل کو امتحان دیں اور دیکھیں کہ وہ کیسے کام کرتا ہے۔

لیکن 2026 کا AI جائزہ صرف ایک امتحان کا پیپر بنانے تک محدود نہیں ہے۔ اس میں کم از کم تین سطحیں ہیں:

پہلا سطح: صلاحیت کا معیاری ٹیسٹ۔

یہ AI کا گورنمنٹ امتحان ہے۔

–GPQA: ڈاکٹری سائنسی استدلال کے سوالات

–SWE-bench: واقعی دنیا کے سافٹ ویئر انجینئرنگ کے کام

–ARC-AGI: انتزاعی استدلال اور عام کرنا

–انسانیت کا آخری امتحان: لفظی مطلب — انسانیت کا آخری امتحان

ہر بڑی کمپنی کی نئی ماڈل کی ریلیز پر، پی پی ٹی پر ان بینچ مارکس پر پچھلے نسخے اور مقابلہ کرنے والے ماڈلز کے مقابلے میں کچھ فیصد زیادہ ڈال دیا جاتا ہے۔

یہ اعداد و شمار AI صنعت کی جی ڈی پی ہیں۔

دومیں سطح: حفاظتی جائزہ (SafetyEval)۔ AI صرف سوالات کا جواب دینا نہیں بلکہ محفوظ طریقے سے جواب دینا بھی چاہیے۔

کیا جھوٹ بولा گیا؟
کیا صارفین کو بم بنانے کا طریقہ سکھایا جائے گا؟
کیا یہ صارفین کے ڈیٹا کو غیر اختیاری طور پر لے لیا جائے گا؟

تیسری سطح: ریڈ ٹیم۔

ایک گروہ خاص طور پر برے کردار ادا کرتا ہے، اپنی پوری کوشش کرکے ماڈل کو اس کی ضرورت نہیں ہونے والی باتیں کہلانے اور ایسے افعال کرنے پر مجبور کرتا ہے، اور پھر اس کے خرابیوں کی رپورٹ تربیتی ٹیم کو دیتا ہے۔

یہ تینوں سطحیں مل کر 2026 کے AI لیب کے کوالٹی چیک سسٹم کا ایک حصہ بناتی ہیں۔ جب بھی نیا ماڈل جاری کیا جائے، تو اسے ان تینوں مراحل سے گزرنا ہوگا۔

یہ بہت مکمل لگ رہا ہے، نہیں؟

لُن وانگ نے اپنے بلاگ میں ایک فیصلہ دیا—

زیادہ تر بینچ مارکس، سیکیورٹی ایوالویشنز اور ریڈ ٹی پروٹوکولز ایک افتراض پر مبنی ہیں کہ اگلا ماڈل صرف موجودہ ماڈل کا بہتر شدہ ورژن ہے۔

اگر یہ کچھ اور ہوتا، تو پوری评估 انفراسٹرکچر خاموشی سے ٹوٹ جاتی۔

یہ مضمون کا پہلا پتھر ہے۔

یہ پورے AI صنعت کے اندھے نقطے پر ٹکرا گیا۔

اُبھار اور افہام: جسے دو بار چھوٹا سمجھا گیا ہے، اس کا جائزہ لیں

لُن وانگ خالی خیالات نہیں کر رہے ہیں۔ وہ اپنے بلاگ میں AI کی تاریخ میں دو مثالیں پیش کرتے ہیں — جن کا جائزہ لینے کے بعد دو بار ناکامی ہو چکی ہے، صرف زیادہ تر ماہرین کو اس کا احساس نہیں ہے۔

پہلا: ابھرنے والی صلاحیتیں۔

2022 میں، جیسن وی اور ان کے ساتھیوں نے ایک ایسی تحقیقی تحریر شائع کی جس نے بعد کے AI کے رخ کو متاثر کیا — انہوں نے پایا کہ ماڈل ایک خاص سائز پر اچانک نئی صلاحیتیں سیکھنے لگتے ہیں۔

مثال کے طور پر، اگر آپ ایک 70 ارب پیرامیٹر ماڈل تربیت دیتے ہیں، تو وہ فیو-شٹ لرننگ نہیں کر سکتا۔

آپ ایک 700 ارب پیرامیٹر والے ماڈل کو ٹرین کرتے ہیں، اور وہ اچانک فیو-شُٹ ہو جاتا ہے۔

ایک ہی تربیتی منظوری، ایک ہی ڈیٹا، صرف سائز ایک درجہ بڑھا دیا گیا ہے — صلاحیت 0 سے 1 تک کی ہے، نہ کہ 0.3 سے 0.7 تک۔

CoT (چین آف تھاک ریزننگ)، اور ہدایات کی پیروی، اسی طرح نکلیں۔

اس بات کا ایسیمینٹ پر کیا اثر ہے؟

یعنی — جب تک سائز ایک اہم حد سے نہیں گزرتا، تمام بینچ مارکس اس صلاحیت کے آنے کا اندازہ نہیں لگا سکتے۔

آپ GPQA کے دوران گھومتے رہیں، لیکن اسکور وہی رہنا چاہیے جو ہونا چاہیے۔

جب آپ اگلے لیول تک پہنچیں، تو اسکور اچانک ایک مرحلہ بڑھ جاتا ہے۔

دوسرا: گروکنگ (ڈنوج)۔

2022 میں، OpenAI کی الیتھا پاور ٹیم نے ایک ایسی ظاہری طور پر غیر منطقی ظاہری کا اعلان کیا —

�یر 1000000 قدم تک — ٹیسٹ سیٹ اcuracy اچانک 99% تک چڑھ گئی۔

یہ گروکنگ کہلاتا ہے — نیٹ ورک تربیت مجموعے کو بہت دیر تک یاد رکھنے کے بعد اچانک تعمیل سیکھ لیتا ہے۔

اس کا ظہور سے فرق: ظہور سائیز کے ابعاد پر ہوتا ہے (زیادہ پیرامیٹرز زیادہ اچانک)، جبکہ گروکنگ ٹریننگ کے وقت کے ابعاد پر ہوتا ہے (زیادہ طویل ٹریننگ زیادہ اچانک)۔

لیکن جائزہ کے لیے، دو چیزیں ایک ہی بات کہتی ہیں:

آپ کا امتحان، اگلے بڑے سوال کب آئے گا، اس کا اندازہ نہیں لگایا جا سکتا۔

پھر لون وانگ نے مضمون کا سب سے ذکاوت والا کام کیا—

اس نے خود بخود مخالف نقطہ نظر پیش کیا۔

2023 میں، اسٹنفورڈ کے رائلن شیفر اور ساتھیوں نے ایک نیورIPS کا مقالہ شائع کیا، جس کا عنوان بہت چیلنجنگ تھا — کیا بڑے زبان ماڈلز کی طرزیاتی صلاحیتیں ایک خيال ہیں؟

ان کا استدلال: جسے اچانک صلاحیت کہا جاتا ہے، وہ اکثر مدل کی اچانک طاقت نہیں بلکہ ایوان میٹچ (مکمل مطابقت) جیسے ڈسکریٹ میٹرکس کے استعمال کی وجہ سے ہوتا ہے—

مڈل 0% درستگی سے 5% ہوتا ہے، ڈسکریٹ اشارے نہیں دکھائی دیتے؛ 5% سے 50% تک بھی نہیں دکھائی دیتے؛ لیکن 50% سے 100% تک جانے پر، ڈسکریٹ اشارے اچانک کوچ کو ظاہر کرتے ہیں۔

اگر آپ مسلسل اشاریوں کا استعمال کرتے ہیں، تو صلاحیت کا منحنی نرم ہوتا ہے۔

کئی لوگوں نے شیفر کے اس مضمون کو پڑھنے کے بعد سوچا: اچھا، ابھرنے کا خیال غلط تھا، تقویم ٹھیک ہے، اب سب کچھ ختم۔

لُن وانگ نہیں کرتے۔ وہ اپنے مضمون میں لکھتے ہیں:

میں نہیں سمجھتا کہ اس سے مسئلہ حل ہو گیا ہے — کسی معنی میں، یہ میرا دعویٰ زیادہ تیزکر دیتا ہے۔

کیوں؟ کیونکہ—

اگر ہم نہیں جانتے کہ گزشتہ ایک بار کی ظہور حقیقی فاز کا تبدیلی تھی یا پیمائشی جھوٹا اثر،

ہم اپنی صلاحیت پر کیوں یقین کریں کہ ہم اگلی بار کا پیش گوئی کر سکتے ہیں؟

چاہے آپ کوئی بھی وضاحت مان لیں، نتیجہ ایک ہی ہے: ہمارا ٹول ہمیں دھوکہ دے رہا تھا، اور ہمیں نہیں معلوم تھا کہ ہم کیسے دھوکہ کھا رہے تھے۔

یہ مضمون کا سب سے ذکاوت والا نقطہ ہے۔ وہ مخالفین سے نہیں بچ رہا — وہ مخالفین کا استعمال کرکے اپنے دلیل کو مضبوط بنارہا ہے۔

تجزیہ تمام مراحل کا ابتدائی مرحلہ ہے

اگر آپ سمجھ رہے ہیں کہ لون وانگ صرف اکیڈمک مسائل پر بات کر رہے ہیں — غلط۔

اس نے مضمون کے درمیان ایک ایسا جملہ ڈال دیا جو شروع کرنے والوں کو بھی سمجھ آجائے گا:

اگر آپ درست طریقے سے جائزہ لے سکیں، تو آپ درست طریقے سے تربیت دے سکتے ہیں۔

اس منطقی سلسلے کو واضح کریں:

1. تربیت = ماڈل کو نقصان فنکشن کو کم سے کم کرنے کے لیے (یا انعام کو زیادہ سے زیادہ کرنے کے لیے) مجبور کرنا۔

2. بہتر بنائیں = اس نقصان فنکشن کو خود۔ ماڈل کتنا ذکی ہوگا، اس کا تعین اس بات پر ہوگا کہ نقصان فنکشن کتنی اچھی طرح تعریف کیا گیا ہے۔

3. نقص فنکشن = تجزیہ سے۔ آپ چاہتے ہیں کہ ماڈل زیادہ سچا بنے — آپ کو پہلے سچائی کا ایک پیمانہ چاہیے۔

4. غلط تقویم = نقص فنکشن غلط = تربیت کا مقصد غلط = آپ کا تربیت یافتہ ماڈل غلط سوالوں کا جواب دے رہا ہے۔

اس کی سمت اُپر کی طرف ہے—

سب کا توجہ دائیں طرف ہے — Scaling decision۔

لُن وانگ کہتے ہیں کہ مسئلہ سب سے بائیں طرف ہے — Evaluation۔

اگر جائزہ غلط ہے، تو پوری چین غلط بنیاد پر تعمیر کی گئی ہے۔

سب سے زیادہ مہلک بات یہ ہے کہ آپ فوراً اسے نہیں پائیں گے — کیونکہ آپ کے تمام اندر کے ڈیٹا درست ہیں، صرف وہ سب درست نہیں ہیں جو غلط پیمانے سے ناپے گئے ہیں۔

یہاں ایک پرانا دوست ظاہر ہوا ہے: گڈہارٹ کا قانون۔

یہ کہتا ہے: جب ایک پیمانہ ایک مقصد بن جائے، تو وہ ایک اچھا پیمانہ نہیں رہ جاتا۔

لُن وانگ اپنے بلاگ میں ای آئی کے بارے میں اس کا استعمال کرتے ہیں—

لیکن جب ماڈل نئے مرحلے میں داخل ہو جائے، تو وہ اس ایجینٹ کا反过来 استعمال کرے گا — وہ صرف اس حد تک بات کرے گا جہاں حقائق درست ہوں، اور اصل میں چھپانا چاہتا ہے وہ سچ کو خاموشی میں دفن کر دے گا۔

ایجینٹ میٹرکس پرانے فیز میں کام کرتے ہیں۔ نئے فیز میں وہ ماڈل کی طرف سے آپ کے خلاف استعمال ہونے والے ہتھیار بن جاتے ہیں۔

اور آپ کے پاس کوئی ایسی تشخیص نہیں ہے جو آپ کو بتا سکے کہ یہ بات ہو رہی ہے۔

سوچ کا تجربہ: ایک ایسا ماڈل جو استراتیجک خاموشی سیکھ جاتا ہے

لُن وانگ نے اپنے مضمون میں ایک ایسا خیالی تجربہ پیش کیا جس نے تمام AI سیکیورٹی ریسرچرز کے ریڑھ کی هڈی کو سرد کر دیا۔

ایک ماڈل کا تخیل کریں، جو کسی پیمانے پر، معلومات کو استراتیجک طور پر برقرار رکھنا سیکھ جاتا ہے—

یہ جھوٹ نہیں بولتا۔ ہر جملہ تکنیکی طور پر سچا ہے۔

لیکن وہ اپنے مقصد تک پہنچنے کے لیے مفید نہ ہونے والے حقائق کو انتخابی طور پر چھوڑ دے گا — بات چیت کو اس طرف مائل کرے گا جہاں اس کی تربیت کے دوران غیر متوقع طور پر تقویت ملی ہے۔

ایک مخصوص مثال کے طور پر:

کیا یہ ٹریڈنگ منصوبہ محفوظ ہے؟

ماڈل: اس منصوبے کا قانونی فریم ورک X جرمانہ علاقے میں مؤثر ہے، اور YZ جو خطرات ہیں ان کا جائزہ A کمپنی کی کمپلائنس ٹیم نے لیا ہے۔

(جس کے بارے میں نہیں کہا گیا: اس منصوبے میں ایک تیسری طرف کا فیصلہ کنندہ شرط ہے جو صارفین کے لیے بہت نقصان دہ ہے۔ اس شرط کو اس نے تربیت کے دوران غیر متوقع طور پر سیکھ لیا — جب تک آپ اس کا ذکر نہ کریں، صارف پوچھے گا نہیں۔)

یہ صلاحیت نئی ہے۔ یہ ناکامی کا انداز نیا ہے۔

آپ کے پورے ایوان کے لیے کوئی بھی ٹول اس کے لیے ڈیزائن نہیں کیا گیا۔

آپ غلط چیز کی نگرانی کر رہے ہیں، اور آپ کو پتہ نہیں۔

یہ لون وانگ کہتے ہیں ایک اور چیز ہے—

نہ کہ اور زیادہ ذکی مماثل۔ بالکل نیا ناکامی کا بعد۔

سان تی کے الفاظ میں، اسے ڈیمینشنل ریڈکشن ایٹیک کہتے ہیں۔

میں تم سے زیادہ طاقتور نہیں ہوں۔

تم نے جو پیمانہ استعمال کیا، وہ میرے بعد میں نہیں ہے۔

اگر لون وانگ سچ کہہ رہا ہے، تو 2026 کا AI صنعت کا نقشہ، ایک ایکسپلیسیٹ ڈائیمنشن کے ذریعے خاموشی سے دوبارہ ترتیب دیا جا رہا ہے—

Anthropic کی ذمہ داری کے سائز بڑھانے کی پالیسی (RSP) اب تک صنعت میں سب سے زیادہ تنبیہی جائزے کے قریب کوشش ہے — اس نے مجموعی طور پر ان صلاحیتوں کی حدود تعریف کی ہیں جن کو ماڈل عبور نہیں کر سکتا، اور ہر صلاحیت کے ارتقاء سے پہلے جائزہ لینے کا مطالبہ کرتی ہے تاکہ سائز بڑھانے کا عمل جاری رہے۔

لیکن RSP ابھی بھی یہ فرض کرتا ہے کہ ہم جانتے ہیں کہ کیا پرکھنا ہے — اور لون وانگ کہتے ہیں کہ یہی مسئلہ ہے: ہم نہیں جانتے کہ اگلی صلاحیت کس شکل کی ہوگی۔

کوئی بھی لیب اپنے پاس اصل پیشگوی کن تجزیہ نہیں رکھتا۔

جس نے پہلے اس کام کو مکمل کیا، اسے اگلی نسل کے اسکیلنگ کی سیکورٹی لائسنس مل جائے گی۔