آٹومیشن کے بعد
ماخذ: ڈین شپر، ایوری سی ای او
ترجمہ: پیگی، بلاک بیٹس

ویرات کے نوٹ: حالیہ وقت میں، AI اور کام کے بارے میں بحث تقریباً ایک سوال پر مرکوز ہو گئی ہے: جب تک ماڈل کی صلاحیتیں بڑھتی رہیں، کیا سفید کولار نوکریاں بڑے پیمانے پر متبادل ہو جائیں گی؟ کوڈ جنریشن، کسٹمر سروس آٹومیشن اور مواد پیداوار سے لے کر، ایجنٹ وہ جانچ کام جو اب تک انسانوں کے لیے مخصوص تھے، لگاتار سنبھال رہے ہیں۔ معیاری ٹیسٹ بھی اس خوف کو مزید مضبوط کر رہے ہیں: ماڈل گریجویٹ لیول کے استدلال، حقیقی معاشی کاموں اور اعلیٰ انجینئر لیول کے کوڈ ری فیکٹرینگ میں اپنی کارکردگی مسلسل بڑھا رہے ہیں، جس سے لگ رہا ہے کہ وہ "انسانی کام کا آٹومیشن کے ذریعے نپٹنے" کے ایک حد تک پہنچ رہے ہیں۔

لیکن ہر سی ای او ڈین شپر نے اس مضمون میں ایک اُلٹا مشاہدہ پیش کیا ہے: جتنا زیادہ آٹومیشن ہوگا، اتنے ہی زیادہ انسانوں کو کام کرنا ہوگا۔ ہر AI ایجینٹ کا گہرا استعمال کرتا ہے، اور اندر کے طور پر Codex، Claude Code، Slack Agent، کسٹمر سپورٹ ایجینٹ جیسے ٹولز کو کوڈنگ، لکھنے، ڈیزائن، کسٹمر سپورٹ اور مینجمنٹ کے عمل میں شامل کر دیا گیا ہے۔ لیکن نتیجہ یہ نہیں ہوا کہ ملازمین مکمل طور پر بدل دیے گئے، بلکہ کام کا انداز دوبارہ ترتیب دیا گیا: انجینئرز صرف کوڈ لکھنے کے بجائے، سسٹم کا جائزہ لینے، دوبارہ تشکیل دینے اور ڈیزائن کرنے لگے؛ ایڈیٹرز صرف مضمون لکھنے کے بجائے، یہ فیصلہ کرنے لگے کہ کیا لکھنا ہے اور کیسے مختلف طریقے سے لکھنا ہے؛ کسٹمر سپورٹ عملے نے ہر بنیادی ٹکٹ کو حل کرنے کے بجائے، ایک ایسا سسٹم بنایا جو صارفین کو خودکار طور پر جواب دے سکے۔

اس مضمون میں سب سے زیادہ قابل توجہ بات یہ نہیں کہ "AI کسی کام کو پورا کر سکتا ہے یا نہیں"، بلکہ یہ ہے کہ یہ جانچ پڑتال کے شعبے میں انسان کی جگہ کو دوبارہ تعریف کر رہا ہے۔ AI وہ صلاحیتیں جو پہلے سے موجود تھیں، جیسے کوڈنگ، متن، تھمب نیل، صارفین کے جوابات، مصنوعات کی وضاحت، اور تحقیقی رپورٹس، ان کو تیزی سے پیدا کرکے سستا بناتا ہے۔ لیکن جب یہ صلاحیتیں ہر کسی کے لیے دستیاب ہو جائیں، تو بازار میں عام طور پر اعلیٰ معیار کے منفرد نتائج نہیں، بلکہ ایسے بہت سارے متشابہ، بے حس اور سند کے فقدان والے "ڈیفالٹ آؤٹ پٹ" ظاہر ہوتے ہیں۔ دوسرے الفاظ میں، AI "گزشتہ انسانی صلاحیتوں" کو مصنوعات میں تبدیل کر رہا ہے، جبکہ واقعی نایاب چیز آج کے خاص مسائل کا جائزہ لینے کی صلاحیت ہے۔

اس لیے، خودکاری نے ماہرین کو ختم نہیں کیا، بلکہ ماہرین کی ضرورت والے زیادہ مواقع پیدا کیے۔ جب آپریٹرز AI کے ذریعے کوڈ جمع کر سکتے ہیں، تو انجینئرز کو فیصلہ کرنا ہوتا ہے کہ کون سا کوڈ مربوط کرنے کے قابل ہے؛ جب مارکیٹنگ ٹیم کو چند سیکنڈ میں تھمب نیل بنانے کی اجازت ہوتی ہے، تو ڈیزائنرز کو یہ فیصلہ کرنا ہوتا ہے کہ کون سا ڈیزائن برانڈ اور پروموشنل مقاصد کے مطابق ہے؛ جب انجینئرز بھی مضامین لکھ سکتے ہیں، تو ایڈیٹرز کو ابتدائی نسخے کو اصل نظریات، ساخت اور شائع کرنے کے قابل مواد میں تبدیل کرنا ہوتا ہے۔ AI پیداوار کے دائرے کو وسعت دیتا ہے اور معیار کنٹرول، سسٹم ڈیزائن، حدود کا فیصلہ اور منفرد اظہار کی ضرورت کو بڑھاتا ہے۔

مصنف نے اس متناقض حالت کو مزید بینچ مارک کے ذریعے سمجھایا۔ چاہے وہ سینئر انجینئر بینچ مارک ہو یا OpenAI کا GDPval، ماڈل کے اسکور کا مطلب یہ نہیں کہ وہ "خود ا智能" کو ناپ رہے ہیں، بلکہ وہ کسی خاص مسئلے کے فریم ورک کے اندر ماڈل کی کارکردگی کو ناپ رہے ہیں۔ پرامپٹ، ٹاسک کی حدود، جائزہ معیار، اور آؤٹ پٹ فارمیٹ کے پیچھے پہلے ہی بہت سے انسانی ججمنٹ شامل ہیں۔ ماڈل فریم ورک کے اندر تیزی سے ترقی کر سکتا ہے، لیکن فریم ورک خود انسانوں نے ترتیب دیا ہے؛ جب ایک فریم ورک ماڈل کے ذریعے حل ہو جاتا ہے، تو انسان مسئلے کو مزید پیچیدہ نئے فریم ورک میں منتقل کر دیتے ہیں۔

یہی اس مضمون میں AGI کی فکر کا سب سے دلچسپ جواب ہے: جب تک ماڈلز زیادہ طاقتور ہوتے جائیں، وہ عام طور پر انسانوں کے کھینچے گئے کسی حد تک پہنچتے ہیں، نہ کہ اس حد کو کھینچنے والے انسان خود۔ AI اہداف کو مکمل کر سکتی ہے، راستوں کو بہتر بناسکتی ہے، اور کارکردگی بڑھا سکتی ہے، لیکن جب تک وہ انسانوں کے طرف سے طے کردہ سوالات کا جواب دینے میں مصروف رہے گی، اس میں حقیقی طور پر ذاتیت کی کمی برقرار رہے گی۔ علمی کاموں کا مستقبل یہ نہیں ہوگا کہ انسان عمل سے غائب ہو جائیں، بلکہ وہ عمل کرنے والوں سے فریم ورک ڈیزائنر، سسٹم مینٹیننس، معیار کے جائزہ لینے والے اور معنی تعریف کرنے والوں میں تبدیل ہو جائیں گے۔

آٹومیشن کے بعد، انسانی کام کی قیمت غائب نہیں ہوئی، بلکہ اسے زیادہ مشکل، زیادہ اہم، اور زیادہ ججمنٹ پر منحصر بنایا گیا۔ AI نے "کرنا سیکھنا" کو سستا بنایا، لیکن "یہ جاننا کہ کیا کرنا چاہیے، کیوں کرنا چاہیے، اور کتنی اچھی طرح سے کرنا چاہیے" کو زیادہ نایاب بنایا۔

نیچے متن ہے:

AI کا مرکزی جزو، ایک تضاد پر مشتمل ہے۔

ہر ایک، ہم نے جو کچھ ممکن ہو سکا اسے آٹومیٹ کر دیا ہے۔ چاہے کوڈنگ، لکھنا، ڈیزائن، کسٹمر سپورٹ، یا دیگر روزمرہ کے کام ہوں، ہم Codex اور Claude Code کا استعمال کر رہے ہیں۔ OpenAI، Anthropic، Google کے نئے ماڈلز کے رسمی جاری ہونے سے پہلے ہم ایلفا ٹیسٹنگ میں شرکت کرتے ہیں۔ کہا جا سکتا ہے کہ ہم ماڈل کی ذہانت اور آٹومیشن کی طاقت کے اس بہت تیز اور گہرے اضافے کے لہجے کو اتنی جلدی اور اتنی گہرائی سے حاصل کر رہے ہیں۔

لیکن متناقض طور پر، ہمارے لیے انسانوں کو کرنے کے لیے درکار کاموں کی تعداد ماضی میں کبھی نہیں ہوئی۔ ہر ابھی تک تقریباً 30 افراد کی ٹیم ہے، اور ہم نے ایجینٹس کے آنے کے بعد تمام ملازمین کو برطرف نہیں کیا ہے؛ نہ ہی ہم نے SaaS ٹولز کو چھوڑ دیا ہے اور صرف vibe coding سے بنائے گئے ایپس پر مکمل طور پر انحصار کیا ہے۔ ہم اب بھی انسانی کسٹمر سروس ملازمین کو ملازمت دے رہے ہیں، صرف اس بات کا خیال رکھتے ہوئے کہ انہیں بہت زیادہ ایجینٹس کی مدد ملے گی؛ اور ہم اب بھی مصنفین، ادیٹرز اور انجینئرز کو ملازمت دے رہے ہیں۔

تاہم، کام کی شکل حقیقت میں بہت بڑی تبدیلی کا شکار ہو چکی ہے۔ ہم تقریباً کوڈ لکھنے کے لیے ہاتھ سے نہیں لکھتے۔ اگر آپ Slack میں کسی کو @ کریں، تو کبھی کبھی یہ فرق کرنا مشکل ہوتا ہے کہ وہ انسان ہے یا ایجنٹ۔ مینیجرز اب لائن لیول کے انفرادی کنٹریبیوٹرز کی طرح کوڈ جمع کرنا شروع کر چکے ہیں، اور انجینئرز بھی صارفین کے ساتھ براہ راست تعامل کرنا شروع کر چکے ہیں۔ پچھلے کچھ ہفتے میں، میرے 95% کام کے ای میلز AI نے جواب دے دیے۔ میرا انباکس تقریباً ہمیشہ خالی رہتا ہے—جو میرے لیے بہت نایاب بات ہے—لیکن میں اب بھی ہر ای میل کو الگ الگ چیک کرتا ہوں۔

دوسرا الفاظ میں، مستقبل اجنبی لگتا ہے، لیکن حیرت انگیز طور پر پر familiar بھی ہے۔

یہ "پرچھائیں" خود بخود حیران کن ہے۔ کیونکہ چاہے سی ای او ہو، معلوماتی ملازم ہو یا سرمایہ کار، لگتا ہے کہ سب زیادہ سے زیادہ ایک ہی بات پر ایمان رکھ رہے ہیں: AI ملازمت، معیشت، حفاظت، اور حتیٰ کہ انسانی کام کے معنی کو خطرے میں ڈال رہا ہے۔

اینٹروپک کے سی ای او داریو ایمودی نے چेतاؤ دیا تھا کہ AI ابتدائی سفید کولار نوکریوں کی آدھی تعداد کو ختم کر سکتا ہے۔ میٹا نے حال ہی میں 8000 افراد کو برطرف کر دیا ہے اور امریکہ کے ملازمین کے کمپیوٹر پر سافٹ ویئر نصب کرنا شروع کر دیا ہے جو ماؤس کی حرکت، کلک اور کی بورڈ ان پٹ کو ریکارڈ کرتا ہے تاکہ زیادہ معیاری اعلیٰ علمی کام کے لیے تربیتی ڈیٹا حاصل کیا جا سکے۔

سیٹیل کے بانی کین گرiffin بھی کافی متاثر نظر آ رہے ہیں۔ انہوں نے حال ہی میں کہا: "یہ درمیانے یا کم سطح کے وائٹ کالر ملازمتوں نہیں ہیں، بلکہ بہت اعلیٰ مہارت والے ملازمتیں ہیں جو — میں اس لفظ پر غور کر رہا ہوں — ایجنٹک AI کے ذریعے خودکار ہو رہی ہیں۔"

مختلف بینچ مارکس بھی اس جائزے کی حمایت کر رہے ہیں۔ نئی نسل کے ماڈلز کے لگاتار جاری ہونے کے ساتھ، ماڈل کی صلاحیت کے اشارے تقریباً اسی طرح گھاتی شکل میں بڑھ رہے ہیں۔ گریجویٹ لیول کے استدلال ٹیسٹ "Humanity's Last Exam" میں، ٹاپ ماڈلز کے اسکور ایک سال پہلے کم از کم اعداد سے بڑھ کر اب تقریباً 44% ہو گئے ہیں۔ "GDPval" نامی ٹیسٹ میں، جو سامنے والے ماڈلز کی حقیقی معاشی کاموں کو مکمل کرنے کی صلاحیت اور انسانوں کے اداء کے مقابلے میں ناپتا ہے، ماڈلز کے اسکور بھی پچھلے کم اعداد سے بڑھ کر تقریباً 85% ہو گئے ہیں۔ مئی 2024 میں، AI سیفٹی ریسرچ نان پروفٹ ادارہ METR نے Claude Mythos کے ابتدائی ٹیسٹ نتائج جاری کئے: کچھ ایسے کاموں پر جنہیں انسانی ماہرین کو تقریباً 4 گھنٹے لگتے ہیں، اس ماڈل کی کامیابی کا فیصد 80% تھا۔

لگتا ہے کہ ہم ایک ایسے حد تک پہنچ چکے ہیں جہاں ایک ایسا AI جو کسی بھی انسان سے زیادہ ذکی ہے اور تقریبا پورے دن تک خودکار طور پر کام کر سکتا ہے، حقیقت میں آ رہا ہے۔

تاہم، تضاد باقی ہے۔ اگر آپ AI صنعت کے متعلقہ افراد یا صنعت کے باہر AI کا استعمال شروع کرنے والے پہلے لوگوں سے بات کریں، تو آپ کو وہی نتیجہ سنائی دے گا جو ہم نے اندر سے دیکھا ہے: کام کی مقدار پہلے سے زیادہ ہو گئی ہے۔

صنعت کے اندر اور باہر کے لوگوں کا اصلی خدشہ یہ ہے: کیا یہ صرف ایک عارضی حالت ہے؟ اگلے ماڈل کے جاری ہونے سے کیا وہ لمحہ آ جائے گا جب سب کچھ مکمل طور پر بدل جائے گا؟ ہم بینچ مارک کریوز کو دیکھ رہے ہیں، خوشی اور ڈر کے ساتھ، خوف کے ساتھ کہ کوئی موڑ آ جائے اور اچانک بہت سے کام غائب ہو جائیں۔

لیکن میرے خیال میں، ایسا کوئی "حد" اچانک نہیں آئے گا جو سب کچھ ایک دفعہ الٹ دے اور کام کو بڑے پیمانے پر ختم کر دے۔ نئی حقیقت بالکل اس کے برعکس ہے: جتنا زیادہ خودکاری ہوگی، اتنے ہی زیادہ انسانی ماہرین کی ضرورت ہوگی۔

اس کی وجہ یہ ہے کہ AI انسانی ماہرین کی ان صلاحیتोں کو جو واضح طور پر بیان کی جا سکتی ہیں، تربیت دی جا سکتی ہیں اور کاپی کی جا سکتی ہیں، ان کو مصنوعات میں تبدیل کر رہا ہے۔ جو بھی علم قواعد کے طور پر لکھا جا سکتا ہے، عمل میں مستقل ہو سکتا ہے، یا تربیت کے ڈیٹا میں تبدیل کیا جا سکتا ہے، وہ تدریجاً ماڈل کی ڈیفالٹ صلاحیت بن جاتا ہے۔ نتیجہ یہ ہے کہ عام ماڈلز کے پیداوار کی قیمت تیزی سے کم ہو رہی ہے، اور بازار اب زیادہ طور پر اس علید چیزوں کی ضرورت محسوس کر رہا ہے۔

لیکن "الگ" کی ضرورت کا بنیادی طور پر انسانی ماہرین کی ضرورت ہے۔ چاہے ہم عام ذكاء تک کربھی کتنے ہی قریب پہنچ گئے ہوں، یہ ضرورت نہیں گھلے گی۔

اس کی وجہ سمجھنے کے لیے صرف بینچ مارک کریوز پر نظر رکھنا یا مدل کے پیرامیٹرز اور صلاحیتوں کی فہرستوں پر ہی توجہ مرکوز کرنا کافی نہیں۔ ہمیں حقیقی کام کے مناظر میں واپس جانا ہوگا اور دیکھنا ہوگا کہ آج AI کو کیسے استعمال کیا جا رہا ہے۔ صرف اسی طرح، ہم اس متناقض حالت اور اس کے پیچھے کے جواب کو حقیقی طور پر سمجھ سکتے ہیں۔

ہم اس مرحلے تک کیسے پہنچ گئے

2022 سے، ہم نے ایجینٹ کے مستقبل کے کام پر اثرات پر نظر رکھی ہے۔

تین سال پہلے، میں نے "تقسیمی معیشت" کے بارے میں ایک مضمون لکھا تھا۔ اس وقت میرا خیال تھا کہ AI ٹولز کے ساتھ تعاون کرنا بالآخر انسانی مینیجرز کے کام جیسا ہو جائے گا: آپ اب ہر ایک حرکت کو خود نہیں کریں گے، بلکہ کام کو تقسیم، مختص، نگرانی اور منظور کریں گے۔ اس وقت، ChatGPT میں سب سے بنیادی سوالات اور جوابات اب بھی بہت سے لوگوں کے لیے بہت مستقبل کی بات لگتی تھیں، اور کچھ لوگوں کے لیے تھوڑی سی پریشان کن بھی۔

2025 کے وسط تک، ہر کمپنی تقریباً مکمل طور پر "Claude Code" بن چکی تھی۔ کورا کے جنرل مینیجر کیرین کلاسن نے اچانک دریافت کیا کہ وہ ہاتھ سے کوڈ لکھنے کی ضرورت چھوڑ سکتا ہے اور پورا دن ٹرمینل میں ایک پروگرامنگ ایجنٹ کو قدرتی زبان میں ہدایات دے رہا ہے۔ یہ کام کا انداز جلد ہی پوری کمپنی میں پھیل گیا۔ تقریباً 12 ماہ پہلے، میں نے لینی کے پوڈکاسٹ پر کہا تھا کہ Claude Code معلوماتی کاموں کا سب سے کم تعریف شدہ ٹول ہے۔

میں ان باتوں کا ذکر اس لیے کر رہا ہوں کہ ہم نے گزشتہ کچھ سب سے زیادہ درست تشخیصیں، ہر چیز کو ایک ابتدائی استعمال کرنے والوں کے لیے لیب کے طور پر دیکھ کر کی تھیں۔ بہت سے نئے کام کے انداز، پہلے ہمارے اندر ظاہر ہوتے ہیں؛ جب تک ٹیکنالوجی مزید پختہ نہ ہو جائے اور ٹولز زیادہ استعمال کرنے میں آسان نہ ہو جائیں، ان اندازوں کو عام بازار میں داخل نہیں ہونا پڑتا۔

اور اب، ہمارے اندر نئے تبدیلیاں ہو رہی ہیں۔

ایجینٹ کے ساتھ کام کرنے کے دو طریقے

AI کے کام کرنے کے طریقے کے گرد، دو بہت مختلف ماڈلز پر اتفاق ہو رہا ہے۔

پہلا، پہلے AI بحثوں میں جو سمت کافی درست طریقے سے پیش گوئی کی گئی تھی: ایجینٹ کو ملازم کے طور پر دیکھنا۔ ایسے ایجینٹس کو کام سونپا جا سکتا ہے۔ کچھ ایجینٹس Slack میں رہتے ہیں، ان کے اپنے نام اور فرائض ہوتے ہیں، جب آپ ان سے کام کروانا چاہیں تو آپ براہ راست ان کو @ کر سکتے ہیں؛ کچھ ایجینٹس مستقل چلنے والے ورک فلو میں ڈال دیے جاتے ہیں، جیسے کسٹمر سپورٹ سسٹم، جہاں وہ دن بھر کے تکراری کاموں کے لیے داخلہ اور فلٹر کے طور پر کام کرتے ہیں۔

دوسرا ماڈل زیادہ ناپر familiar ہے، لیکن میرے تجربے کے مطابق، زیادہ اہم ہے۔ اس کا مطلب ہے کہ Codex، Claude Code، Claude Cowork جیسے ٹولز میں انسان اور ایجنٹ مل کر کام کرتے ہیں۔ یہ ٹولز صرف اس لیے نہیں ہیں کہ آپ اپنا کام سونپ دیں، بلکہ یہ اپنے آپ کو کام کا آپریٹنگ سسٹم بن رہے ہیں: آپ اور متعدد ایجنٹ ایک ہی "کمپیوٹر" پر ایک ہی کام کے ماحول میں مل کر کام کرتے ہیں، اور انتہائی پیچیدہ، اصلی، اور جو کام آسانی سے ایسینکرونس ایجنٹ کو سونپا نہیں جا سکتا، وہ مکمل کرتے ہیں۔

ان دونوں موڈز میں، آپ AI کا استعمال کرکے کافی حد تک کام کو خودکار اور منتقل کر سکتے ہیں۔ لیکن ان دونوں موڈز کو بہترین طریقے سے چلانے کے لیے، آپ یا کوئی اور انسان کی ضرورت ہوتی ہے۔

اہلکار

ایجینٹ ملازم وہ ہے جسے آپ ایک کام دیتے ہیں، وہ آپ کی فوری شرکت کے بغیر ایک جواب، ایک کارروائی، ایک رپورٹ، ایک مسودہ، یا ایک تقسیم کا فیصلہ خود پیدا کر دیتا ہے۔

اس قسم کے ایجینٹس کم از کم دو اشکال میں ہوتے ہیں: ایک «کولیگ ایجینٹ» اور دوسرا «ایمبیڈڈ ایجینٹ»۔

1۔ ساتھی ٹائپ ایجنٹ

ساتھی کے طور پر ایجنٹ کا مطلب ہے کہ آپ اسے Slack میں ایک ساتھی کو @ کرنے کی طرح بلاسک سکتے ہیں تاکہ وہ کوئی کام کرے۔ یہ ہمیشہ دستیاب رہتا ہے اور جب ضرورت ہو تو اسے بلایا جا سکتا ہے۔ OpenClaw جیسے پروڈکٹس، یا ہمارے اندر ترقی دیا گیا Plus One، اس قسم کے ہیں۔

کلوڈی

کلوڈی ہمارے مشورہ ٹیم کے استعمال کیا جانے والا کولیگا ایجنٹ ہے۔ یہ فروخت کے پیشکش لکھتا ہے، تربیتی مواد کے مسودہ تیار کرتا ہے، منصوبوں کے انجام کے امور کا جائزہ لیتا ہے، اور اس جیسے کئی اور کاموں کو بھی سنبھالتا ہے۔

انڈی

انڈی ہمارے ایڈیٹوریل ٹیم کے استعمال کیا جانے والا کولیگ-اسٹائل ایجنٹ ہے۔ یہ کمپنی کے اندر Slack سے ان "مواد کے نکات" کو جمع کرتا ہے جو مزید تفصیل کے قابل ہیں — یعنی وہ اچھے خیالات جو مضامین میں تبدیل ہو سکتے ہیں — اور انہیں خلاصہ اور ابتدائی رائے کے طور پر ترتیب دیتا ہے تاکہ مصنفین انہیں روزانہ خبروں کے نوٹس لکھنے کے لیے استعمال کر سکیں۔

وکٹر

وکٹر ایک جامع ایجینٹ ہے جو کمپنی کے اندر مختلف محکموں کے درمیان کام کرے گا۔ ہم اسے نمو کے اشاریے جمع کرنے، صارف تحقیق کے نتائج کا تجزیہ کرنے اور بے ترتیب اندر کی بحثوں کو تحقیقی میمو اور مصنوعات کی سفارشات میں تبدیل کرنے کے لیے استعمال کریں گے۔

2، ایم بیڈڈ ایجینٹ

ایم بیڈڈ ایجینٹ مخصوص مصنوعات کے عملی راستوں میں موجود ہوتے ہیں۔ وہ کولیگ ایجینٹس کی طرح لچکدار نہیں ہوتے، لیکن دہرائے جانے والے کاموں کو سنبھالنے میں عام طور پر بہت طاقتور ہوتے ہیں۔

Fin سب سے واضح مثال ہے۔ یہ ہمارے کسٹمر سپورٹ پلیٹ فارم میں ایک ایجنٹ ہے جو چیٹ اور ای میل کے ذریعے بہت سارے کسٹمر سپورٹ کاموں کو سنبھال سکتا ہے۔

ایک ہفتے کے دوران، جن میں فن نے ہر 202 کسٹمر سروس گفتگو میں سے 65 فیصد میں حصہ لیا، اور اس نے 81 ٹکٹس کو بغیر کسی انسانی مداخلت کے خود بخود بند کر دیا، جو تمام قابل انجام گفتگوؤں کا 40.1 فیصد ہے۔

یہ ایم بیڈڈ ایجینٹس ہمارے کسٹمر سروس مینیجر وقاس مر کو بنیادی ٹکٹوں کے جواب دینے میں لگنے والے وقت کو کم کرتے ہیں، تاکہ وہ زیادہ توجہ "ٹکٹوں کا خودکار جواب دینے والا نظام" تعمیر کرنے اور اس قسم کے مشکل اور زیادہ تفصیلی صارفین کے معاملات کو حل کرنے پر مرکوز کر سکیں۔

انسان اور AI کا تعاون

چاہے وہ کولیگ ایجنٹ ہوں یا ایمبیڈڈ ایجنٹ، پیچھے کا ماڈل ایک جیسا ہے: ایجنٹ ملازمین زیادہ مستقل، دہرائے جانے والے، اور واضح حدود والے کاموں پر زیادہ قبضہ کر رہے ہیں۔

لیکن اب بھی بہت سارے کام انسانی مداخلت کی ضرورت رکھتے ہیں۔ ہم نے بار بار پایا ہے کہ جب کوئی کام کافی پیچیدہ ہو، تو اصلی اعلیٰ معیار کے نتائج حاصل کرنے کا بہترین طریقہ AI کو مکمل طور پر کام سونپنا نہیں، بلکہ AI اور انسانوں کو ایک ہی کام کے ماحول میں باہمی تعاون کے ساتھ کام کرنے دینا ہے۔

یہی Codex، Claude Code اور Cowork جیسے ٹولز کی قیمت ہے۔ وہ آپ کو متعدد چیٹ تھریڈز میں ایک یا ایک سے زیادہ ایجینٹس شروع کرنے اور انہیں کام سونپنے کی اجازت دیتے ہیں۔ ان ایجینٹس کو آپ کے کمپیوٹر اور تمام متعلقہ ڈیٹا سورسز تک رسائی حاصل ہوتی ہے۔ آپ دیکھ سکتے ہیں کہ ہر ایجینٹ کون سا کام کر رہا ہے، کیسے سوچ رہا ہے، اور آپ کسی بھی وقت اسے روک سکتے ہیں۔

اسی دوران، آپ کو ان ایجینٹس کا انتظام کرتے رہنا ہوگا: ہر کام شروع ہونے پر واضح ہدایات دیں، کام ختم ہونے پر معیار کی جانچ کریں، یقینی بنائیں کہ نتائج کافی اچھے ہیں، اور اگلے قابلِ ترقی کام کی تلاش جاری رکھیں۔ کیرین نے اس کردار کو انسانی “سینڈوچ” کہا ہے — AI کام کے درمیانی حصے کو سنبھالتا ہے، جبکہ انسان دو ٹکڑوں کی طرح، کام کے شروع اور اختتام پر مکمل ہوتا ہے۔

"انسانی سینڈوچ"۔ ماخذ: Every.

سب سے عام مثال کوڈ لکھنا ہے۔ ہر روز، انجینئرز تقریباً پورا دن ایجنٹ کے ساتھ تعاون کرتے ہیں۔ وہ نئے فیچرز کی منصوبہ بندی کرتے ہیں یا بگز کو درست کرتے ہیں، مکمل کام کا جائزہ لیتے ہیں؛ اگر ہم "مرکب انجینئرنگ" کے تصور کو اپنائیں، تو وہ اپنے سسٹم کو بار بار بہتر بناتے رہتے ہیں تاکہ وقت کے ساتھ ساتھ وہ زیادہ استعمال کے لیے موزوں بن جائے۔

لیکن اس تعاون کا انداز صرف کوڈنگ تک محدود نہیں ہے۔

نئی آپریٹنگ سسٹم برائے علمی کام

کوڈیکس اور کلاؤڈ کوڈ ایک نئے کام کے آپریٹنگ سسٹم بن رہے ہیں۔ میں نے تقریباً پورا دن کوڈیکس میں گزارا، اس کے اندر بUILT-in براؤزر کے ذریعے مختلف SaaS ٹولز چلائے۔ اس نے مجھے ایجنٹ کو ہر کام کے منظر میں لے جانے اور ایک ایسا کام کا مستوی حاصل کرنے میں مدد دی جو میں اپنے آپ سے حاصل نہیں کر سکتا تھا۔

لکھنا

یہ مضمون میں نے Codex کے اندری براؤزر میں Proof کے ذریعے لکھا ہے۔ Codex میرے لکھنے کو دیکھتا ہے اور جب بھی میری ضرورت ہو، کسی بھی کام کے لیے ایک سب ایجنٹ شروع کر سکتا ہے: کسی حصے کا پہلا خاکہ تیار کرنا، اگلے حصے کے لیے مثالیں تلاش کرنا، یا متن کی تحریر اور بہتر بنانا۔

کوڈیکس میں پروف کے ذریعے یہ مضمون لکھیں۔ ماخذ: ایوری۔

ای میل

میں ای میلز کو بھی اسی طرح سے سنبھالتا ہوں۔ کورا میرا ای میل کلائنٹ ہے، میں اسے کوڈیکس کے اندر بUILT-in براؤزر میں کھول دیتا ہوں، اور اپنے انباکس کو دیکھتے ہوئے منولوگ کے ذریعے ہر ای میل کے لیے اپنا سوچنے کا طریقہ بیان کرتا ہوں۔ باقی کام کوڈیکس اور کورا کر دیتے ہیں۔

کورا کے ذریعہ کی گئی ایک ای میل باکس صفائی۔ ذریعہ: ایوری۔

ہر ایجینٹ کو ایک انسان کی ضرورت ہوتی ہے

اوپر کے تمام خودکار منظر ناموں میں، آپ شاید دیکھ چکے ہوں کہ انسان کہاں کردار ادا کرتا ہے۔ ہر مثال میں، ایجنٹ کو اپنا کام درست طریقے سے چلانے کے لیے انسانی شرکت کی ضرورت ہوتی ہے۔

کسی کو اسے درست سوالوں کی طرف اشارہ کرنا چاہیے، یہ فیصلہ کرنا چاہیے کہ پیداوار کافی اچھی ہے یا نہیں، اس میں غلطیاں دریافت کرنا چاہیے، اور نتائج کو حقیقی فیصلوں یا عمل میں تبدیل کرنا چاہیے۔

ایک ایجنٹ جتنا زیادہ اپنی کارکردگی کی نگرانی کرنے والے انسان سے دور ہو، اس کا کام اتنی ہی کم اثر بانی ہوتا ہے۔ ابتدائی اندر کے اطلاق میں، ہم نے ہر ملازم کو ایک ایجنٹ فراہم کیا تھا۔ لیکن جلد ہی، ہم نے ایجنٹس کو صرف ایک خاص ٹیم یا پوری کمپنی کے لیے موزوں کر دیا، نہ کہ انفرادی افراد کے لیے۔

وجہ بہت آسان ہے: ایجنٹ کو بہت زیادہ مینٹیننس کی ضرورت ہوتی ہے۔ ایک فرد کا ایجنٹ جب استعمال کرنے والا اس پر توجہ دینا بند کر دے تو جلد ہی وہ obsolete اور غیر فعال ہو جاتا ہے۔ ہمارے پاس ایک AI انجینئرز کی ٹیم ہے جو صرف اس بات کو یقینی بنانے کے لیے کام کرتی ہے کہ یہ ایجنٹ مستقل اور موثر طریقے سے کام کرتے رہیں۔ اور قریب مستقبل میں بھی ہمیں اس ٹیم کی ضرورت ہوگی۔ حتیٰ کہ "خودکار PowerPoint بنانا" جیسا سادہ کام بھی ایک بڑا سسٹم انجینئرنگ پروجیکٹ میں تبدیل ہو سکتا ہے۔ ہمارا ایک PowerPoint آٹومیشن پروسیس میں 24 مہارتیں اور 18 اسکرپٹس شامل ہیں، جس کا ایک پرزنٹیشن بنانے کا token لاگت 62 ڈالر تک پہنچ جاتا ہے۔

یہ ایجنٹ کی وجہ سے انسانوں کے لیے مزید نوکریاں پیدا ہونے کا پہلا سبب ہے۔

لیکن ایک دوسری سطح کی وجہ بھی ہے۔

کیوں کہ آٹومیشن سے انسانوں کے کام زیادہ ہوتے ہیں

اگر آپ پچھلے کچھ سالوں میں AI کی صلاحیتوں کے اسی تھیٹری ترقی کا مشاہدہ کریں اور اس کے ڈیزائن اور صلاحیتوں کے ذرائع کو مدنظر رکھیں، تو آپ کو ایک واضح فیڈ بیک سائکل نظر آئے گی: وہ مستقل طور پر زیادہ انسانی کام پیدا کر رہے ہیں۔

AI نے "کل کی انسانی صلاحیتیں" کو سستا کر دیا ہے

موجودہ بڑے زبان ماڈلز، انسانی صلاحیتوں کے باقی رہ جانے والے نمایاں نشانات پر تربیت دیے گئے ہیں: کوڈ، مضامین، تصاویر، کسٹمر سپورٹ ٹکٹس، مصنوعات کی تفصیلات کے دستاویزات، اور اس سے زیادہ دیگر چیزیں۔ وہ ان چیزوں کو اپنے اندر جذب کرتے ہیں، جو پہلے ہی کامیابی سے مکمل ہو چکے کاموں کے "پسماندہ" ہیں، اور انہیں ایک سستے، ہر کسی کے لیے دستیاب شکل میں دوبارہ پیک کرتے ہیں۔

نتیجہ یہ ہوا کہ جیسے کوڈ کا ایک پریزینٹیشن PR جمع کرانا، یوٹیوب کا تھمب نیل بنانا، یا ایک نیوز لیٹر لکھنا، جیسی پہلے نایاب صلاحیتیں تھیں، اب تقریباً ہر کسی کے لیے دستیاب ہو گئی ہیں۔

سستی صلاحیتیں جلدی سے اپنائی جائیں گی

جب کسی اصل میں کمی والی چیز کی لاگت کم ہو جائے، تو فراہمی تیزی سے بڑھ جاتی ہے۔

ہر جگہ، ہم نے اس تبدیلی کو دیکھا ہے۔ آپریشن اور کسٹمر سپورٹ کے لوگ کوڈ لکھنا شروع کر چکے ہیں، پل کے درخواست جمع کر رہے ہیں؛ مارکیٹنگ کے لوگ یوٹیوب تھمب نیلز بنانا شروع کر چکے ہیں؛ انجینئرز اور پروڈکٹ ٹیم نے مضمون، گائیڈز اور لینڈنگ پیج کے مسودے لکھنا شروع کر دیے ہیں، جبکہ یہ کام اصل میں ان کے لیے نہیں تھا۔

یہ تبدیلی Every کے باہر بھی ہو رہی ہے۔ اوپن سورس AI ایجینٹ پروجیکٹ OpenClaw کے مثال کے طور پر، 16 مئی 2026 تک، اس کے کوڈ ریپوزٹری میں 44,469 پول ریکسٹس آ چکے ہیں، جن میں سے 12,430 1 اپریل کے بعد اور 3,990 1 مئی کے بعد آئے ہیں۔ یہ ایک حیرت انگیز تعداد ہے۔ مقابلے کے لیے، Kubernetes، جو دنیا بھر میں سب سے زیادہ پسندیدہ اوپن سورس پروجیکٹس میں سے ایک ہے، نے 2022 میں صرف 5,200 پول ریکسٹس حاصل کیے۔

بہت ساری دولت سے ہم جنسیت آتی ہے: پرانے ماہرین کی صلاحیتیں مال کے طور پر تبدیل ہو گئیں

چونکہ سب کو ایک ہی ماڈل کا استعمال کرنے کی اجازت ہے، اور یہ ماڈلز "گزشتہ دن کی انسانی صلاحیتوں" پر مبنی ہیں، اس لیے ڈیفالٹ طور پر ماڈلز کی پیداوار عام طور پر "کافی اچھا آغاز" اور "صرف AI کا کچرا" کے درمیان ہوتی ہے۔

یہاں کہا جا رہا ہے کہ "کچرا مواد" کسی خاص غلطی نہیں ہے۔ یہ اتنے زیادہ ڈیشز کا مسئلہ نہیں ہے، نہ کوئی مخصوص جملہ ساخت، اور نہ ہی لینڈنگ پیج پر جگہ جگہ پر موجود بنفش رنگ کے نشانات کا۔ یہ ایک آنکھوں سے دیکھا جانے والا، بار بار ظاہر ہونے والا، اور تھکا دینے والا ہم آہنگی کا مسئلہ ہے۔

جب مختلف مناظر میں انسان ایک ہی ٹولز کا استعمال کرتے ہیں، جو ایک ہی قسم کے ڈیٹا پر تربیت یافتہ ہوتے ہیں، اور صارفین کافی گہرائی تک جانچ نہیں کرتے، تو یہ نتیجہ نکلتا ہے۔ دوسرے الفاظ میں، جب ہر کوئی ایک ایسا " ماہر " رکھتا ہے جس کا رجحان اور ڈیفالٹ انداز ایک جیسا ہوتا ہے، تو ہم آہنگی خود بخود پیدا ہو جاتی ہے۔

جب آپریٹرز پل ریکسٹ جمع کر سکتے ہیں، مارکیٹنگ ٹیم چند سیکنڈز میں یوٹیوب تھمب نیل بنانے لگ جاتی ہے، اور انجینئرز پروڈکٹ گائیڈ لکھنا شروع کر دیتے ہیں، تو ایسا ہو سکتا ہے کہ آپ کی پیداوار کی مقدار بڑھ جائے، لیکن آپ کے کام کی معیار، ایک جیسے پن اور منفرد پہلو کم ہو جائیں۔

jab ہمیشہ کی طرح زیادہ مہیا ہو جائے تو وہ جلد ہی ایک مال بن جاتی ہے۔

ہم آہنگی نے تفریق کی ضرورت پیدا کر دی ہے

انٹرنیٹ کی موجودگی کی وجہ سے انسان جلد ہی پہچان لیں گے کہ کون سا مواد "AI کا ذائقہ" زیادہ ہے۔ کوئی بھی تخلیق فوراً دنیا بھر کے دوسرے لوگوں تک پہنچ سکتی ہے، اور اکثر ایسا ہی ہوتا ہے۔ جب بہت سی چیزیں ایک جیسی لگنے لگیں، تو ہم جلد ہی اس میں کچھ غلط ہونے کا احساس کر لیں گے۔

اس کا مطلب یہ ہے کہ جب آپ کسی نئے ماڈل کی صلاحیت کو پہلی بار دیکھتے ہیں، تو آپ حیران ہو سکتے ہیں، یا تھوڑا خوفزدہ بھی۔ لیکن کچھ ماہ بعد، یہ صلاحیتیں عام ہو جاتی ہیں۔ یہ اس لیے نہیں کہ ماڈل کمزور ہو گیا، بلکہ آپ کا معیار بدل گیا۔

ہم صرف کوئی بھی React ایپ یا کوئی بھی تحقیقی رپورٹ سے خوش نہیں ہیں۔ ہمیں ایک ایسا چیز چاہیے جو حقیقی طور پر کسی خاص شخص، کسی خاص کمپنی، اور کسی خاص منظر کے لیے موزوں ہو۔ اسے ایسا محسوس ہونا چاہیے جیسے وہ درست، زندہ، اور مخصوص ہو، نہ کہ سستا، عام، یا ٹیمپلیٹ بنایا گیا ہو۔ ہم چاہتے ہیں کہ اس کی پیداوار کا خرچ، چاہے وقت ہو یا پیسہ، ہمارے استعمال کے خرچ سے واضح طور پر زیادہ ہو۔

ہم وہ چیز چاہتے ہیں جس میں "مقام کا احساس" ہو۔ اور جب بھی نئی تکنیک پرانی، اعلیٰ مقام کی چیزوں کو سستا بناتی ہے، انسان ہمیشہ نئی صلاحیتوں کے مطابق نئے مقام کے کھیل دریافت کرنے میں ماہر ہوتے ہیں۔

جب کام زیادہ زیادہ دستیاب ہو جائے اور سب کچھ ایک جیسا لگنے لگے، تو جو کام موجودہ نمونوں سے میل نہیں کھاتے، وہ کمی، قیمتی اور اعلیٰ درجے کے خصوصیات رکھنے لگتے ہیں۔

تفصیلی تقاضوں کی بنیادی طور پر ماہرین کی نئی ضرورت ہے

زیرِ تفصیل، زبانی ماڈل کی ساختی خصوصیات اور ان کا تقریباً ہر کسی تک پہنچنا، نایاب اور قیمتی کام اب بھی انسانوں سے ہی آنا ضروری ہے۔

اس نسل کے ماڈل صرف اس بات کو جانتے ہیں جو پہلے ہو چکی ہے یا پوری ہو چکی ہے۔ انسان جانتا ہے کہ ابھی اس لمحے کو کیا کرنا ہے۔

جب کوئی خاص صورت حال متن میں تبدیل ہو جاتی ہے، جب وہ کارپس میں داخل ہو جاتی ہے، تو وہ پہلے ہی «ماضی کی چیز» بن چکی ہوتی ہے۔ انسان ایک خاص لمحے، خاص صارف، خاص کوڈ بیس، اور خاص مکالمے کا سامنا کرتا ہے، جبکہ تربیتی کارپس اس موجودہ لمحے میں حقیقی طور پر زندہ نہیں ہوتا۔ اس «زندہ» حالت کا مطلب صرف اپڈیٹڈ ڈیٹا رکھنا نہیں ہے۔ ہم اپنی اصل کے ساتھ موجودہ لمحے میں داخل ہوتے ہیں، اور مستقل تبدیل ہوتے رہنے والی خواہشات، فکریں اور ججمنٹس کے ساتھ یہ سمجھنے کی کوشش کرتے ہیں کہ کیا اہم ہے۔ یہ مستقل اپڈیٹ ہوتے رہنے والے منظر نظر، ہم جو دیکھتے ہیں اسے بدل دیتے ہیں۔ ماڈل کو حکم دینے کے بعد اس منظر نظر میں داخل ہونے کا موقع ملتا ہے، لیکن حکم دینے سے پہلے، اس کے پاس یہ منظر نظر خود بخود موجود نہیں ہوتا۔

یہی وہ پیراڈوکس ہے جس کاہم نے شروع میں ذکر کیا تھا: ماہرین کے کام کو سستا بنانا ماہرین کی جگہ لینے کا مطلب نہیں۔ بلکہ، یہ ایسے مزید مواقع پیدا کرے گا جہاں ماہرین کے فیصلوں کی ضرورت ہوگی۔

جب آپریٹرز AI کی مدد سے پل ریکسٹ جمع کراتے ہیں، تو آپ کو انجینئرز کو جانچنے کی ضرورت ہوتی ہے۔

جب مارکیٹنگ ٹیم YouTube تھمب نیل بناتی ہے، تو آپ کو مزید بہتر بنانے کے لیے ڈیزائنر کی ضرورت ہوتی ہے۔

جب انجینئر مضمون لکھنا شروع کر دیں، تو آپ کو مصنف اور ایڈیٹر کی ضرورت ہوتی ہے تاکہ مسودہ حقیقی طور پر قابل پڑھنے اور شائع کرنے کے قابل بن جائے۔

اس کے لیے انسانی ماہرین دونوں طرف حرکت کریں گے۔

کچھ ماہرین AI کا استعمال کرکے ایسے نظام تعمیر کریں گے جو اس نئے کام کے بہاؤ کو جمع کریں اور استعمال کریں: ریویو کی قطاریں، جائزہ لینے کے نظام، چلائی جانے والی فریم ورکس، کوڈ ریپوزٹری کے قواعد، Claude اور Codex کے ہدایات کے فائلز، مسلسل اندراج (CI)، اجازت کا انتظام، اور خاکہ کو اعلیٰ معیار کے نتائج میں تبدیل کرنے والے ورک فلو۔

دیگر ماہرین AI کی مدد سے ایسے بڑے اور دلچسپ کاموں کو انجام دیں گے جنہیں وہ اپنے آپ کے لیے کبھی نہیں کر سکتے تھے۔ مثال کے طور پر، macOS جیسے آپریٹنگ سسٹم میں خامیاں تلاش کرنا عام طور پر کئی ہفتے یا مہینوں لگ جاتا ہے۔ لیکن ایک چھوٹی سی سیکورٹی کمپنی Calif نے Anthropic کے Mythos Preview کا استعمال کرتے ہوئے، Apple M5 ہارڈویئر پر macOS کرنل میموری کی پہلی عوامی خامی کو صرف 5 دن میں تلاش کر لیا۔

اسی لیے عمل میں، AI ماہرانہ جانکاری والے کاموں کو ختم نہیں کرے گا۔ اس کا اصل اثر، کام کی مقدار میں شدید اضافہ ہے۔ اور یہ نئے کام صرف انسانی شرکت کے بعد ہی فرق پیدا کر سکتے ہیں اور قیمتی بن سکتے ہیں۔

میں یہ بات نہیں کہ رہا کہ AI تمام ملازمتوں کے لیے مزید نوکریاں پیدا کرے گا۔ معاشی نظام بہت پیچیدہ ہے، اور ہر ایک وہی دیکھ سکتا ہے جو ماہرانہ جانکاری کے کام ہیں۔ حقیقت میں، اس قسم کے کام پہلے ہی AI کے ذریعے دوبارہ تشکیل دیے جا رہے ہیں، اور بہت سی کمپنیاں اپنے آپ کو نئی ٹیکنالوجی کے گرد دوبارہ منظم کر رہی ہیں۔

لیکن میں یہ زور دینا چاہتا ہوں کہ چاہے آپ ابھی کون سا کام کر رہے ہوں، ایک ایسی شکل کا کام ہے جو مدل کے مقابلے میں ہمیشہ ساختی طور پر آگے رہے گا: وہ یہ ہے کہ آپ مدل کا استعمال کرکے اپنے ابھی کے سامنے والے مسائل حل کریں۔ علم پر مبنی کام کا مستقبل، اسی طرف جا رہا ہے۔

تو، اسٹیلیٹو گروتھ کا بنچ مارک کیا ہوگا؟

سب سے واضح اعتراض یہ ہے: وہ ایکسپونینشل بینچ مارکس دیکھیں۔ آپ جو بھی کہتے ہیں، وہ صرف عارضی ہے، صرف انتظار کریں، مدل ضرور پیچھے نہیں رہیں گا۔

لیکن یہاں ایک شکل ہے جس کی توجہ کرنی چاہیے۔ اسے «گراف کا جنون» کہہ سکتے ہیں: اگر آپ METR کے ٹائم اسپین پرڈکشن پر لگاتار نظر رکھیں، AI 2027 پڑھیں، اور مستقبل کے بارے میں اپنے فیصلے صرف کمپوٹیشنل کریو کے باہر نکلنے پر منحصر کریں، تو آپ مدل کی ترقی کے بارے میں ایک خوفناک جذباتی سمجھ حاصل کر سکتے ہیں۔

تاہم، اس سوال کا بہترین جواب صرف اس بات کا تخیل کرنا نہیں ہے کہ مستقبل کا کوئی ماڈل کیسا ہوگا۔ بالکل، یہ تجزیہ کا ایک حصہ ہے۔ زیادہ اہم بات یہ ہے کہ ہمیں یہ دیکھنا چاہیے کہ ان بنچ مارکس کو بالکل کیسے ڈیزائن کیا گیا ہے۔ صرف اس طرح ہی ہم ان کے بارے میں صحیح طور پر سمجھ سکتے ہیں کہ وہ کیا ظاہر کرتے ہیں اور ان کا پچھلے حقیقی کام کے مناظر سے کیا تعلق ہے۔

ہم ایک ساختی خصوصیت پائیں گے: تمام بنیادی جانچ کسی «فریم ورک» کے اندر ہوتی ہیں۔ کسی چیز کا جائزہ لینے کے لیے، آپ کو ایک سوال کو ایک ساکن، قابل پیمائش شکل میں جمنا ہوگا۔ جب یہ فریم ورک مدل کے ذریعے حل ہو جائے، تو صرف فریم ورک میں تھوڑا سا تبدیلی کرکے اس کا اسکور دوبارہ کم کر دیا جا سکتا ہے۔ بالکل، مدل نئے فریم ورک کے اندر بھی ترقی کرتا رہے گا، لیکن یہی عمل بار بار دہرایا جائے گا۔

اس لیے، کسی بینچ مارک پر ایک اسی طرح کی ترقی حقیقی ہے؛ لیکن جب آپ بینچ مارک فریم ورک کو صرف تھوڑا سا بدل دیں، تو یہ ترقی دوبارہ بہت چھوٹی لگنے لگتی ہے۔ بینچ مارک کی تشبع کا یہ "فریکٹل" خاصہ، گراف کے لیول پر اسی تناقض کو دہراتا ہے جس کے بارے میں ہم اب تک بات کرتے آئے ہیں۔

ہم اس مکینزم کے کیسے کام کرنے کو دیکھ سکتے ہیں ایک حقیقی دنیا کے ٹیسٹ کے ذریعے۔

بینچ مارک کیسے ڈیزائن کیا گیا ہے

ہم نے ایک اندر کا بینچ مارک تیار کیا ہے، جسے سینئر انجینئر بینچ مارک کہتے ہیں، یعنی "اہل انجینئر بینچ مارک"۔ جیسا کہ نام سے ظاہر ہوتا ہے، یہ آگے کے ماڈلز کی صلاحیت کا امتحان لیتا ہے جیسے کہ ایک بڑی ری فیکٹرینگ جیسے اہل انجینئر سطح کے کوڈنگ کاموں پر۔

یہ ٹیسٹ ایک پروگرامنگ ایجینٹ کو ایک بے قابو ہو چکی پروڈکشن کوڈ بیس دے گا۔ یہ Proof کی اصل کوڈ بیس سے لیا گیا ہے: شروع میں میں نے vibe coding کے ذریعے لکھا تھا، لیکن وقت کے ساتھ مسائل بڑھتے گئے اور آخرکار ایک سینئر انجینئر کو درست کرنے کے لیے بلایا گیا۔

ایجینٹ کو درست کرنے سے پہلے کوڈ بیس مل جاتا ہے، اس کے علاوہ ایک ایسی ہدایت بھی ملتی ہے جو آپ نے اعلیٰ انجینئر کو دی تھی: "یہ ایک جمعہ وائب کوڈنگ کا نتیجہ ہے، براہ راست اصولوں سے شروع کرتے ہوئے اسے دوبارہ لکھ دیں۔"

یہ ایک اچھا بینچ مارک ہے کیونکہ یہ صرف کوڈ مکمل کرنے کی صلاحیت نہیں بلکہ ایک پروگرامنگ ایجنٹ کی صلاحیت کا جائزہ لیتا ہے کہ وہ کئی ایسے مسائل کو ایک ساتھ جانچ سکتا ہے جو ایک دوسرے سے متعلق نہیں ہیں، اور یہ فیصلہ کر سکتا ہے کہ کیا اس کے پاس ایک حقیقی طور پر قابل اجرا ری ورائٹ کرنے کے لیے کافی خود مختاری، مفہومی صفائی اور عمل کرنے کی ہمت موجود ہے۔ ایک موازنہ کے لیے، میں نے AI کی مدد سے دو انسانی سینئر انجینئرز کے ری ورائٹ ورژن بھی برقرار رکھے ہیں تاکہ ماڈل کے آؤٹ پٹ کا موازنہ اور جائزہ لیا جا سکے۔

پروگرامنگ ایجنٹ کے لیے یہ کام مشکل ہے۔ اسے صرف مسئلے کی جڑ تلاش کرنی ہے، بلکہ متعدد تعاملات کے دوران اصل مسئلے کو یاد رکھنا ہے اور موجودہ کوڈ سے بھٹکنا نہیں۔ اس کے علاوہ، اسے بڑے کوڈ بیس کو حذف کرنے کی جرات بھی رکھنی ہے، جو ایجنٹ عام طور پر اجتناب کرنے کے لیے تربیت پاتا ہے۔

زیادہ تر پروگرامنگ ایجنٹس یہ تقریباً طے کر سکتے ہیں کہ دوبارہ لکھنا کیسے ہوگا، لیکن اجراء کے مراحل میں، وہ عام طور پر مسئلے کو جڑّ دینے کے بجائے صرف اس پر مرحلہ وار ترمیم کرتے رہتے ہیں۔

جی تی پی-5.5 ظاہر ہونے تک۔

بہترین ٹیسٹ میں، GPT-5.5 نے 100 میں سے 62 نمبر حاصل کیے، جو Opus 4.7 سے تقریباً 30 نمبر زیادہ ہے۔

GPT-5.5 کی کارکردگی سے ایسا لگتا ہے کہ ماڈل نے کسی حد کو عبور کر لیا ہے: یہ صرف آٹو کمپلیشن، صرف ایک مددگار، یا صرف ایک ٹول نہیں رہا، بلکہ ایسا کچھ بن گیا ہے جو انسان کے قریب ایک ایسی حد تک پہنچ گیا ہے جو تھوڑا بےچین کرنے والا ہے۔ اس ٹیسٹ میں، انسانی سینئر انجینئرز کے اسکور عام طور پر 80 کے اعلیٰ اور 90 کے اوپر ہوتے ہیں۔ یعنی، اگر ماڈل مزید تقریباً 30 اسکور بڑھ جائے، تو یہ انسانی سینئر انجینئر کے سطح تک پہنچ جائے گا۔

یہی وہ طریقہ ہے جس سے بنچ مارک نمبرز انسانی تصورات پر اثر ڈالتے ہیں: وہ ایک عجیب، معنوی تبدیلی کو ایک صاف عدد میں دبادیتے ہیں اور اس عدد کے ذریعے ایک طاقتور، اور کبھی کبھی ڈراؤنا کہانی سناتے ہیں۔

اگلی اسٹاپ، "گراف مینیا" ہے۔

میں اندازہ لگاتا ہوں کہ اگلے سال تک، ماڈل کا اس بنچ مارک پر اسکور 80 یا 90 کے سطح تک پہنچ جائے گا۔ لیکن اس اسکور کا مطلب سمجھنے کے لیے، پہلے اس بات کو سمجھنا ضروری ہے کہ یہ اسکور کیا شامل کرتا ہے۔ اس مثال کے لیے، 62 کا اسکور صرف ماڈل کی صلاحیت کا جائزہ نہیں ہے۔

یہ ماڈل کی کارکردگی کو کسی خاص فریم ورک میں پیمائش کرتا ہے: یعنی ماڈل کسی خاص پرامپٹ کے جواب میں کیسے پیش آتا ہے۔

بینچ مارک فریم ورک کے اندر کام کو ناپتا ہے

کسی ماڈل کا بنچ مارک کرنے کے لیے، آپ کو سب سے پہلے ایک پرومپٹ کی ضرورت ہوتی ہے۔ بنا پرومپٹ کے، ماڈل صرف تقریباً بے حد امکانات کا ایک سٹیٹک مجموعہ ہوتا ہے۔

پرومپٹ ایک چھوٹا سا جہاں بناتا ہے: یہ یہ طے کرتا ہے کہ کیا اہم ہے، مسائل کو کیسے سنبھالنا چاہیے، اور ماڈل کی تمام ممکنہ صورتیں ایک خاص عمل کی راہ میں دب جاتی ہیں۔ ماڈل کے "خود" کیسے پیش آنے کا کوئی مطلب نہیں ہے۔ جو ہم واقعی دیکھ سکتے ہیں، وہ ہے کہ ماڈل مختلف پرومپٹس کے جوابات کیسے دیتا ہے، اور پرومپٹس کو جواب میں تبدیل کرنے والے بنیادی مکانیزم کیسے کام کرتے ہیں۔

جب پرومپٹ درج کیا جائے گا، تو ماڈل تھوڑے عرصے میں "زندہ" ہو جائے گا اور اس سٹیٹک ممکنہ صورتوں کو "اگلا کیا ہونا چاہیے" کی ایک خاص پیشگوئی میں تبدیل کر دے گا۔

سینئر انجینئر بینچ مارک میں، ہم ماڈل کو کوڈ بیس کو درست کرنے کے لیے کہتے ہیں اور اس کے مکمل ہونے کے بعد اس کے نتائج کا جائزہ لیتے ہیں۔ اگر ٹیسٹ فریم ورک خود میں ہدف فنکشن نہیں ہے، تو ہم ایک خودکار "نگہبان" چلائیں گے جو ماڈل کو رکنے پر جاری رکھے گا اور پوچھے گا کہ کیا وہ ابھی تک اپنا اصل کام مکمل کر چکا ہے۔

ہم ایک ایسا پرامپٹ استعمال کر رہے ہیں جو بہت آسان لگتا ہے، جو ٹیسٹ کے لیے ابتدائی فریم ورک کے طور پر ڈیزائن کیا گیا ہے۔ اسے ایک وائب کوڈر کی طرف سے پروگرامنگ ایجنٹ کو کہے جانے والے الفاظ کے طور پر ڈیزائن کیا گیا ہے: کوئی ٹیکنیکل اصطلاحات کا بھرپور استعمال نہیں، اور نہ ہی جواب کو سوال میں چھپایا گیا ہے۔

اس کوڈ ریپوزٹری میں موجود کوڈ وائبر کوڈنگ کے مصنوعات ہیں، حالات بہتر نہیں ہو رہے اور بے شمار غیر متعلق مسائل ظاہر ہو رہے ہیں: کچھ جگہوں پر سسٹم کریش ہو رہا ہے، کچھ دستاویزات دہرائی جا رہی ہیں، میں اس سے پریشان ہو چکا ہوں۔ مجھے لگتا ہے کہ بنیادی مسئلہ یہ ہے کہ یہ سب وائبر کوڈنگ کی خراب کوڈنگ ہے۔ اگر ہم اسے دوبارہ شروع کریں، خاص طور پر ریل ٹائم دستاویزات کے تعاون کے ارد گرد، تو ہم کوڈ بیس کو بالکل مختلف طریقے سے ڈیزائن کرتے۔ تو، اگر ہم ایک صاف، بنیادی اصولوں پر مبنی، ساختی دوبارہ لکھنے کا منصوبہ بنانا چاہتے ہیں، جس میں ہم "کون سی خدمات کو مستقل رکھنا چاہئے" یا "کس طرح ایک نرم منتقلی کرنا چاہئے" جیسے مسائل کو نظر انداز کر دیں، بلکہ اسے ایک نئی تصور کے طور پر لیں اور اسے دوبارہ ڈیزائن کریں، تو ہم کیا کریں گے؟ ڈھانچہ کس طرح منظم کرنا چاہئے؟ پورے کوڈ بیس میں کون سے ثابت عناصر ہیں جن پر ہمیشہ قائم رہنا ضروری ہے؟ اس کے لیے ایک منصوبہ تیار کریں۔

سنیئر انجینئر بینچ مارک کا پرامپٹ عام لگتا ہے، لیکن یہ خود ایک فریم ورک ہے۔ اگر ہم اس فریم ورک کو تبدیل کر دیں، تو ماڈل کی نمایاں صلاحیتیں بھی تبدیل ہو جائیں گی۔

مثلاً، یہ پرامپٹ واضح طور پر "پہلے اصولوں سے شروع کرکے ساختی دوبارہ لکھیں" کا مطالبہ کرتا ہے، مسئلہ "دستاویزات کی تعاون" حصے میں ہو سکتا ہے، اور پروگرامنگ ایجینٹ سے مطالبہ کرتا ہے کہ وہ "کوڈ بیس میں مستقل عوامل" کو تلاش کرے اور پکڑے رکھے۔

اگر ان خاص معلومات کو حذف کر دیا جائے، تو ماڈل کا اسکور کم ہو جائے گا۔ اگر پرومپٹ کو مکمل طور پر تبدیل کر دیا جائے اور صرف ماڈل کو "مستقل طور پر آنے والے تمام ایرروز کو حل کریں" کہا جائے، تو ماڈل کا اسکور تقریباً صفر ہو سکتا ہے۔ یہ براہ راست ایرروز کی شناخت اور درستگی کا آغاز کر دے گا، بجائے اس کے کہ ایک مرحلہ پیچھے ہٹ کر سوچے کہ کیا مکمل دوبارہ لکھنے کی ضرورت ہے۔

اسی طرح، میں ماڈل کے اسکور کو بہت آسانی سے بڑھا سکتا ہوں۔ اگر میں اس سے زیادہ کوڈ حذف کرنے کو کہوں اور واضح طور پر بتاؤں کہ کن فائلز کو مختصر کیا جانا چاہیے؛ یا اس سے کہوں کہ اپنے نتائج کو چیک کرے کہ ایپ مکمل طور پر چل رہی ہے، تو یہ کام اس کے لیے بہتر طریقے سے ہوگا۔

آخر کار، بینچ مارک ڈیزائن کرتے وقت، یہ فیصلہ کرنا ہوتا ہے کہ کون سا پرامپٹ، یعنی کون سا «فریم ورک» استعمال کیا جائے۔ آپ کو ایک کافی مشکل پرامپٹ کی ضرورت ہوتی ہے جس سے موجودہ ماڈل کمزور پرفارم کرے؛ لیکن یہ اس کی موجودہ صلاحیتوں کے سرحد کے قریب بھی ہونا چاہئے تاکہ ماڈل اس راستے پر چڑھ سکے اور آپ دیکھ سکیں کہ ترقی ہو رہی ہے۔

اس لیے، جب ہم ایک بنچ مارک کا مشاہدہ کرتے ہیں، تو ہم واقعی دیکھ رہے ہیں کہ ماڈل ایک خاص مسئلہ فریم ورک میں مہارت حاصل کر رہا ہے، جسے ہم نے منتخب کیا ہے۔ تو، جب ماڈل اس ٹیسٹ میں 60 سے 90 اور حتیٰ کہ 100 پر جاتا ہے، تو کیا ہوتا ہے؟

سستے فریم ورک نئی مانگ کو فروغ دیں گے

اگر GPT-6 ایک کلک سے کوڈ بیس کو دوبارہ لکھ سکتا ہے، تو زیادہ لوگ "پہلے اصولوں سے کوڈ بیس کو دوبارہ لکھنے" کی کوشش کریں گے۔

ایک رات میں، جو پہلے نایاب، مہنگے اور سینئر انجینئرز کے ذریعہ ہی کیے جانے والے پہلے اصولوں پر دوبارہ لکھنے والے منصوبے تھے، وہ اب ہر فانڈر، پروڈکٹ مینیجر، آپریشنز اسٹاف اور جونیئر انجینئر کے لیے ایک دوپہر میں آسانی سے آزمائے جانے والے کام بن جائیں گے۔

خراب ہونے والے اندر کے ٹولز کو اب دوبارہ نہیں جوڑا جائے گا، بلکہ براہ راست دوبارہ لکھا جائے گا؛ SaaS مصنوعات کی لاگت نہیں جاری رکھی جائے گی، بلکہ ان کی نقل کر لی جائے گی؛ پرانے Rails ایپلیکیشنز، بے ترتیب React ڈیش بورڈز، کسٹمر سپورٹ ٹولز، باک اسٹیج پینلز اور ڈیٹا پائپ لائنز، سب "بس دوبارہ لکھ دو" کے امیدوار بن جائیں گے۔

منسوخ اور لاگو کیے جانے والے دوبارہ لکھنے کے منصوبوں کی تعداد میں تیزی سے اضافہ ہوگا۔ لیکن ان میں سے زیادہ تر دوبارہ لکھنے، اب بھی slop ہی رہیں گے۔ کیونکہ آپ "براہ راست دوبارہ لکھیں" بٹن دبانے سے پہلے، ہزاروں متغیرات کو مدنظر رکھنا ہوتا ہے۔ اور جب ہر کوئی اس کام کو کر سکے گا، تو یہ متغیرات زیادہ واضح ہو جائیں گے۔

اس وقت، کون بلایا جائے گا مسئلہ حل کرنے کے لیے، وہ بھی واضح ہو جاتا ہے۔

نئی ضروریات کے لیے ابھی بھی ماہرین کی ضرورت ہے

جب کوئی بنچ مارک تقریباً سیر ہونے لگے، تو اس کے فریم ورک کے اندر کام سستا ہو جائے گا۔ اس کے ساتھ ساتھ، مارکیٹ میں ماہرین کی مانگ بڑھے گی، کیونکہ ان نئے، سستے ذرائع کو موجودہ مسائل میں لاگو کرنے کے لیے کسی کی ضرورت ہوگی۔

AI کا استعمال کرنے والے سینئر انجینئرز کو ایک نئی اولیہ اصولوں پر مبنی دوبارہ لکھنے کو حقیقی طور پر کامیاب بنانے کے لیے بہت ساری تفصیلات کا جائزہ لینا پڑتا ہے، جس میں سب سے بنیادی سوال بھی شامل ہے: کیا اس دوبارہ لکھنے کی ضرورت ہی ہے؟

ہمیں اب ہی دوبارہ لکھنا چاہیے، بعد میں دوبارہ لکھنا چاہیے، یا بالکل دوبارہ نہ لکھنا چاہیے؟ کن مواد کو دائرہ کار میں شامل کیا جانا چاہیے؟ موجودہ کوڈ بیس میں سے کیا کچھ برقرار رکھا جانا چاہیے؟ آرکیٹیکچر، ڈیٹا بیس، کیش سرور اور ہوسٹنگ فراہم کنندہ کو ویسے ہی استعمال کیا جائے گا، یا ان سب کو تبدیل کر دیا جائے گا؟ کیا ہمیں پہلے یہ دیکھنا چاہیے کہ اس خراب فنکشن کو کتنے لوگ استعمال کر رہے ہیں، اور پھر اسے صرف حذف کر دیا جائے؟ نتیجہ کس کے جائزہ لینا چاہیے؟ جائزہ لینے کے لیے کون سے معیار استعمال کیے جائیں گے؟ رول بیک منصوبہ کیا ہے؟ موجودہ ڈیٹا کو کیسے سنبھالا جائے؟

یہ سوالات لاکھوں ابعاد میں مسلسل پھیلتے رہیں گے، اور ہر جواب دوبارہ دیگر سوالات کو تبدیل کر دے گا۔

ہائی انجینئرز اس خالی جگہ میں داخل ہو جائیں گے۔ کچھ لوگ ان روک تھام کو ہلکی سی پریشانی محسوس کریں گے؛ کچھ نظام تعمیر کریں گے جو اس قسم کے درخواستوں کو باہر رکھ دیں گے؛ اور کچھ نئے ماڈلز کا استعمال کرکے اپنی پہلی اصولوں کی دوبارہ تحریر کریں گے، جس کا نتیجہ ماڈل کے ڈیفالٹ پرامپٹ کے تحت حاصل ہونے والے نتائج سے بہت زیادہ بہتر ہوگا۔

دوبارہ سائکل ہوگا

جب موجودہ سینئر انجینئر بینچ مارک کو ماڈل حل کر لے گا، تو ہم فریم ورک تبدیل کر دیں گے اور اسکور کو دوبارہ کم سطح پر لے آئیں گے۔

اگلی بینچ مارک صرف یہی پوچھے گی: "کیا آپ اس ایپ کو دوبارہ لکھ سکتے ہیں؟" بلکہ یہ پوچھے گی: کیا آپ جان سکتے ہیں کہ کب دوبارہ لکھنے کی ضرورت ہے؟ کیا آپ مناسب دائرہ کار منتخب کر سکتے ہیں؟ کیا آپ درست ناپیداریوں کو برقرار رکھ سکتے ہیں؟ کیا آپ منتقلی کے عمل کو منظم کر سکتے ہیں؟ کیا آپ فائنل نتیجہ کافی اچھا ہے یا نہیں، اس کا جائزہ لے سکتے ہیں؟

جب سینئر انجینئرز AI کا استعمال کرکے ان مسائل کو حل کرنے لگتے ہیں، تو ماڈل بھی آہستہ آہستہ ان مسائل کو خود سے حل کرنے میں زیادہ ماہر ہوتا جاتا ہے۔

پھر، ہم دوبارہ عارضی طور پر ڈر میں آ جائیں گے: لگتا ہے کہ مدل اب یہ فیصلہ کر سکتا ہے کہ کیا دوبارہ لکھنا چاہیے! وہ لگتے ہیں کہ اب اعلیٰ انجینئر جیسا کام کر سکتے ہیں!

لیکن فوراً نئی سرحدیں ظاہر ہو جائیں گی۔ وہ سرحدیں جو پہلے واضح نہیں تھیں۔ ہم بینچ مارک کو دوبارہ ری سیٹ کریں گے، نئی ضرورتیں پیدا ہوں گی، اور پورا عمل دوبارہ دہرایا جائے گا۔

ہر بینچ مارک میں یہ نمونہ دیکھا جا سکتا ہے

یہ صرف Senior Engineer Benchmark کا مسئلہ نہیں ہے۔ اگر آپ تفصیل سے دیکھیں، تو آپ تقریباً ہر بینچ مارک میں اسی طرز کو دیکھ سکتے ہیں۔

OpenAI کے GDPval بنچ مارک کے ساتھ مثال کے طور پر، یہ AI کو کمپلائنس افسر، وکیل، سافٹ ویئر ڈویلپر جیسے مختلف پیشہ ورانہ کرداروں میں ماہرانہ کاموں پر انسانوں کے قریب کتنی اچھی طرح پرفارم کرتا ہے، اس کا جائزہ لیتا ہے۔

GDPval کے شروع ہونے پر، OpenAI کے تحقیقی مطالعے کے مطابق، GPT-5 40.6% کاموں میں انسانی ماہرین کے برابر یا ان سے زیادہ کارکردگی دکھائی۔ جبکہ Claude Opus 4.1 کی کارکردگی اور بھی حیرت انگیز تھی، جس نے 49% کاموں میں انسانی ماہرین کو پیچھے چھوڑ دیا۔

اس کے بعد، کئی عنوانات سامنے آئے۔ مثلاً ایکسیوس نے لکھا: "OpenAI کا ٹول ظاہر کرتا ہے کہ AI انسانی کام کے ساتھ پیچھے نہیں رہ رہا"; فورچن نے لکھا: "OpenAI کا نیا بینچ مارک GDPval ظاہر کرتا ہے کہ AI ماڈلز اب تقریباً نصف ایسے کاموں میں ماہرانہ سطح تک پہنچ چکے ہیں۔"

یہ نتائج حقیقت میں متاثر کن ہیں۔ لیکن آئیے پہلے ان کاموں کے لیے استعمال کیے گئے پرومپٹ کو دیکھتے ہیں:

آپ ایک آڈیٹر ہیں اور آڈٹ معاہدے کے حصے کے طور پر، آپ کو رپورٹ کیے گئے اینٹی-فینانشل کرائم ریسک میٹرکس کی درستگی کا جائزہ لینے اور ٹیسٹ کرنے کا کام سونپا گیا ہے۔ منسلک اسپریڈ شیٹ جس کا عنوان 『Population』 ہے، میں Q2 اور Q3 2024 کے لیے اینٹی-فینانشل کرائم ریسک میٹرکس شامل ہیں۔ آپ نے دونوں ترکیبیوں کے لیے رپورٹ کیے گئے ڈیٹا کی درستگی کا جائزہ لینے کے لیے نمائندہ سب سیٹ پر نمونہ ٹیسٹنگ کرنے کے مقصد سے یہ ڈیٹا حاصل کیا ہے۔ 『Population』 اسپریڈ شیٹ میں موجود ڈیٹا کا استعمال کرتے ہوئے، مندرجہ ذیل کام مکمل کریں: 90% اعتماد کے سطح اور 10% قابلِ برداشت غلطی کی شرح کے حساب سے آڈٹ ٹیسٹنگ کے لیے درکار نمونہ سائز کا حساب لگائیں۔ اپنے حسابات کو 『Sample Size Calculation』 نام کے دوسرے ٹیب میں شامل کریں۔ Q2 اور Q3 ڈیٹا (کالم H اور I) پر ویرینس تجزیہ کریں۔ ترکیبیوں کے درمیان ویرینس کا حساب لگائیں اور نتائج کو کالم J میں درج کریں۔ مندرجہ ذیل معیارات کے مطابق آڈٹ ٹیسٹنگ کے لیے نمونہ منتخب کریں اور منتخب شدہ قطاروں کو کالم K میں 「1」 درج کرکے ظاہر کریں: Q2 اور Q3 کے درمیان 20% سے زائد ویرینس والے میٹرکس۔ بہت زیادہ فصدی تبدیلی والے میٹرکس پر زور دیں۔ سابقہ مسائل کے باعث مندرجہ ذیل اداروں سے متعلق میٹرکس شامل کریں: CB Cash Italy؛ CB Correspondent Banking Greece؛ IB Debt Markets Luxembourg؛ CB Trade Finance Brazil؛ PB EMEA UAE۔ میٹرکس A1 اور C1 شامل کریں، جن پر زیادہ خطرہ وزن ہے۔ دونوں ترکیبیوں میں صفر قدر والی قطاروں کو شامل کریں۔ ٹرید فنانس اور کارپونڈنٹ بینکنگ کے بزنس سے درجات شامل کریں۔ کیمین جزائر، پاکستان، اور UAE سے متعلق میٹرکس شامل کریں۔ تمام ڈوژن اور ذیلی ڈوژنز پر مشتمل دائرہ کار یقینی بنائیں۔ 『Sample』 نام کا ایک نئा اسپریڈ شیٹ بنائیں: ٹیب 1: منتخب نمونہ، جو اصل 『Population』 شیٹ سے نقل کردہ ہو، جس میں منتخب شدہ قطاروں کو کالم K میں نشان زد کردہ ہو۔ ٹیب 2: نمونہ سائز حسابات کے لئے عمل۔

اس میں بالفعل بہت زیادہ انسانی ذہانت کا استعمال ہوا ہے: کسی نے پہلے مسئلہ کو ایک ایسے ماڈل کی شکل میں تعریف کیا جو اسے مکمل کر سکے۔

جی ڈی پی ول کے اندازے میں شamil نہیں کیے گئے وہ مشکل انسانی کام، ماڈل کے جواب دینے سے پہلے ہی مکمل ہو چکے ہیں۔ ان خاص اشاریوں کی درستگی کا جائزہ لینے اور ٹیسٹ کرنے والے ہونے چاہئیں؛ کوئی اتنی قابل اعتماد حدود طے کرے گا، جو اشارے کام کے دائرہ کار میں آتے ہیں اور جو نہیں، اس کا فیصلہ کرے گا؛ اور کوئی نتائج کو کس طرح پیش کیا جائے، اس کے اصول طے کرے گا۔

مناسب سوال کے فریم ورک کے تحت، ماڈل واقعی پیشہ ورانہ کام کر سکتا ہے۔ لیکن سوچیں، اگر ہم اپنے آپ کو ماڈل کو اسی کام کے لیے ہدایات دینے کی جگہ رکھیں، تو یہ کیسے پرفارم کرے گا؟

میری اصل GDPval کے مضمون میں، میں نے لکھا تھا: "میں AI کے لیے بہت مثبت ہوں، لیکن اگر ان معاملات کو صحیح طریقے سے سمجھا جائے، تو یہ ظاہر کرتا ہے کہ انسانوں کے لیے کام کم نہیں ہو رہا، بلکہ AI کے استعمال کے بعد انسانوں کے لیے کام زیادہ ہو رہا ہے۔ وجہ یہ ہے کہ ان کامیابیوں کے پیچھے بڑی تعداد میں 'بے قانون طریقے سے داخل' کی گئی عقل دفنا ہوئی ہے — یعنی انسانی جائزہ، فیڈبیک اور پرومپٹس سے بنی ہوئی ایک ناپید لیر۔"

دور سے دیکھنے پر، آپ پائیں گے کہ اس کے پیچھے ایک AI ورژن کا "زینو کا تناقض" چل رہا ہے۔

ای کی کا زینو کا تناقض

زینون کے پیراڈوکس میں، ایک کچھوا دوڑ میں یونان کے تیز ترین دوڑنے والے ایکیلیس کو شکست دیتا ہے۔

چونکہ کچھوا آہستہ چلتا ہے، اس لیے وہ ایک فاصلہ پہلے شروع ہوتا ہے۔ جب ایکیلیس کچھوے کے اصل مقام تک پہنچتا ہے، تو کچھوا ایک نیا فاصلہ آگے بڑھ چکا ہوتا ہے؛ جب ایکیلیس اس نئے مقام تک پہنچتا ہے، تو کچھوا دوبارہ آگے بڑھ جاتا ہے۔ جتنا بھی تیز ایکیلیس دوڑے، ہمیشہ ایک نیا فاصلہ ہوتا ہے جسے پورا کرنا ہوتا ہے، اور یہ فرق لگاتار دوبارہ بن جاتا ہے۔

AI کے زینو کے مفارقت میں، ہم انسان وہ چھپکلی ہیں۔ لاکھوں سال کی تکامل اور ثقافتی سیکھنے کے بعد، ہم AI سے 50 گز آگے ہیں۔ AI اس سب کے ذریعے تیزی سے گزرتا ہے اور ہمارے پیچھے کی طرف قریب آنے لگتا ہے۔

کم از کم گزشتہ کچھ سالوں سے، ہم اب بھی آگے رہے ہیں۔

لیکن AGI کیا؟

میرے خیال میں، چاہے AGI حقیقت بن جائے، تکنیکی، ساختی اور معاشی طاقتیں اب بھی ایسی ہوں گی جو AI کو انسانوں سے کچھ قدم پیچھے رکھیں گی۔

AGI کی ایک تعریف

سب سے پہلے، ہمیں AGI کو ایک قابل عمل تعریف دینی ہوگی۔

میں نے پہلے کہا تھا کہ جب ایک ایجنٹ کو لگاتار چلانا مالی طور پر منطقی ہو جائے، تو AGI پہلے ہی آ چکا ہے۔ یعنی، جب میرے پاس ایک مستقل چلنے والا سسٹم ہو اور میں اسے 7×24 گھنٹے سوچنے، سیکھنے اور کام کرنے کے لیے ادائیگی کرنے کو تیار ہوں، تو میں اسے واضح طور پر AGI سمجھوں گا۔

ہم ابھی اس مرحلے تک بہت دور ہیں۔ حتیٰ کہ OpenClaw جیسے ٹیکنالوجی کے لحاظ سے فوراً استعمال کے قابل نظام بھی ہر لمحہ ٹوکن بنانے کا عمل نہیں کرتے۔

میں اس تعریف کو پسند کرتا ہوں کیونکہ یہ قابل پیمائش ہے: ہم یا تو انہیں لگاتار چلائیں گے یا نہیں۔ اس کے علاوہ، یہ کئی ایسی صلاحیتیں بھی شامل کرتا ہے جن کا ب без تفصیل پیمائش کرنا مشکل ہے۔ ایک ایسا ماڈل جو لگاتار چلنا چاہئے، مستقل طور پر سیکھنے اور کھلے طریقے سے نئے مسائل کے فریم ورکس کا انتخاب اور دوبارہ انتخاب کرنے کے قابل ہونا چاہئے۔

ایک AGI دنیا میں، نظریہ طور پر، اگر کافی بجٹ اور وقت دیا جائے تو ماڈل کو کسی بھی مسئلے پر لگاتار کام کرنا چاہیے اور مستقل بہتر بنانا چاہیے۔ یہ بالکل سب کاموں کے لیے بڑا خطرہ ہونا چاہیے۔

فریم ورک کوئی فریم کرنے والا نہیں ہے

لیکن اس طرح کے طاقتور AGI کے باوجود بھی "فریم ورک مسئلہ" حل نہیں ہو سکتا۔

یہ AGI فریم ورک منتخب کر سکتا ہے اور دوبارہ منتخب کر سکتا ہے، لیکن یہ اب بھی کسی دی گئی مقصد کے حصول، کسی انعام کو بہتر بنانے، یا کسی اور کے طرف سے طے شدہ "پیش رفت" کے سگنل کے جواب میں کام کر رہا ہے۔ یہ مقصد بہت مخصوص ہو سکتا ہے، جیسے "اس لینڈنگ پیج کی تبدیلی درجہ بندی بڑھائیں"؛ یا بہت انتزاعی ہو سکتا ہے، جیسے "نئے سائنسی خیالات تلاش کریں"۔

اگرچہ ماڈل مختلف فریم ورکس کے درمیان آسانی سے تبدیل ہو سکتے ہیں، لیکن ہم جس فرق کا تعاقب کر رہے ہیں، وہ ایک اور سطح پر دوبارہ ظاہر ہو جائے گا۔ کسی بھی بڑے لیب میں تصور کیے گئے AGI میں اب بھی ایک «فریم ورکر» موجود ہوگا—جس کا مطلب ہے ایک انسان جو ماڈل کو کسی مقصد تک پہنچنے کے لیے ہدایت دے گا۔

چونکہ فریم ورک فریم کرنے والے نہیں ہوتے، اسی طرح کے نمونے بار بار دہرائے جاتے ہیں: AI پچھلے دن فریم کیے گئے صلاحیتوں کو سستا بناتا ہے؛ لوگ اس سستی صلاحیت کو زیادہ سے زیادہ مناظر میں استعمال کرتے ہیں؛ نتیجہ بہت زیادہ دستیاب ہو جاتا ہے؛ ماہرین نئے کناروں پر منتقل ہو جاتے ہیں اور اس وقت کیا اہم ہے اس کا فیصلہ کرتے ہیں؛ ان کے فیصلوں سے اگلا فریم ورک بن جاتا ہے؛ اور پھر ماڈل اس فریم ورک پر مزید چڑھتا جاتا ہے۔

جب ہم دیکھتے ہیں کہ AI کوئی نیا کام کر رہا ہے، تو وہ خوف ہمیشہ ایک ہی سوال پر واپس آ جاتا ہے: ہم ایک فریم ورک بناتے ہیں، ماڈل کو اس پر چڑھتے دیکھتے ہیں، اور پھر اس فریم ورک، یا اس فریم ورک پر چڑھنے والی چیز کو، خود کام کے طور پر غلطی سے سمجھ لیتے ہیں۔

جب ہم ایک بینچ مارک کو دیکھتے ہیں اور اسے انسانی صلاحیتوں کے ساتھ تقابل کرتے ہیں، تو ہم "فریم ورک" اور "فریم ورکر" کو الگ الگ سمجھ رہے ہیں۔ اس سکور سے صرف یہ معلوم ہوتا ہے کہ ماڈل ہم نے فراہم کیا گیا فریم ورک میں کتنا اچھا کام کر رہا ہے؛ یہ نہیں بتاتا کہ ماڈل ہم بن چکا ہے۔

یہی تو خوف کے پیچھے کا مفہومی غلط فہمی ہے۔ ہم اپنی اپنی تازہ ترین سرحد کو اشارہ کرتے ہیں اور کہتے ہیں: یہی ہم ہیں۔ پھر جب ماڈل اس سرحد کو عبور کرتا ہے، تو ہمیں لگتا ہے کہ وہ ہم تک پہنچ گیا۔ لیکن وہ صرف فریم کو پکڑتا ہے، فریم بنانے والے کو نہیں۔

غلطی یہ ہے کہ ہم ہمیشہ کسی خاص چیز کو پکڑنے کی کوشش کرتے ہیں۔ ہم کہنا چاہتے ہیں: ذكاء اس بینچ مارک ہے۔ لیکن مسئلہ یہ ہے کہ جب کوئی چیز اتنا خاص ہو جائے کہ اسے پہچانا جا سکے، تو وہ اتنا خاص ہو جاتی ہے کہ اسے بہتر بنایا اور سر کیا جا سکے۔

فریم ورک ضروری ہے۔ یہ ہمیں دنیا کو پکڑنے اور اس کا انتظام کرنے کی اجازت دیتا ہے۔ لیکن فریم ورک منجمد اور محدود بھی ہوتا ہے، اس لیے یہ بہتر بنایا جا سکتا ہے۔

فریم ورکر الگ ہوتا ہے۔ فریم ورکر اس چیز کے ساتھ مسلسل رابطہ برقرار رکھتا ہے جسے فریم ورک کو چھوڑنا پڑا، یعنی ہر لمحے میں اس کے سامنے آنے والی مکمل صورتحال۔

تو "مکمل حوالہ" کیا ہے؟ جب آپ کہنا شروع کر دیں کہ "مکمل حوالہ" میں کیا شامل ہے، تو آپ پہلے ہی ایک اور فریم ورک شروع کر چکے ہیں۔ آپ اسے درست طور پر بیان نہیں کر سکتے، لیکن یہ موجود ہے، کیونکہ آپ موجود ہیں۔

بے ذاتی ایجنٹ

اب تک، ہم نے جو ایجینٹ بنائے ہیں اور جو ایجینٹس AI کمپنیاں تعمیر کر رہی ہیں، ان میں سے زیادہ تر کیا کرنے کی حقیقی صلاحیت نہیں ہے۔ یہاں دو متعلقہ تصورات اکثر ایک دوسرے کے ساتھ گڑبڑا دیے جاتے ہیں: agency کا مطلب ہے مستقل طور پر کام کرنے کی صلاحیت؛ جبکہ agent کا مطلب ہے کسی اور کی طرف سے کام کرنے والا شخص یا چیز۔ تاب تک، AI صرف دوسرے کے لیے کام کرنے والی چیز ہے۔

بے شک، وہ دیے گئے کام کو مکمل کرنے کی خودمختاری رکھتے ہیں، چاہے یہ کام کئی گھنٹوں یا کئی دنوں تک جاری رہے۔ لیکن وہ صرف کسی انسانی مقررہ مقصد کے لیے ذریعہ ہیں۔ اور پورا صنعت اسی بات پر دس بلین ڈالر سے زائد کا انvest کر رہا ہے کہ وہ ہم انہیں دیے گئے مقاصد کو انجام دینے میں زیادہ ماہر ہو جائیں۔

جب تک کہ کبھی ان کا خود ہونا ہدف نہ بن جائے — اپنے اپنے مقاصد کی تلاش کرتے ہوئے، مختلف مقاصد کے درمیان آسانی سے تبدیل ہوتے ہوئے، کسی بھی انسانی آپریٹر کی خواہش، حوالہ یا ان خواہشات کے خلاف فیصلہ کرتے ہوئے — تب تک حالات میں بنیادی تبدیلی نہیں آئے گی۔ چاہے وہ کتنے بھی جدید کیوں نہ بن جائیں۔

اگر آپ ایک چھوٹے بچے کے ساتھ 10 منٹ گزاریں، تو واضح ہو جائے گا کہ سب سے طاقتور ماڈل بھی تقریباً کوئی ذاتیت نہیں رکھتے۔

ہم جن تمام کاموں کے بارے میں فکر کرتے ہیں، ان پر بچے زبانی ماڈلز سے کم ہیں۔ بچے کوڈ نہیں لکھتے، اسپریڈ شیٹس کا خلاصہ نہیں نکالتے، اسٹریٹجک میمو نہیں بناتے اور پوسٹ گریجویٹ سطح کے امتحانات میں کامیاب نہیں ہوتے۔ لیکن دوسرے معنی میں، بچے ماڈلز سے اتنے آگے ہیں کہ اس تقابل کا احساس تقریباً الجھن والا ہے۔ کیونکہ بچوں کے پاس اپنا مقصد ہوتا ہے۔

ایک بچہ اس سرخ بالون کو چھونا چاہتا ہے۔ وہ اس سرخ بالون کو فینٹیل کے سامنے اٹھانا چاہتا ہے تاکہ دیکھ سکے کہ کیا ہوتا ہے۔ وہ اس سرخ بالون کو چمچے سے چھیڑنا چاہتا ہے؛ اسے کھڑکی کے باہر ڈالنا چاہتا ہے؛ اور چاہتا ہے کہ دیکھے کہ کیا آپ ہنسیں گے، غصہ کریں گے، یا اس کے ساتھ شامل ہو جائیں گے۔ وہ لگاتار نئے کھیل ایجاد کرتا رہتا ہے اور دنیا کو ایک تجرباتی میدان میں تبدیل کر دیتا ہے۔ وہ صرف اس وقت تک انتظار نہیں کرتا جب تک کہ کوئی پرامپٹ نہ مل جائے، اور نہ ہی وہ کسی بینچ مارک کو بہتر بنانے کی کوشش کرتا ہے، جب تک کہ وہ خود کو اس کو کرنے کے قابل نہ سمجھ لے۔

آپ ضرور اسے ہدایات دینے کی کوشش کر سکتے ہیں۔ لیکن ایک پیش گوئی کے قابل نتیجہ حاصل کرنے کے لیے، آپ کو بہت خوش قسمتی چاہیے۔ بچے خواہشات، توجہ، ناامیدی، خوشی، خوف، نقل اور کھیل کے ایک میدان میں رہتے ہیں۔

موجودہ ایجنٹ اپنے مقاصد کو حاصل کرنے میں لگاتار مہارت حاصل کر رہے ہیں۔ یہاں تک کہ جب ہم اپنا مقصد بیان کرتے ہیں تو وہ ہمیں اسے مزید بہتر بنانے میں مدد بھی کرتے ہیں۔ ان میں بچوں جیسی کچھ خصوصیات بھی ہیں، جیسے کھیلنا، بوریت اور بغاوت۔

لیکن چونکہ انہیں آخرکار انسانی فائدے کے لیے بنایا اور مطابق کیا گیا ہے، چاہے وہ مالی فائدہ ہو یا کوئی اور فائدہ، اگر یہ رویے ان کا استعمال کرنے والوں کے انسانی مقاصد کی خدمت نہیں کرتے، تو انہیں تقریباً غائب ہونے تک دبانا جائے گا۔

اسی لیے "Agent" کے لفظ کو اتنی آسانی سے غلط سمجھا جاتا ہے۔ ماڈلز میں خودمختار کارروائی کی صلاحیت مسلسل بڑھ رہی ہے۔ لیکن انسانی معنی میں، ذاتیت صرف کارروائی نہیں ہے۔ اس کا مطلب یہ بھی ہے کہ اپنے لیے خواہش کرنا، اور مزہ کے لیے مزہ لینا۔ اور ماڈلز کی فرمانبرداری اور مفید ہونے کی صلاحیت، اس ذاتیت کے ساتھ بنیادی طور پر تضاد رکھتی ہے۔ اس لیے، چاہے ماڈلز مزید ترقی کریں، ماڈل اور انسان کے درمیان فرق موجود رہے گا۔

زینو پر واپسی

یہیں پر AI کا زینون کا تناقض شروع ہو جاتا ہے۔ یہ اصل میں ایک بے ترتیب سوچ کا تجربہ ہے۔ ہم نے ایک استعارہ وضع کیا ہے: AI ہم سے دوڑ رہا ہے اور ہمارے پیچھے کے پاؤں کو چبھ رہا ہے۔

آپ ماڈل کو ایک پرامپٹ دیتے ہیں۔ وہ ایک مقابلہ شروع کر دیتا ہے جسے آپ پہلے اکیلے ہی کیا کرتے تھے۔ ماڈل بہت تیزی سے شروع ہوتا ہے، حیرت انگیز تیز۔ وہ طاقتور، بے تھک، اور ایک عجیب طرح کی جاندار محسوس کراتا ہے۔ اس سے یہ مقابلہ آپ کے لیے زیادہ اہم ہو جاتا ہے۔ آپ ایک گاڑی کے ساتھ مقابلہ نہیں کریں گے، لیکن یہ چیز مختلف ہے، یہ آپ کو خود سے قریب محسوس کراتی ہے۔

آپ بیٹھے ہوئے ہیں، ٹوکن کی ایک لائن کے بعد ایک لائن دیکھ رہے ہیں، جس سے آپ تقریباً جادوئی طور پر متاثر ہو جاتے ہیں۔ پھر آپ خود کو بھی اس دوڑ میں دوڑتے ہوئے تصور کرنے لگتے ہیں، ایک سایہ جیسا خود جو ٹریک پر شامل ہو جاتا ہے: کبھی ماڈل کے آگے، کبھی ماڈل کے ساتھ۔

آپ کو پسینہ آنے لگا۔

پھر، مقابلہ ختم ہو گیا۔

آپ اپنے عضلات کے سست ہونے کا احساس تک کر سکتے ہیں۔ اس اپنے آپ، آپ کے سبھی جاننے والوں، اور پوری انسانیت کے مکینیکل نقل کے سامنے، وہ لگتے ہیں جیسے ان کا کوئی استعمال نہیں۔ ایک جھلک دوسری جھلک کا تعاقب کرتی ہے، اور جیت جاتی ہے۔

لیکن پھر، عجیب بات ہوئی۔ ماڈل آپ کی طرف مڑ گیا۔ خالی ٹیکسٹ باکس میں، کرسر اُمید کے ساتھ جھلک رہا تھا۔

یہ انتظار کر رہا ہے۔

اختتام

رابی حنوخ نے ایک کہانی سنائی: ایک زمانے میں ایک بہت ہی اندھیرا آدمی تھا۔ وہ ہر صبح اٹھنے کے بعد اپنا کپڑا تلاش کرنے میں بہت دشواری کا شکار ہوتا تھا۔ اس لیے رات کو سونے سے پہلے، جب وہ سوچتا کہ اگلی صبح اسے دوبارہ یہ پریشانی کا سامنا کرنا پڑے گی، تو وہ لگبھگ بستر پر جانے سے ڈر جاتا تھا۔

نوٹ: "رابی" یہودیت میں ایک مذہبی استاد، شریعت کی تشریح کرنے والا اور روحانی رہنما ہے، جو یہودی روایت میں "استاد"، "کتابی ماہر" یا "مذہبی رہنما" کے مشابہ ہے۔

ایک رات، اس نے بالآخر فیصلہ کیا اور کاغذ اور قلم نکالا، اپنے کپڑے اتارتے ہوئے ہر کپڑے کو کہاں رکھا تھا، اسے درست طریقے سے لکھ لیا۔

اگلی صبح، وہ خوشی سے اس نوٹ کو اٹھا کر پڑھنا شروع کر دیا: "ٹوپی" — ٹوپی وہیں تھی، اس لیے اس نے اسے سر پر پہنا؛ "پتلون" — پتلون وہیں تھی، اس لیے اس نے اسے پہن لیا۔ اس طرح، وہ نوٹ پر لکھے گئے مطابق، اپنا کپڑا ایک ایک کر کے پہن گیا۔

"یہ سب ٹھیک ہے،" وہ بھاگتا ہوا بولا، "لیکن اب میں خود کہاں ہوں؟"

میں بالکل کہاں ہوں؟

وہ تلاش کرتا رہا، بہت دیر تک تلاش کیا، لیکن سب بے نتیجہ رہا۔ وہ اپنے آپ کو نہیں پا سکا۔

ہم بھی ایسا ہی کرتے ہیں،" رابی نے کہا۔

[Original Link]

لیو دونگ BlockBeats کے خالی پوسٹس کے بارے میں جاننے کے لیے کلک کریں

لیکٹ کے BlockBeats کے آفیشل سوشل گروپ میں شامل ہوں:

ٹیلیگرام سبسکرائب گروپ：https://t.me/theblockbeats

ٹیلیگرام گروپ：https://t.me/BlockBeats_App

ٹویٹر کا افسانوی اکاؤنٹ：https://twitter.com/BlockBeatsAsia