Anthropic نے Claude Fable 5 جاری کیا، جو انسان اور مشین کی تعاون کی نمونہ کو دوبارہ تعمیر کرتا ہے۔

مضمون کے مصنف، ذریعہ: نئی بُدھی

[ڈائریکٹر] Fable 5 کے اجرا کے بعد، Claude Code ٹیم نے کہا کہ وہ اب Claude کی یہ چیک نہیں کر رہے کہ وہ کام درست طریقے سے کر رہا ہے، بلکہ وہ یہ چیک کر رہے ہیں کہ وہ درست کام کر رہا ہے۔ ڈویلپرز اب کوڈ کے آؤٹ پٹ کی نگرانی کرنے والے مانیٹرز سے بدل کر معیارات طے کرنے والے پروڈکٹ منیجر بن رہے ہیں، اور عالِم مہارت کا معیار بھی تبدیل ہو گیا ہے۔

ایک رات میں، پورے انٹرنیٹ پر اڑتے ہوئے تھلیوں سے بنایا گیا ایک "5" کا حرف وائرل ہو گیا۔

اس تصویر کا مرکزی کردار، اینثروپک کا تازہ ترین اور طاقتور ترین ماڈل — کلاؤڈ فیبل 5 ہے۔

https://www.anthropic.com/news/claude-fable-5-mythos-5

Anthropic نے اعلان کیا ہے کہ یہ ان کا پہلا مائیتھوس لیول ماڈل ہے جو عام صورتحال کے لیے محفوظ طریقے سے ڈیزائن کیا گیا ہے اور اس کی صلاحیت پہلے جاری کیے گئے کسی بھی ماڈل سے زیادہ ہے۔

اس کے فوراً بعد، آفسیل نے تمام صارفین کے 5 گھنٹے اور ہفتہ وار ریٹ لِمٹس کو صفر کر دیا، تاکہ لوگ "فیبل 5" کا مکمل لطف اٹھا سکیں۔

ڈیولپرز کی طرف سے، بھی ایک رات میں تبدیلی آ گئی۔

کلوڈ کوڈ ٹیم کے اپنے الفاظ میں: پہلے، وہ دیکھتے تھے کہ کلوڈ کام درست طریقے سے مکمل کر رہا ہے یا نہیں؛ اب، وہ دیکھتے ہیں کہ کلوڈ درست کام کر رہا ہے یا نہیں۔

کلوڈ کوڈ ٹیم کے رکن ثارق شیہپر کا خیال ہے کہ فیبل مدل کے شعبے میں ایک بڑی کامیابی ہے، جو لوگوں کے کلوڈ کے ساتھ تعاون کے طریقے بدل دے گی، اور اس قابلِ اعتماد آلہ کے ساتھ، "ابھی زیادہ خواہشات رکھنا وقت آ گیا ہے۔"

ثارق AskUserQuestion ٹول کے مصنف ہیں۔ اس ٹول کا کام یہ ہے کہ AI آپ کو اپنے سوالات پوچھے: کوڈ لکھنے سے پہلے، ایک سیریز چوائس سوالات پوچھ کر ایمپلیمنٹیشن کی تفصیلات، حدود کی صورتحال اور توازن کو واضح کرے۔ جتنا لمبا مدل خود چلے، اتنی ہی زیادہ اہمیت ہے کہ پہلے سے سب کچھ واضح کیا جائے۔

طارق نے ٹیم کی طرف سے Fable 5 کے ساتھ لائے گئے تبدیلیوں کا جائزہ بھی شیئر کیا—

تین باتیں تبدیل ہو گئیں: آپ اسے کیسے کام دیتے ہیں، آپ اسے کیسے چیک کرتے ہیں، اور آپ ایک ساتھ کتنے اس کی ہدایت کر سکتے ہیں۔

اول Anthropic کی اشاعت میں Stripe کا کیس دیکھیں: 50 ملین لائنز کے Ruby کوڈ بیس کی مکمل منتقلی، جسے انسانی طور پر دو ماہ سے زیادہ لگتا، Fable 5 نے ایک دن میں مکمل کر لیا۔

50 ملین لائنز کے روبی کوڈ بیس کو مکمل طور پر منتقل کرنے کے لیے، اگر انسانی طور پر کیا جائے تو ایک ٹیم کو دو سے زیادہ ماہ لگیں گے، لیکن Fable 5 نے صرف ایک دن میں کر دیا۔

دو ماہ کو ایک دن میں دبایا جانا، صرف تیزی کا مسئلہ نہیں، بلکہ انسان اور AI کے درمیان تقسیمِ کام کو دوبارہ تعریف کیا جا رہا ہے۔

نگرانی کے عمل سے لے کر معیارات طے کرنے والے پروڈکٹ مینیجر تک

اس اپگریڈ کا مرکزی نقطہ اسکور نہیں ہے۔

اینٹروپک نے کلود کوڈ کو "ایجینٹ کوڈنگ ماحول" کے طور پر متعین کیا ہے۔

یہ فائلیں پڑھ سکتا ہے، کمانڈز چلا سکتا ہے، کوڈ تبدیل کر سکتا ہے، اور جب آپ دیکھ رہے ہوں، روک رہے ہوں، یا بالکل چلے جائیں تو خود بخود مسئلہ آگے بڑھاتا رہے۔

یہی اہم بات ہے: اگر یہ خود کام کر رہا ہے تو آپ کیوں دیکھ رہے ہیں؟ کلوڈ کوڈ کی آفیشل بہترین عمل میں ایک جملہ ذکر کیا گیا ہے:

اگر آپ کلاؤڈ کو کوئی قابل اجرا چیک لس نہیں دیتے، تو آپ خود وہی تصدیقی حلقوں میں تبدیل ہو جائیں گے۔ ہر غلطی کا انتظار آپ کو اپنی آنکھوں سے دیکھنے کا ہوگا۔

کلود کوڈ کی سرکاری بہترین عملیات: کلود کو ایک قابل اجرا چیک، ٹیسٹ، بنانے یا اسکرین شاٹ کے مقابلہ کے ساتھ دیں، ورنہ آپ خود تصدیق کے حلقوں میں شامل ہو جائیں گے

یعنی پہلے آپ مانیٹر تھے، اسکرین کے سامنے بیٹھ کر اس کے ہر ایک قدم کو دیکھ رہے تھے، ایک لائن غلط ہوتی تو اسے درست کرتے تھے۔ اب صورتحال مختلف ہے۔ آپ کا کام "مرحلہ وار ہدایات دینا" سے "مقصد تعریف کرنا، کافی سیاق و سباق فراہم کرنا، اور قبولیت کے معیارات طے کرنا" میں تبدیل ہو گیا ہے۔

"ہدف اور سیاق و سباق دیں" سننے میں پیچیدہ نہیں لگتا، لیکن اسے عمل میں لانا آسان نہیں، اور سرکاری بہترین عمل نے رہنمائی بھی فراہم کی ہے۔

اسے شروع میں فوراً کوڈ لکھنے کے لیے نہیں کرنا چاہیے، پہلے اسے تلاش کرنے دیں، پھر منصوبہ بناۓ، اور آخر میں ہی کام شروع کریں، تاکہ وہ غلط مسئلے کو حل کرنے میں مصروف نہ ہو جائے۔

ایک اہم بات یہ بھی ہے کہ جس AskUserQuestion کا ذکر پہلے کیا گیا، اس کا استعمال کرکے کلوڈ آپ کو پہلے انٹرویو کرے، جس سے آپ نے واضح نہیں کیے گئے عمل کی تفصیلات، حدود کی صورتحال، اور توازن کے معاملات ایک ایک کرکے نکل آئیں، اور آخر میں ایک SPEC.md بن جائے۔

ان تیاریوں کے لیے وقت ضائع نہیں ہے۔ جب ماڈل کی صلاحیت کافی مضبوط ہو جائے اور وہ خود کام کر سکے، تو اس کی ضروریات واضح طور پر بیان کرنا آپ کے اسے کوڈ لکھنے پر نظر رکھنے سے کہیں زیادہ قیمتی ہو جائے گا۔

یہی وہ چیز ہے جو کلود کوڈ ٹیم کے ساتھ پیش آئی: پہلے یہ جانچنا کہ کلود نے چیزیں درست طریقے سے کی ہیں، اب یہ جانچنا کہ کلود درست چیزیں کر رہا ہے۔

چھوڑنا آسان ہے، لیکن اعتماد کیسے کریں؟

آزادی کا احساس اچھا لگتا ہے، لیکن کلاؤڈ پر کیوں بھروسہ کریں؟

اس کا سب سے زیادہ پریشان کن پہلو یہ ہے کہ غلط ہونے کے باوجود یہ بہت یقینی انداز میں پیش آتا ہے۔ اور جتنا مدل طاقتور ہوگا، اس کا نتیجہ اتنا ہی قابلِ اعتماد لگے گا، اور غلطیاں اتنی ہی مشکل سے نظر آئیں گیں۔

کلوڈ "لگتا ہے کہ ختم ہو گیا" پر رک جائے گا، لیکن یہی سب سے خطرناک سگنل ہے۔

کوئی بھی چیک نہیں چل رہا، "مکمل لگ رہا ہے" کلاؤڈ کے لیے واحد جائزہ بن جاتا ہے، جس سے آخرکار آپ کے لیے مسئلہ بن سکتا ہے۔

سرکاری حل یہ ہے: اسے ایک ایسا چیز دیں جو "کامیاب" یا "ناکام" کا فیصلہ کر سکے۔

مثلاً ایک ٹیسٹ سیٹ، ایک بِلڈ کا ایگزٹ کوڈ، اور نتائج اور ڈیزائن کے درمیان تطبیق کے لیے ایک اسکرین شاٹ۔ یہ کام کرتا ہے، چیک کرتا ہے، نتائج پڑھتا ہے، اور دوبارہ تبدیل کرتا ہے، جب تک کہ چیک پاس نہ ہو جائے۔ یہ سائکل خود بخود بند ہو جاتا ہے۔

مزید ترقی کے لیے، Claude Code میں /goal استعمال کریں۔ آپ ایک مکمل ہونے کا شرط مقرر کریں، اور وہ تمام جلسات میں لگاتار کام کرتا رہے گا، آپ کو ہر مرحلے پر دوبارہ یاد نہیں دلانا پڑے گا۔

ہر راؤنڈ کے بعد، ایک اور چھوٹا ماڈل نکل کر اسکور دے گا: یہ وہ Claude نہیں ہے جو کام کر رہا ہے، بلکہ ایک اور چھوٹا، تیز اور سستا ماڈل ہے (ڈیفالٹ طور پر Haiku)، جو مکمل شدہ شرائط اور اس راؤنڈ کی گفتگو کو ایک بار پڑھ کر "حاصل ہوا" یا "حاصل نہیں ہوا" کہتا ہے، اور ایک وضاحت بھی دیتا ہے۔ اگر حاصل نہیں ہوا تو کام جاری رہتا ہے، اور اگر حاصل ہو جائے تو خودبخود ختم ہو جاتا ہے۔

Claude Code کا /goal حکم: مکمل ہونے کی شرائط مقرر کریں، ہر راؤنڈ میں ایک چھوٹا ماڈل جانچے گا کہ کیا حاصل ہو گیا ہے، اگر حاصل نہ ہوا تو جاری رکھیں

یہ بے رکن گاڑی جیسا لگ رہا ہے۔ لیکن ایک بات واضح ہونی چاہیے: وہ چھوٹا اسکورنگ ماڈل خود کو کمانڈ نہیں چلائے گا، نہ ہی خود فائل پڑھے گا، یہ صرف کلاڈ کے مکالمے میں پیش کیے گئے ثبوت دیکھ سکتا ہے۔

یعنی، اس سائکل کا چلنے کا انداز بالکل اس بات پر منحصر ہے کہ کلاؤڈ نے اصل چیزیں پیش کی ہیں یا نہیں۔ اگر شرائط کو کم سخت کر دیا جائے، یا کلاؤڈ صرف الفاظ میں کہے کہ "پرکھ لیا گیا"، تو اس کے باوجود ایوان جائزہ سے گزر سکتا ہے۔

تو خود جانچ کی تحویل برابر نہیں ہے بے نقاب جائزہ کے۔

ہمت کا مطلب ہے مدل کی ذکاوت پر جوک لگانا نہیں، بلکہ ہمیشہ ثبوت دیکھنا۔

ایک شخص سوویں ذرائع کی قیادت کرنے لگا

اگر /goal کا مقصد ایک Claude کو زیادہ دیر تک کام کرانا ہے، تو Dynamic workflows کا مقصد کئی Claude کو ایک ساتھ کام کرانا ہے۔

اس کا طریقہ یہ ہے کہ کلوڈ آپ کے لیے ایک جاوااسکرپٹ اسکرپٹ لکھتا ہے، جو پیچھے بہت سارے ذیلی انسانی کرداروں کو چلائے گا۔

آفسیل طور پر دی گئی استعمال کی مناسب صورتیں مکمل کوڈ کی جانچ، 500 فائلوں کی بڑی منتقلی، اور کراس ویریفیکیشن کی ضرورت والے تحقیقی مسائل وغیرہ ہیں۔

آپ کی رن کا سائز کتنا ہے؟ ایک رن میں زیادہ سے زیادہ 1000 ایجینٹس کو متحرک کیا جا سکتا ہے، اور زیادہ سے زیادہ 16 ایجینٹس одно وقت میں چل سکتے ہیں۔

Claude Code کے آفیشل دستاویز کی ورکفلوز پابندیوں کی جدول، جس میں ایک بار کے رن کے لیے زیادہ سے زیادہ 1000 ایجینٹس کو ہائی لائٹ کیا گیا ہے

کلوڈ کوڈ میں ایک /deep-research ورک فلو بھی شامل ہے جو ایک سوال کو متعدد زاویوں سے تلاش کرنے، انہیں باہمی تصدیق کرنے، اور کمزور دعوؤں کو ووٹ کے ذریعے ختم کرنے کے لیے ڈیزائن کیا گیا ہے، اور آخر میں آپ کو حوالہ جات کے ساتھ ایک رپورٹ فراہم کرتا ہے۔

اس کا کیا مطلب ہے؟ کلوڈ کوڈ صرف اس چیٹ باکس نہیں رہا جو آپ کے ٹرمینل میں آپ کے ساتھ بات چیت کرتا تھا، یہ ایک ایسے انجینئرنگ ایجینٹ سسٹم کی طرف بڑھ رہا ہے جو مستقل طور پر چل سکتا ہے، منصوبہ بندی کر سکتا ہے، اور دوبارہ استعمال کیا جا سکتا ہے۔

ایک شخص اب صرف /workflows میں ایک ہی کمانڈ کے ذریعے ایک AI فوج کو کنٹرول کر سکتا ہے۔

خود مختار کا مطلب الٹرناٹیو نہیں ہے

فیبل 5 واقعی زیادہ طاقتور ہے۔

افسردہ کہتے ہیں کہ یہ پہلے کے کسی بھی کلوڈ ماڈل کے مقابلے میں زیادہ لمبے وقت تک خودکار طور پر کام کر سکتا ہے، جتنا لمبا اور پیچیدہ کام ہوگا، اتنا ہی زیادہ آگے نکل جائے گا، لیکن اس کا مطلب یہ نہیں کہ پروگرامرز مکمل طور پر اپنی ذمہ داریوں سے ہاتھ دھو سکتے ہیں۔

بالکل برعکس، سرکاری بہترین عمل میں چار کاموں پر زور دیا گیا ہے جنہیں انسانوں کو کرنا ہوگا: تصدیق کے معیارات طے کرنا، اجازتوں کا انتظام کرنا، حوالہ جات کو کنٹرول کرنا، اور ثبوت کا جائزہ لینا۔

اس نے کچھ عام ناکامی کے نمونوں کو خصوصی طور پر فہرست بند کیا ہے، جن میں سے ایک غلطی "اعتماد کریں لیکن تصدیق نہ کریں" (The trust-then-verify gap) کہلاتی ہے، جس میں کلاؤڈ کی طرف سے ایک ایسا جواب دیا جاتا ہے جو نظر آنے میں مناسب لگتا ہے لیکن واقعی میں حدود کو نہیں سنبھالتا۔

صرف ایک حل ہے: آپ اسے تصدیق کر سکتے ہیں، تو اسے جاری کریں؛ اگر تصدیق نہیں کر سکتے، تو جاری نہ کریں۔

لاگت اور رُکاوٹیں بھی نظرانداز نہیں کی جا سکتیں۔

فیبل 5 کی قیمت ہر ملین ان پٹ ٹوکن کے لیے 10 امریکی ڈالر اور ہر ملین آؤٹ پٹ ٹوکن کے لیے 50 امریکی ڈالر ہے۔ زیادہ طاقتور "جڑواں بھائی" مائتھوس 5، جو ایک ہی ماڈل پر مبنی ہے لیکن کچھ سیکیورٹی حفاظتی اقدامات کو کم کیا گیا ہے، ابھی تک صرف ایک چھوٹے سے گروپ کے نیٹ ورک دفاعی افراد اور انفراسٹرکچر فراہم کنندگان کے لیے دستیاب ہے۔

Fable 5 اپنے اندر ایک طبقہ بندی کا ہیلڈر بھی لے کر آتا ہے۔

جب سائبر سیکیورٹی، بائیو کیمیسٹری جیسے حساس موضوعات کا تذکرہ ہوتا ہے، تو یہ اپنے جوابات کو Opus 4.8 کے حوالے کر دیتا ہے۔ افسران کا کہنا ہے کہ 95.0% سے زیادہ سیشن اس فیل بیک کو ٹرگر نہیں کرتے، لیکن حفاظتی پیمانے کو زیادہ تحفظ کے ساتھ سیٹ کیا گیا ہے، جس کی وجہ سے کبھی کبھار عام درخواستوں کو بھی متاثر کر سکتا ہے۔

لمبے کام کو سنبھالنا، مکمل طور پر چھوڑ دینے کے برابر نہیں۔ جتنا خود مختار، اتنا ہی ہیک کرنا سیکھنا ضروری ہے۔

ثاقب کی اس بات پر واپس آئیں: اب زیادہ خواہش مند بننے کا وقت ہے۔

اس جرات کے پیچھے کا خفیہ پیغام یہ ہے کہ آپ بڑے مسائل کو سونپنے کا ساہس کریں۔ لیکن چھوڑنے کے عمل میں کنٹرول بھی ضروری ہے، جو تجربہ اور جذبات کے امتزاج کی ایک فن ہے۔

قوانین شروع点 ہیں، عقیدہ نہیں

استناداً ان قواعد اور طریقہ کار کے بیان کے بعد، Anthropic نے ایک اور بات شامل کی: یہ سب شروعات ہیں، عقیدہ نہیں۔

یعنی، یہ بہترین عملی طریقہ زیادہ تر صورتوں میں کام کرتا ہے، لیکن ہر صورت حال کے لیے مناسب نہیں ہو سکتا۔

کبھی کبھی، آپ کو اپنے ماحول کو اسی حالت میں رکھنا چاہیے، کیونکہ آپ ایک پیچیدہ مسئلہ پر کام کر رہے ہیں اور وہ تاریخ اہم ہے؛ کبھی کبھی، آپ کو منصوبہ چھوڑ کر براہ راست Claude کو شروع کرنا چاہیے، کیونکہ یہ کام خود ہی تجرباتی ہے؛ کبھی کبھی، ایک ادھورا ہدایت درست ہوتا ہے، کیونکہ آپ پہلے دیکھنا چاہتے ہیں کہ یہ اسے کیسے سمجھتا ہے، اور پھر فیصلہ کرنا چاہتے ہیں کہ کیا اسے محدود کرنا ہے۔

ٹریک کریں کہ کیا کام کرتا ہے، کوئی ایک طریقہ نہیں ہے۔

جب کلوڈ بہترین کام کرتا ہے تو، یاد کریں کہ آپ نے کیا کیا: آپ نے پرامپٹ کیسے لکھا، کن معلومات کو مہیا کیا، اور کون سا ماڈل استعمال کیا؛ جب یہ پھنس جائے تو سوچیں: کیا پرامپٹ بہت عام ہے یا کیا کام ایک دفعہ میں زیادہ بڑا ہے؟

آہستہ آہستہ، آپ کو ایک ایسا اندازہ حاصل ہو جائے گا جس کی کوئی ہدایات نہیں ہوتیں: کب تفصیل دینی چاہیے، کب خاموشی برقرار رکھنی چاہیے؛ کب منصوبہ بنا نا چاہیے، کب اسے دریافت کرنے دینا چاہیے—

اس مرحلے تک پہنچنے کے بعد، آپ کو ہی اصل میں اس کے ساتھ کام کرنے کا طریقہ سمجھ آ جائے گا۔

jab Fable 5 دو ماہ کے کام کو ایک دن میں ختم کر سکتا ہے، تو پروگرامرز کی سب سے کم دستیاب صلاحیت تبدیل ہو چکی ہے: اب یہ صرف کوڈ اچھا لکھنا نہیں، بلکہ یہ طے کرنا ہے کہ اچھا کوڈ کیا ہے، اور "کوڈنگ کرنا" کی تعریف بھی خاموشی سے تبدیل ہو رہی ہے۔

مستقبل کے سب سے قیمتی انجینئر، کوڈ کے نگران نہیں ہوں گے، بلکہ وہ ہوں گے جو سب سے زیادہ اچھا سوال کر سکیں، معیارات طے کر سکیں اور تصدیق کر سکیں۔

حوالہ جات:

https://www.anthropic.com/news/claude-fable-5-mythos-5

https://code.claude.com/docs/en/best-practices

https://code.claude.com/docs/en/common-workflows

https://x.com/ClaudeDevs/status/2064399512664526853