اینٹروپک کا دعویٰ ہے کہ AI کی خود بہتری کا راستہ واضح ہوتا جا رہا ہے، جس سے آئی پی او کے نیٹ ورک پر بحث شروع ہو گئی

مصنف: حروف AI

اینٹروپک نے کل رات ایک لمبی مضمون جاری کیا، جس کا عنوان ہے "جب AI خود کو بناتا ہے"، جو ایسیموف کی کسی سائنس فکشن کتاب جیسا لگتا ہے، اور موضوع بھی ایک بہت سائنس فکشن کا تصور ہے: ریکرسیو سیلف ایمپروومنٹ۔

کلود

سادہ الفاظ میں، پہلے انسانی محققین کوڈ لکھتے، تجربات کرتے، ماڈلز کو تربیت دیتے تاکہ AI کو زیادہ طاقتور بنایا جا سکے۔ لیکن اگر AI خود اپنے اگلے ورژن کی ڈیزائن، تربیت، ٹیسٹنگ اور بہتری میں شرکت کرنے لگ جائے، تو AI کی ترقی کی رفتار صرف انسانوں کے ذریعے نہیں بلکہ شاید AI کی “خود ترقی” سے بھی ہو سکتی ہے۔

اس کے لیے، Anthropic نے اپیل کی ہے:

ہم کہتے ہیں کہ اگر دنیا کو آگے بڑھتی ہوئے AI کی ترقی کو سست کرنے یا عارضی طور پر روکنے کا انتخاب دیا جائے تاکہ سماجی ڈھانچے اور مطابقت کے تحقیقی جائزے تکنیکی ترقی کے ساتھ چل سکیں، تو یہ دنیا کے لیے بہت فائدہ مند ہوگا۔

یہ جملہ سیکورٹی کی چेतاؤ جیسا لگتا ہے، لیکن اینٹھرپک کے آئی پی او کے وقت پر، یہ ایک اور کہانی کی تیاری کے طور پر بھی نظر نہیں آنا مشکل ہے: کلوڈ بہت زیادہ استعمال میں آ رہا ہے، اور اب خود نئی نسل کا کلوڈ تخلیق کرنا شروع کر چکا ہے۔

نئی طوفان آ چکا ہے

AI کے خود کو ترقی دینے میں بڑھتے ہوئے شرکت کو ظاہر کرنے کے لیے، Anthropic نے کافی اندر کا ڈیٹا پیش کیا۔

مثلاً، 2026ء کے مئی تک، اینٹروپک کے کوڈ بیس میں شامل کیے گئے کوڈ کا زیادہ تر 80% کلاؤڈ نے لکھا تھا۔ جبکہ کلاؤڈ کوڈ کے شروع ہونے سے پہلے یہ عدد صرف ایک رقم تھا۔

2026 کے دوسرے تिमہ میں، اینتھرپک کے مطابق، انجینئرز کے روزانہ مرج کیے جانے والے کوڈ کی مقدار 2024 کے مقابلے میں تقریباً 8 گنا زیادہ ہو چکی ہے۔

کلود

کوڈ کی مقدار سے زیادہ نوٹ کرنے کی بات یہ ہے کہ کلوڈ زیادہ کھلے ہوئے انجینئرنگ مسائل کو سنبھال رہا ہے۔

اینٹروپک نے متن میں کہا کہ گزشتہ سال، ملازمین کلود کو درست کرنے، کلود کو راستے پر واپس لانے یا کام کو درمیان میں سنبھالنے کی فریکوئنسی مسلسل کم ہو رہی ہے۔ یہ تبدیلی صرف آسان کاموں تک محدود نہیں بلکہ سب سے پیچیدہ کھلے کاموں پر بھی پایی جاتی ہے۔

اُسے کھلا ٹاسک کہتے ہیں، جس میں واضح ہدایات نہیں ہوتیں۔ مثال کے طور پر، سسٹم کریش ہو جائے یا ٹریننگ ٹاسک فیل ہو جائے، انجینئرز شروع میں خود نہیں جانتے کہ جواب کیا ہوگا، بلکہ وہ ایک ایک کر کے مسائل کو ڈیٹیکٹ کرتے اور فیصلے کرتے رہتے ہیں۔

اس قسم کے کاموں پر پہلے زیادہ تر انسانی تجربہ منحصر تھا، لیکن سب سے زیادہ کھلے کاموں میں، کلاڈ کی کامیابی کی شرح مئی 2026 تک 76% ہو چکی ہے، جو کہ صرف چھ ماہ میں 50 فیصد بڑھ گئی۔

کلود

صرف کوڈ لکھنے کے علاوہ، Anthropic Claude کا استعمال کوڈ ریویو کے لیے بھی کرتی ہے، جس میں بگ، سیکورٹی خامیاں اور دیگر عیوب کی جانچ کی جاتی ہے۔ ان کے پیچھے کی تجزیہ سے پتہ چلا کہ اگر گزشتہ ہر کوڈ تبدیلی کو Claude کی خودکار جانچ سے گزرنا پڑتا تو، claude.ai کے آن لائن واقعات کے لیے ذمہ دار تقریباً ایک تہائی بگز کو لانچ سے پہلے روکا جا سکتا تھا۔

مزید ترقی کے ساتھ، کلاؤڈ نے تحقیق کے عمل میں شرکت شروع کر دی ہے۔

انثرپک کے پاس ایک مقررہ ٹیسٹ ہے: کلاؤڈ کو ایک چھوٹے ماڈل کو ٹرین کرنے کے لیے کوڈ دیا جاتا ہے، اور اسے بغیر غلط نتائج کو تبدیل کیے، کوڈ کو تیزی سے چلانے کا طریقہ تلاش کرنا ہوتا ہے۔ مئی 2025 میں، کلاؤڈ اوپس 4 تقریباً 3 گنا تیزی لانے میں کامیاب ہوا؛ اپریل 2026 تک، کلاؤڈ مائتھوس پریویو نے اس نمبر کو تقریباً 52 گنا تک پہنچا دیا۔

اینٹروپک نے ایک کھلا AI سیکیورٹی ریسرچ کیس بھی بتایا۔ انہوں نے ایک سوال کلاؤڈ سے چلنے والے ایجنٹ کو دیا: کیا ایک کمزور ماڈل ایک طاقتور ماڈل کی قابل اعتماد نگرانی کر سکتا ہے؟

اس عمل میں فرضیات متعین کرنا، ان فرضیات کا ٹیسٹ کرنا، اور متوازی ایجینٹس کے ساتھ دریافتوں کو شیئر کرنا، اور دہرائی جانے والی تکرار شامل ہے۔

دو انسانی ریسرچر نے ایک ہفتہ صرف کیا اور تقریباً 23 فیصد کا فرق ختم کیا؛ جبکہ کلوڈ نے تقریباً 800 گھنٹے اور 18,000 امریکی ڈالر کے کمپیوٹنگ ریسورسز کے استعمال کے ساتھ 97 فیصد کا فرق ختم کیا۔

یہ نتیجہ بالکل محدود ہے، لیکن سوال انسانوں نے چنے ہیں، اسکورنگ کے معیار بھی انسانوں نے طے کیے ہیں، اور نتائج کو مکمل طور پر پیداواری سائز ماڈلز پر لاگو نہیں کیا گیا۔ لیکن یہ اب بھی ظاہر کرتا ہے کہ کلوڈ ایک انسانی طور پر سمت طے کیے گئے تحقیقی فریم ورک میں خود تجربات ڈیزائن کر سکتا ہے، خود ان کا انجام دے سکتا ہے، اور خود انہیں دوبارہ ترتیب دے سکتا ہے۔

اس کے علاوہ، جب انسانی محققین غلط راستہ اپنانے لگیں، کلاڈ مزید بہتر اگلے اقدام کا جائزہ دے سکتا ہے۔

اینٹروپک نے 129 اندری کلاؤڈ کوڈ ریسرچ سیشنز کو تلاش کیا، جن میں انسانی ریسرچرز اور کلاؤڈ نے کھلے طور پر ریسرچ کے مسائل کو حل کیا۔ اینٹروپک نے ان میں سے کچھ "جہاں انسانوں نے بعد میں ثابت کیا کہ وہ غلط راستہ اپنا رہے تھے" نکات کو الگ کیا، اور پھر ان نکات سے پہلے کے ماحول کو مختلف ورژنز کلاؤڈ کو دیا تاکہ دیکھا جا سکے کہ وہ اگلے قدم کے لیے کیا تجویز کرتے ہیں۔ پھر ایک اور کلاؤڈ جج، جو مکمل سیشن کے نتائج جانتا ہے، یہ فیصلہ کرتا ہے کہ ماڈل کی تجویز اور انسان کا اصل انتخاب میں سے کون بہتر ہے۔

نتائج سے ظاہر ہوتا ہے کہ جن نوڈس پر انسانی محققین کو بعد میں بہتری کا امکان ثابت ہوا ہے، وہاں کلاڈ کو زیادہ بہتر اگلے قدم پیش کرنے کی صلاحیت حاصل ہو رہی ہے۔

کلود

گزشتہ زمانے میں، AI ماڈلز کی ترقی کا مرکزی کردار انسانی ریسرچر اور انجینئرز کا تھا۔ انسان فیصلہ کرتے تھے کہ کون سے تجربات کیے جائیں، کوڈ لکھا جائے، ماڈلز کو ٹرین کیا جائے، اور AI کی فنکشنلیٹی کو آگے بڑھایا جائے۔

اب، اس زنجیر میں زیادہ تر ہنگامے کلاؤڈ کے ہاتھوں لے لیے جا رہے ہیں۔

اینٹروپک نے ایک بہت واضح مراحل کی جدول دی ہے:

کلود

2021 سے 2023 تک، Anthropic عام ٹیک کمپنیوں جیسا تھا، جہاں انسان لاپٹاپ پر کوڈ اور دستاویزات لکھتے تھے۔

2023 سے 2025 تک، چیٹ بوٹس کام کے عمل میں داخل ہوئے۔ انجینئرز نے ماڈل کو کوڈ کے ٹکڑے تیار کرنے کے لیے استعمال کیا، جنہیں پھر ایڈیٹر میں کاپی کیا گیا۔

2025 سے 2026 تک، پروگرامنگ ایجنٹس ظاہر ہوئے، کلاؤڈ شروع ہو گیا کہ وہ خودکار طور پر کوڈ لکھے اور تبدیل کرے، کبھی کبھی پوری فائل کو الگ سے مکمل بھی کر لے۔

آج تک، ایجنٹس خود کوڈ چلا سکتے ہیں اور کئی گھنٹوں کے کام کو دوسرے ایجنٹس کو سونپ سکتے ہیں۔

اس کے بعد، اینثرپک کا اصل خوف کا دور آتا ہے: بند لوپ۔

اگر یہ دن آ جائے، تو کلود کے اگلے ورژن کو کلود خود لگاتار بہتر بناسکتا ہے—یہی ریکرسیو سیلف ایمپروومنٹ، تکراری خود بہتری ہے۔

اینٹروپک نے متن میں بہت سامنے کے ساتھ کہا ہے: ہم ابھی تک اس مرحلے تک نہیں پہنچے، اور ریکریو سیلف ایمپروومنٹ ضروری طور پر نہیں ہوگا۔ لیکن یہ اب بھی زور دے رہا ہے کہ اس مرحلے تک جانے کا راستہ اب دیکھنے میں آنا شروع ہو چکا ہے۔

اس لیے اینتھرپک نے مقالے کے آخر میں تیزی کو کم کرنے، یا توقف کرنے کی بات کی۔ اس کا مطلب یہ نہیں کہ اب سب AI کمپنیاں فوری طور پر کام بند کر دیں، بلکہ اگر مستقبل میں AI کی خود بہتری کا خطرہ جاری رہا تو، اگلے سطح کے لیبارٹریز کو ایک منسق، قابل تصدیق تیزی کم کرنے کا نظام درکار ہوگا۔

دوسرے الفاظ میں، "سینگولری" قریب ہے، اور انسانوں کو اس پر کنٹرول رکھنا ہوگا۔

لا روک تھام والی کلود

اگر صرف سطحی طور پر دیکھا جائے تو یہ ایک بہت زیادہ آگے کی سوچ والی سیکیورٹی دستاویز ہے۔ اینتھروپک ریکرسیو سلف ایمیلیوریشن، AI کے اپنے آپ کو تیزی سے بہتر بنانے اور انسانی معاشرے کو تیزی سے رکنا اور روکنا کے لیے پہلے سے تیار ہونے کی بات کر رہا ہے۔

لیکن اینٹھرپک کے آئی پی او کے وقت پر یہ مضمون ایک اور معنی رکھتا ہے۔

کسی نہ کسی طرح، اے فیکٹری کے حالیہ اقدامات اس طرح کے بہترین طالب علم کی طرح ہیں جو کلاس میں جھوٹا ہوتا ہے — اس کے پاس حقیقی صلاحیتیں ہیں، لیکن وہ بھی جھوٹا ہے۔

اس کا مطلب صرف یہ نہیں کہ "ہمارے پاس ایک طاقتور Claude ہے"، بلکہ یہ بھی کہ "Claude ہمیں ایک زیادہ طاقتور Claude بنانے میں مدد کر رہا ہے"۔

اگر اینثریپک صرف ایک ماڈل یا ایک ٹول فروخت کرتا، تو اسے افقی موازنہ سے بالکل نکلنا مشکل ہو جاتا: اینثریپک کے پاس کلوڈ ہے، اپن کے پاس جی پی ٹی ہے؛ اینثریپک کے پاس کلوڈ کوڈ ہے، اپن کے پاس کوڈیکس ہے؛ اینثریپک کاروباری صارفین کو حاصل کرتا ہے، اپن بھی کاروباری صارفین کو حاصل کرتا ہے۔ دونوں کمپنیوں کے درمیان مقابلہ بہت تنگ ہے، اور یہ دیکھا جائے گا کہ کون بازار کو زیادہ بڑا کہانی سناتا ہے۔

یہ نوٹ کیا جانا چاہئے کہ صرف تین دن پہلے، OpenAI نے ایک سرحدی AI حکومت کے بارے میں دستاویز میں لکھا تھا:

ہم نے آج کے سسٹم میں ریکرسیو خود بہتری کے ابتدائی علامات بھی دیکھے ہیں: AI کی ترقی خود AI کے ذریعے تیز ہو رہی ہے۔

یہ ڈویلپرز اور ممالک کے درمیان مقابلے کے دباؤ کو بڑھائے گا اور ایسے گورننس چیلنجز کو پیدا کرے گا جن کا موجودہ ادارے سامنا نہیں کر سکتے۔

تین دن بعد، اینتھرپک نے کہا: کلوڈ کے لیے ریکرسیو خود بہتر بنانے کا راستہ اب نظر آنے لگا ہے۔

کلود

اگر کلود اپنی توقعات کے مطابق ترقی کرتا ہے، تو یہ عام مصنوعات کی کہانی نہیں ہوگی، بلکہ یہ ایک ریسرچ اور ترقی کا گرداب بن جائے گا۔

کلود کوڈ لکھتا ہے، تجربات چلاتا ہے، تربیت کے عمل کو بہتر بناتا ہے، اور پھر اس کے ذریعے Anthropic کے اپنے پروڈکٹس میں واقعات کو کم کرتا ہے… ایک بار جب یہ نظام کام شروع کر دے، تو کلود صرف Anthropic کا ایک پروڈکٹ نہیں رہے گا، بلکہ Anthropic کا ایک اہم پیداواری آلہ بھی بن جائے گا۔

صارف کلائیڈ نامی مصنوعات دیکھ رہا ہے، جبکہ کاروباری صارفین کلائیڈ کی صلاحیتیں خرید رہے ہیں، لیکن اینتھروپک کا اصل مقصد سرمایہ کاروں کو توجہ دلانا یہ ہے کہ کلائیڈ کو اب انسٹرومنٹس کے بنیادی عمل میں ڈال دیا گیا ہے اور اسے اینتھروپک کے انجن کے اندر رکھ دیا گیا ہے۔

سرمایہ کاری کے بازار کو سب سے زیادہ پسندیدہ کہانیاں وہ ہیں جن میں فلی وہیل کا تصور ہو، جیسے کہ جُبّہ پانی کا خزانہ جو مسلسل دولت بہا رہا ہو: زیادہ طاقتور کلوڈ سے اینتھروپک کے انجینئرز زیادہ کوڈ ملائی سکتے ہیں، زیادہ کوڈ سے مصنوعات اور بنیادی ڈھانچہ تیزی سے ترقی کرتا ہے، تیز تر ترقی سے ریسرچر زیادہ تجربات کر سکتے ہیں، اور زیادہ تجربات دوبارہ اگلی نسل کے کلوڈ کو طاقتور بنانے میں مدد کرتے ہیں۔ جب اگلی نسل کا کلوڈ طاقتور ہو جاتا ہے، تو یہ دوبارہ اینتھروپک کی ریسرچ اور ترقی کو تیز کرتا ہے۔

کلود کی تکرار کی رفتار بھی اس فلائی ویل کو سہارا دے رہی ہے۔ علنی اشاعت کے مطابق، 2023 سے 2025 کے آغاز تک، کلود کے بنیادی ماڈل اپڈیٹ عام طور پر تین یا چار ماہ کے فاصلے پر ہوتے تھے، لیکن کلود 4 کے بعد، اینتھرپک کے ماڈل اپڈیٹس واضح طور پر زیادہ متواتر ہو گئے۔

کلوڈ 4 کو 2025ء کے مئی میں جاری کیا گیا، اوپس 4.1 کو اگست میں، سونٹیٹ 4.5 کو ستمبر میں، ہائکو 4.5 کو اکتوبر میں، اور اوپس 4.5 کو نومبر میں۔

2026 تک، Opus 4.6 کا اطلاق 5 فروری کو ہوا، Sonnet 4.6 کا 17 فروری کو، Opus 4.7 کا 15 اپریل کو، اور Opus 4.8 کا 28 مئی کو۔ Opus 4.7 سے Opus 4.8 تک صرف 42 دن کا فرق تھا۔

اینٹروپک سطحی طور پر کہ رہا ہے کہ "یہ بات خطرناک ہو سکتی ہے، ہمیں بریک تیار رکھنا چاہیے"، لیکن اس کے ساتھ یہ بھی اشارہ کر رہا ہے کہ "ہم نے پہلے ہی دیکھ لیا ہے کہ جب اکسل دبایا جاتا ہے تو کیا ہوتا ہے۔"

IPO کے نریٹیو کی ظریفیت یہی ہے کہ وہ ایک طرف خطرات کو بڑھا کر دکھاتا ہے، دوسری طرف اپنی ٹیکنالوجی کی پوزیشن کو بھی بلند کرتا ہے۔

ہر AI کمپنی کے پاس ریکرسیو سلف-ایڈجسٹمنٹ پر بات کرنے کا اہلیت نہیں ہے، آپ کو پہلے باہری دنیا کو یقین دلانا ہوگا کہ آپ کا AI AI ریسرچ اور ڈویلپمنٹ پروسیس میں داخل ہو چکا ہے، تبھی آپ کہ سکتے ہیں کہ اس کے لیے عالمی تنظیم کی ضرورت ہو سکتی ہے۔

اوپن اے آئی: ایسا کیسے ہو سکتا ہے؟

پہلے بات کی گئی تھی کہ اینتھرپک کے اس لمبے مضمون کے فوراً پہلے، اوپن اے آئی نے ریکرسیو سیلف-ایمپروومنٹ کو میز پر رکھ دیا تھا۔

لیکن دونوں کمپنیوں کے بیانات بہت مختلف ہیں۔

اوپن اے آئی کی تحریر "فرنٹیئر اے آئی کا جمہوری حکومتی نظام"، واشنگٹن کے لیے ایک پالیسی منصوبہ ہے جو یہ نہیں سوچتی کہ "ماڈل کیسے طاقتور بنائے جائیں"، بلکہ یہ سوچتی ہے کہ جب فرنٹیئر اے آئی آگے بڑھتی رہے، تو اسے کیسے پابند کیا جائے۔

اس رپورٹ میں ذکر کیے گئے زیادہ تر مواد کو تفصیل سے بیان کرنے کی ضرورت نہیں، صرف ایک جملہ اہم ہے: OpenAI کہتی ہے کہ آج کے سسٹم میں ریکرسیو خود بہتری کے ابتدائی علامات نظر آ رہے ہیں۔

یہ جملہ اور اینٹھرپک کی یہ لمبی مضمون اصل میں ایک ہی سمت کی طرف اشارہ کرتے ہیں۔

صرف OpenAI اداروں کی بات کر رہا ہے، جبکہ Anthropic اپنی بات کر رہا ہے۔

OpenAI کا مطلب ہے کہ AI کی ترقی بہت تیز ہے، اور موجودہ حکومتی ڈھانچے اس کے ساتھ قدم بڑھانے میں ناکام رہ سکتے ہیں، اس لیے نئے قوانین کی ضرورت ہے۔

اور اینتھرپک نے براہ راست اس نظام کو سامنے رکھ دیا اور بازار کو بتایا: کلاؤڈ ہمارے ریسرچ اور ڈویلپمنٹ عمل میں داخل ہو چکا ہے، اس لیے ہمیں AI کے خود تیز ہونے کا راستہ دکھائی دیا۔

یہ بہت ہوشیارانہ چال تھی، لگتا ہے کہ OpenAI کے اندر شاید پہلے ہی بحث شروع ہو چکی ہے — یہ تو بالکل ایجاد کا چوری کرنا ہے! ہم تو پہلے آئے تھے!

میں صرف مزاح کر رہا ہوں، لیکن OpenAI کو حقیقت میں زیادہ محنت کرنی ہوگی، جلد ہی GPT 5.6 کو لائیو کر دیں۔