مقدمہ: جب AI کی صلاحیتیں مستقل طور پر بڑھتی رہیں، تو سرمایہ کاری کے دائرے میں ایک نئی مایوس کن تشخیص ظاہر ہو رہی ہے: اگر مدلز مزید طاقتور ہوتے جائیں، تو تمام ایپلیکیشن کمپنیاں بالآخر Anthropic، OpenAI، Nvidia جیسی مدل اور کمپوٹنگ لیولز کے ذریعے نگل لی جائیں گی، اور بازار میں صرف اعلیٰ مدلز، کمپوٹنگ اور کچھ بنیادی ڈھانچہ باقی رہ جائے گا۔ لیکن سارہ گو کا خیال ہے کہ یہ تشخیص صرف آدھی سچی ہے۔ وہ "thin wrapper" (پتلا لپیٹ، یعنی مدل کا سادہ تھلّا) حقیقت میں نگل لیے جائیں گے، اور جو کام بینچ مارک (بنچ مارک) سے قابلِ اندازہ ہو سکتے ہیں، جنہیں عوامی ڈیٹا سے تربیت دی جا سکتی ہے، اور جنہیں کم لاگت پر تصدیق کیا جا سکتا ہے، وہ بھی تدریجاً کاموڈٹیز بن جائیں گے۔
اصل سوال یہ ہے: جب AI تمام قابل تربیت چیزوں کو نگل لے، تو کیا کچھ اب بھی قابل تربیت نہیں ہوگا؟
اس مضمون کا جواب وہ قیمتی عوامل ہیں جو حقیقی تنظیموں کے اندر موجود ہوتے ہیں اور باہر سے آسانی سے نقل نہیں کیے جا سکتے: کمپنی کے مخصوص ڈیٹا، پیچیدہ ورک فلو، صارفین کا اعتماد، سسٹم کے اختیارات، صنعتی ججمنٹ، مطابقت کی ذمہ داریاں، اور طویل عرصے تک چلنے سے حاصل ہونے والی تجربات۔ ماڈل زیادہ ذکی ہو سکتے ہیں، لیکن وہ بینک کے پروڈکشن سسٹم میں خودکار طور پر داخل نہیں ہو سکتے؛ وہ طبی جوابات تخلیق کر سکتے ہیں، لیکن ڈاکٹرز کے اعتماد اور ہسپتال کے فیصلہ سازی کے عمل تک براہ راست رسائی نہیں رکھتے؛ وہ قانونی دستاویزات لکھ سکتے ہیں، لیکن تجربہ کار وکلاء کی ذمہ داریوں کو نہیں لے سکتے اور نہ ہی وہ خود بخود یہ طے کر سکتے ہیں کہ کون سا قانونی کام معیاری ہے۔
اس لیے، مستقبل کی وہ حقیقی AI کمپنیاں جن کے پاس واقعی "محفوظ علاقہ" ہوگا، صرف عام ماڈل سے زیادہ ذکی نہیں ہوں گی، بلکہ کسی صنعت کے اندر گہرا جائیں گی اور مشکل لیکن اہم "ترجمہ" کا کام کریں گی:客户的私有现实、工具、流程和判断标准整理成模型可以行动的系统,并在长期服务中逐渐写下「什么才算好结果」的定义。AI 越强,越会让可衡量、可复制的任务贬值;也越会凸显那些带有历史、关系、权限和专业判断的「不可训练之物」。这才是模型吞噬之后,仍然可能保留下来的真正价值。
درج ذیل اصل متن ہے:
2026 کے درمیان، "AI پاگل پن" کا سرمایہ کار ورژن، ایک ایسی بے امیدگی ہے جس میں لگتا ہے کہ اب کچھ بھی سرمایہ کاری کے قابل نہیں: ہمیں لگتا ہے کہ ہمیں اپنا پورا پیسہ Anthropic اور Nvidia میں لگا دینا چاہیے اور گھر چلے جانا چاہیے۔ لیکن میرے پاس کبھی ایسا محسوس نہیں ہوا۔ پچھلے کئی چھوٹے ورژن سے، میں یقین رکھتا ہوں کہ ماڈل میرے سے زیادہ ذکی ہو چکے ہیں؛ اگر مارکیٹ قیمت پر Anthropic اور Nvidia خریدوں تو میں بھی خوش ہو جاؤں گا؛ میرے اردگرد کے سب سے ذکی دوست بھی کافی یقین رکھتے ہیں کہ ماڈل کا خود بہتر بننا جلد ہی حقیقی طور پر کام کر جائے گا—لیکن میرے پاس ابھی تک اس بے امیدگی کا محسوس نہیں ہوا۔
یہ ناامیدی بے وقوفانہ نہیں ہے۔ اس کا منطق یہ ہے: اگر ماڈل ہر چیز میں لگاتار طاقتور ہوتا رہا، تو ماڈل پر مبنی تمام کمپنیاں صرف اس کے ذریعے吸収 ہونے کا انتظار کر رہی ہوں گی؛ آخرکار صرف کمپوٹیشنل پاور اور ایڈوانسڈ ماڈل ویٹس کی قیمت باقی رہے گی۔
ایک سافٹ ویئر کے مثال کے طور پر، یہ اس بے بسی کا سب سے زیادہ متعلقہ مثال ہے۔ 2024 میں ڈیوین کے جاری ہونے پر، اس نے معیاری سافٹ ویئر بینچ مارکس میں صرف 13% کاموں کو ہلایا، اس لیے بازار نے اسے عموماً نظرانداز کر دیا۔ ایک سال اور نصف کے بعد، سب سے طاقتور ایجنٹ 80% سے زیادہ اعلیٰ اسکور حاصل کر چکے ہیں اور گولڈمن سیکس اور امریکی فوج کے اندر حقیقی کام کرنے لگے ہیں۔ تقریباً ہر کوئی ایک ہی غلط نتیجہ پر پہنچ گیا: ماڈل نے سافٹ ویئر انجینئرنگ کو نگل لیا۔
لیکن جب ماڈل نے سافٹ ویئر انجینئرنگ کے اس آسان ترین پہلو کو نگل لیا جسے سب سے زیادہ ناپا جا سکتا ہے، تو ہم بہت سے ٹیموں کو پہلے ہی جاننے والی بات کو دوبارہ سمجھ رہے ہیں: انجینئرنگ ہمیشہ سے ناپنے کے خلاف رہا ہے، اور جو چیز سب سے آسانی سے ناپی جا سکتی ہے، وہ ضروری چیزوں میں سے صرف ایک نہیں ہوتی۔
ایم آئی ٹی کے مرت دیمرر اور ان کے ساتھیوں نے آخرکار اس بات کا پیمانہ لگا دیا ہے: زیادہ سے زیادہ 100,000 ڈویلپرز میں، نئی نسل کے کوڈنگ ایجنٹس نے کوڈ لکھنے کی مقدار میں تقریباً 180 فیصد اضافہ کیا، لیکن حقیقی طور پر لائیو ہونے والے کوڈ میں صرف تقریباً 30 فیصد اضافہ ہوا۔ کوڈ لکھنا سستا ہو گیا ہے، لیکن باقی مراحل اب بھی انسانوں کے ذریعے ہی ہوتے ہیں، اور یہ مراحل بہت اہم ہیں۔ بالکل بھی، کل مجموعی اثر حیرت انگیز ہے۔
بینچ مارک، ایک چیز ہے جسے آپ ناپ سکتے ہیں؛ اور جو کچھ ناپا جا سکے، اسے تربیت دی جا سکتی ہے۔ اس لیے، کوڈنگ ایجنٹ سب سے پہلے بالغ ہو جاتے ہیں: کمپائلر مفت تصدیق کنندہ ہیں، اور ٹیسٹ سوٹ بھی مفت تصدیق کنندہ ہیں۔ جب جواب کا خود چیک کرنا تقریباً صفر لاگت پر ممکن ہو، تو آپ اس چیک سگنل کے گرد لگاتار بہتری کر سکتے ہیں، جب تک کہ آپ اسے پوری طرح نہیں توڑ دیتے۔
لیکن ٹیسٹ کرنا کبھی بھی اس بات کا مطلب نہیں کہ یہ تبدیلی دس سال سے چل رہے کوڈ بیس کے لیے درست ہے۔ اس ماڈیول کے وجود کے پیچھے شاید تین ایسے وجوہات ہیں جنہیں کسی نے کبھی دستاویز میں نہیں لکھا؛ ڈیپلویمنٹ پائپ لائن شاید ایک ایسے cron job پر منحصر ہے جسے کوئی بھی اپنا نہیں ہونا چاہتا۔
یہ درستگی رینکنگ لسٹ سے نہیں پڑھی جا سکتی، اور نہ ہی کسی بھی چیز سے ب безпосередньо پڑھی جا سکتی ہے۔ آپ کو صرف ایک اتنی پیچیدہ سسٹم کو حقیقی دنیا میں کافی عرصہ تک چلنا ہوگا تاکہ آپ جان سکیں کہ کیا یہ واقعی کام کرتی ہے۔ اور زیادہ ذکی ماڈل، حقیقی دنیا کو تیز نہیں کرتے۔ کوئی بھی Google جیسے بڑے سسٹم کو یونٹ ٹیسٹ چلانے اور گرین چیک دیکھ کر مکمل طور پر اعتماد نہیں کرتا۔ آپ اس پر اعتماد کرتے ہیں کیونکہ یہ کئی سالوں تک حقیقی لوڈ کا سامنا کر چکا ہے۔
یہ درستگی صرف نجی نہیں بلکہ ایک آہستہ سے تشکیل پانے والی دیوار ہے، جسے پٹھا نہیں سکتا۔ حتیٰ کہ مثبت نظر رکھنے والے بھی تسلیم کرتے ہیں کہ یہ گھڑی کو چھلانگ نہیں لگایا جا سکتا۔ اوپن اے آئی کے ریزنگ ماڈل کے پیشوا نوم براون نے حال ہی میں لکھا: ایک ایجنٹ کی ایک سال کے دوران کارکردگی کا واحد قابل اعتماد طریقہ یہ ہو سکتا ہے کہ آپ اسے واقعی ایک سال تک چلائیں۔
گیب پیریرا کے الفاظ میں، اصل خودکاری صرف اس بات کا نہیں ہے کہ ماڈلز زیادہ طاقتور ہو جائیں۔ یہ مصنوعات، ماڈل، ورک فلو اور کمپنی کے تنظیم کے ساتھ ساتھ تبدیلی ہے، اور ان میں سے تین، تنظیم کی رفتار سے آگے بڑھتے ہیں۔
کسی بھی بنچ مارک کے دائرے سے باہر کا پہلو یہ ہے کہ ایک شک کرنے والے شراکت دار کو اس کے طریقہ کار میں تبدیلی لانے کے لیے متاثر کرنا، اور ایک ٹیم کو دوبارہ تعمیر کے دوران متحد رکھنا۔ اسی لیے ہم سی ای او کو مقرر کرتے وقت، اس کی انسانوں کو سنبھالنے کی صلاحیت کو اس کی تجزیاتی صلاحیت کے برابر یا اس سے زیادہ اہمیت دیتے ہیں۔ ماڈلز زیادہ ذکاوت والا بننا اس وزن میں کوئی تبدیلی نہیں لاتا۔
یہاں کا فیڈبیک ابھی تک غیر واضح ہے، جبکہ وقت کا دور سالوں میں ہے، اور اعتماد کسی خاص شخص سے تعلق رکھتا ہے۔ میں جن کمپنیوں کو جانتا ہوں، ان میں سے ہر ایک نے اپنے ہر انجینئر کو ایڈوانسڈ کوڈنگ ماڈلز کا استعمال کرنے کی اجازت دے دی ہے، لیکن کسی بھی کمپنی کا انجینئرنگ ادارہ ماڈل کی ترقی کے قریب قریب رفتار سے تبدیل نہیں ہوا۔ ٹولز کو اپنایا صرف ایک تین ماہ میں لگا، اور وہ کتنا جادوئی تھا وہ token کے ترقی کا دور! لیکن حقیقی دوبارہ تعمیر میں سالوں لگتے ہیں۔
دیکھا جا سکنے والا کام، چلے جا رہا ہے۔ حقیقی قیمت والے کام، ساختی طور پر غیر قابل پڑھنا ہوتے ہیں: جو بھی چیز آپ لوگوں کی فہرست میں ڈال سکتے ہیں، اسے ٹرین کیا جا سکتا ہے؛ اس لیے، جو بھی قابل پیمائش ہے، وہ تجارتی بننے کی طرف بڑھ رہا ہے۔ اس عمل میں وقت لگتا ہے، اور کبھی بھی مکمل طور پر ختم نہیں ہوتا، لیکن رجحان کبھی الٹا نہیں ہوتا۔
میرے دوست، رپلینگ کے میٹ میکننس کے الفاظ میں، اسے مالی زبان میں تبدیل کریں تو: ایک ٹوکن جو صرف ایک عام سوال کا جواب دینے کے لیے استعمال ہو، تقریباً بے قیمت ہے، کیونکہ کسی بھی کسی کا ماڈل اس جواب کو دے سکتا ہے؛ لیکن ایک ٹوکن جو آپ کے کمپنی کے ڈیٹا پر استدلال کرتا ہے، بہت زیادہ قیمتی ہوتا ہے، کیونکہ یہ وہ کام کرتا ہے جو آپ واقعی چاہتے ہیں، صرف ایک منطقی لگنے والے جواب کو جنم نہیں دیتا۔
پڑھنے کے قابل کام دونوں طرف سے نگل لیا جائے گا۔
نیچے سے دیکھیں تو، کام کا بوجھ بڑھ جائے گا: ایک بار جب کوئی کام سستے طریقے سے چیک کیا جا سکے، تو خریدار اس بات پر توجہ نہیں دیتا کہ اسے کون سا ماڈل مکمل کر رہا ہے، بلکہ وہ یہ پوچھنا شروع کر دیتا ہے کہ اس کی قیمت کیا ہے۔ اس طرح، یہ کام اس ہفتے کے سب سے سستے اوپن سورس یا ڈسٹلڈ ماڈل پر چھوڑ دیا جاتا ہے۔ جب تک منافع کی شرح کام کرتی رہے، آخرکار یہ ضرور کام کرے گی۔
اوپر سے دیکھتے ہوئے، لیب ڈیٹا ماڈل کو اپنے سکیفولڈ کو نگلنا سیکھا رہا ہے۔ ریٹریول، سستے اور مہنگے کالز کے درمیان راؤٹنگ، ٹول استعمال، اور حتیٰ کہ استدلال کی حکمت عملی — جو سب کچھ ایک وقت ماڈل کے باہر تھا، وہ اب ماڈل کے وزن میں شامل ہو رہا ہے، جب تک کہ "کور" خود ماڈل نہ بن جائے۔ یہی جذب کی حد ہے۔
منافع کا دباؤ دوسری طرف سے بھی کام کرتا ہے: ایک جنرل ایجینٹ کو ہر چیز کے لیے تیار رہنا چاہیے، اس لیے اس کی لاگت زیادہ ہوتی ہے؛ جبکہ ایک فوکسڈ ایپ ایک ورک فلو کو بہترین طریقے سے آپٹمائز کر سکتی ہے اور صرف ایک چھوٹا سا حصہ ٹوکن استعمال کر سکتی ہے۔ اور، ان ٹوکنز کو فروخت کرنے والے لیبز کے برعکس، ایپ کمپنیاں درمیان کا فرق برقرار رکھ سکتی ہیں۔
اس لیے، ہم کسی بھی کام کے لیے دو سوالات پوچھ سکتے ہیں: کیا اس کی درستگی خصوصی، مہنگی ہے، اور کیا یہ صرف کسی کمپنی کے ڈیٹا کے اندر موجود سچائی ہے؟ کیا اسے ایک ایسے سسٹم میں علیحدہ کر دیا گیا ہے جس تک باہر کے لوگوں کا کوئی رسائی نہیں؟ اس کے بعد ان سوالات کو کام کی تشبع کے ساتھ جوڑ دیں، تو آپ کو ایک 2×2 میٹرکس مل جائے گی۔
جس کام میں شرابت ہو گئی ہو اور جواب عام ہو چکا ہو، وہ مالیاتی ٹوکن کا شعبہ ہے، اور اسے کھلے ماڈلز قبضہ کر لیں گے۔ اگرچہ ابھی تک نئے مگر جواب عام ہو چکے کام، جیسے کوڈنگ بینچ مارکس، لیبارٹریز کی جیت کا شعبہ ہیں، کیونکہ جب جائزہ لینا مفت ہو، تو اسے رکھنا خود بخود قیمتی نہیں رہتا۔
حقیقی انعام، آخری کونے، یعنی "غیر قابل تربیت" کونے میں ہے: سرحدی کام، لیکن اس کی درستگی صرف نجی ماحول میں موجود ہے۔ آپ اسے AI نیٹو اول درجہ صارفین کے لیے ریزنگ کلاؤڈ پر دیکھ سکتے ہیں: زیادہ تر ٹوکن کسٹم ماڈلز سے بنائے جاتے ہیں، عام اوپن سورس ماڈلز سے نہیں۔
اس آخری کونے تک جانے والی دیواریں اونچی اور کم اونچی ہیں۔ ایک ڈویلپر کا ٹوی کوڈ بیس قابل منتقل اور معیاری ہوتا ہے، اس لیے اندر جانا آسان ہے۔ لیکن ایک بینک کا پروڈکشن سسٹم قابل منتقل نہیں اور معیاری نہیں ہوتا۔ آپ SWE-Bench Verified پر صرف 2 فیصد ذہین ہونے سے اس کا root اجازت نہیں حاصل کر سکتے۔
صلاحیت بہت سی چیزوں کو نگل جاتی ہے، لیکن بہتر ماڈل ذاتی اور حقیقی معیار کو عوامی معیار میں تبدیل نہیں کرتا۔ یہ لائسنس نہیں رکھتا، ذمہ داری کے لیے دستخط نہیں کرتا، اور کمپنی کے دستاویزات کا مالک نہیں ہے؛ جب جواب غلط ہو تو یہ مقدمہ چلانے کا مقصد نہیں بن سکتا۔ یہاں رکاوٹ ذہانت نہیں، بلکہ اجازت اور ذمہ داری ہے۔ آپ ایک ایسا ماڈل تصور کر سکتے ہیں جو کسی بھی شخص سے کہیں زیادہ ذکاوت رکھتا ہو، لیکن اب بھی اسے اندر آنے کی اجازت دینی پڑے گی، اور اب بھی کسی کو اس کے کاموں کے لیے اپنا دستخط کرنا پڑے گا۔
اس دروازے پر ایک تالا اور ایک بار ہے۔
وہ قفل ماحول ہے: صرف ایک سسٹم کے اندر اعتماد حاصل کرنے، محفوظ جانچ کے بعد، ادغام مکمل کرنے اور نتائج کی ذمہ داری والے معاہدے پر دستخط کرنے کے بعد ہی آپ تصدیق کر سکتے ہیں کہ AI نے حقیقت میں مفید کام کیا ہے۔
وہ چابی صارف ہے۔ اب، زیادہ تر امریکی ڈاکٹر روزانہ OpenEvidence کھولتے ہیں، جسے کوئی بھی حسابی طاقت خرید نہیں سکتی۔ ایک لیب کل ایک مثالی طبی ماڈل تربیت دے سکتا ہے، لیکن ابھی تک اس کا ڈاکٹروں کے استعمال کے عادات اور UCSF کے فیصلہ سازی کے عمل میں داخل ہونے کا کوئی طریقہ نہیں ہے۔ کیونکہ اعتماد آہستہ آہستہ تعمیر ہوتا ہے، تعلقات اور صارفین کے متفقہ رضامندی سے، نہ کہ گریڈینٹ ڈسکنٹ کے ذریعے ان چیزوں کو مٹانے سے۔
یہی ایپ کمپنیوں کا کام ہے۔ ایک ایپ کو "غیر تربیت یافتہ" کونے میں جگہ حاصل کرنے کا سبب وہ غیر جلائی گئی کام ہیں جو ایک کمپنی کے انفرادی حقیقت کو ترتیب دیتے ہیں، تاکہ ماڈل اس پر مبنی کام کر سکے؛ ماڈل کو اقدامات کے ٹولز فراہم کرنا؛ اور صارفین کے ساتھ مل کر ان کی مزدوری کے عمل کو تبدیل کرنا۔
ایسی "ترجمہ" کرنے والی کمپنی کو نقل کرنا مشکل ہے، اور یہ ترجمہ کبھی ختم نہیں ہوتا۔ انٹیگریشن اور مینٹیننس صارفین کے تعلقات کے ساتھ جاری رہے گا۔ اس کام کو جیتنے والے وہ ٹیمیں ہیں جو ماہرین اور ٹولز کو صارف کے پاس رکھتی ہیں۔
مثال کے طور پر، ایک ٹاپ لیگل فرم میں صرف ایک سال میں ضمیمہ اور خریداری کے معاملات کی تعداد تقریباً ایک ہزار ہوتی ہے۔ آپ نہیں کر سکتے کہ سوویں وکلاء کو ہر ایک کو صارفین کے دستاویزات ڈیسک ٹاپ پر ڈاؤن لوڈ کرنے کے لیے کہیں اور ایک جنرل ایجنٹ کو ان کو پڑھنے کے لیے دیں۔ خفیہ رکھنے کے وجوہات کی وجہ سے یہ ممکن نہیں ہے، نہ ہی دسوں دیگر مسائل کی وجہ سے۔ اگر یہ ممکن بھی ہوتا تو آپ صرف ٹکڑوں کو سیکھتے: ایک مددگار ایک بار میں ایک چھوٹا سا درستگی کرتا ہے، کوئی بھی پورے معاملے کے بہاؤ کو نہیں دیکھ سکتا۔
اصلی سگنلز ٹریڈنگ کے لیول پر موجود ہوتے ہیں۔ ہر ٹریڈ کا اپنا فارمیٹ ہوتا ہے: ایک ایکسچینج کے لیے، NDA، ٹرمز شیٹ، ڈیوٹی ڈلیجنس، خریداری معاہدہ، متعلقہ دستاویزات، اور کلوزنگ چیک لسٹ ہوتی ہیں؛ ایک ملکیت کے معاہدے کے لیے، موشنز، ایکسپلوریشن، موجودہ ٹیکنالوجی، اور مزید موشنز۔ ہر کاروباری شعبے کا اپنا ڈھانچہ ہوتا ہے، جس میں وکلاء اور ٹولز آزادانہ طور پر تبدیل نہیں ہو سکتے۔
اور اس قانونی فرم کو حل کرنے کا اصل مسئلہ اس سے بھی بلند ہے: کیسے ہر کاروباری شعبے کو ایک ساتھ چلایا جائے، جیسے کہ ٹاپ پارٹنرز سینکڑوں مسائل کو одно ساتھ منظم کرتے ہوئے نئے کیسز حاصل کریں اور مددگار وکلاء کو تربیت دیں۔ ایسی کمپنی کو تبدیل کرنا ایک ایسا مسئلہ نہیں جسے آپ صرف ایک ٹاسک کے طور پر لکھ سکیں۔ اس کے لیے ایک ڈیٹا بیس بال کھلاڑی کی ضرورت ہوتی ہے جو اسے اس طرح سنبھالے: درمیانی مقاصد بہت غیر واضح ہوتے ہیں، ردعمل ناقص ہوتا ہے، دورانیہ بہت لمبا ہوتا ہے، اور ماحول خود بخود متاثر نہیں ہوتا۔
اس کے علاوہ، غیر قابل فہم قیمتیں بھی فروخت کرنا مشکل ہوتی ہیں، کیونکہ ان کا تجارتی طور پر استعمال کرنا بھی مشکل ہے: ایک کمپنی باہر سے نہیں جان سکتی کہ AI اپنے آپریشنز کو بینچ مارکس کی طرح تبدیل کر سکتا ہے یا نہیں۔ اس لیے، سب سے طاقتور کمپنیاں باہر سے اپنی صلاحیت ثابت کرنے کی کوشش کرنے کے بجائے، پہلے اپنے صارفین کے اندر داخل ہوتی ہیں اور پھر نتائج کے لیے قیمت طے کرتی ہیں۔
سیئرا صرف اسی صورت میں فیس لیتی ہے جب اس کا ایجنٹ客户的 مسئلہ حل کر دے؛ اگر مسئلہ انسان کو منتقل کر دیا جائے تو وہ فیس نہیں لیتی۔ اس طرح، قیمت خود ایک تقویم کا آلہ بن جاتی ہے۔ اور یہ اس لیے کام کرتا ہے کہ سیئرا کے پاس "حل شدہ" کی تعریف کا اختیار ہے۔ سافٹ ویئر کے شعبے میں Cognition کا ڈیوین بھی اسی طرح کام کرتا ہے، جس نے "پرفارمنس گارنٹی" متعارف کرائی۔ صرف اسی صورت میں آپ اس قسم کی گارنٹی دینے کے مستحق ہوتے ہیں جب آپ کو نظام کے اندر کھلے طور پر اعتماد دیا جائے۔
یہاں تک کہ ٹوکن سروس کے لیول پر — جسے سب لوگ صرف ایک مال کہتے ہیں — اس کا رویہ مال کی طرح نہیں ہے۔ بہترین AI نیٹو کمپنیاں اپنی سروسز صرف ایک یا دو فراہم کنندگان پر مرکوز کرتی ہیں، جیسے Baseten یا Fireworks۔ کیونکہ ہر ٹوکن کی لاگت وقت کے ساتھ مال کی طرح ہو جائے گی، لیکن حقیقی ٹریفک کے تحت قابلیت اور نایاب کمپوٹنگ پاور تک مستقل رسائی مال کی طرح نہیں ہوتی۔ جہاں ریزننگ سروس فراہم کی جائے، اور کون سے ماڈلز استعمال کیے جائیں، یہ دو الگ الگ انتخابات ہیں۔ ریزننگ میں صرف قیمت ہی وہ اصل مال کی طرح چیز ہے۔
ایک عام اعتراض یہ ہے کہ لیب آپ کا سپلائر ہے، تو اس کیوں نہیں چاہتا کہ اپنے اپنے فرسٹ پارٹی پروڈکٹ کو لاگت سے کم قیمت پر بیچ کر آپ کو تباہ کر دے؟ یا آپ کی API تک رسائی منسوخ کر دے اور اس مارکیٹ کو خود حاصل کر لے؟ یہی واقعی بے امیدگی کا اصل ورژن ہے۔ لیکن یہ صرف اس صورت میں درست ہے جب ماڈل لیول پر یہ ایک اکیلا کھیل ہو۔
واضح طور پر، ایسا نہیں ہے۔ ماڈل لیئر ایک تین اور نصف کھلاڑیوں کی موت کا مقابلہ ہے، جس کے ساتھ ایک عالمی گروہ بھی ہے جو تقریباً چھ ماہ پیچھے ہے، اور ایک وہیں کا ترقیاتی لیگ جو پچھلے سال کا پانچ گنا ہے۔ صارفین چاہتے ہیں کہ ان کے فراہم کنندگان کے درمیان مقابلہ ہو، جبکہ لیبارٹریاں کسی خاص ایپلیکیشن کو ختم کرنے کے بجائے مارکیٹ شیئر حاصل کرنا چاہتی ہیں۔
آپ اسے لیب کے سامنے کے مقابلہ والے مارکیٹ میں دیکھ سکتے ہیں۔ صارف چیٹ کے منظر میں، بہترین ماڈل کبھی بھی مکمل مارکیٹ نہیں جیتتے۔ ChatGPT نے کئی سالوں تک حقیقی مقابلے میں لیڈ رہا ہے؛ اب جو حصہ وہ کھو رہا ہے، وہ Gemini کی طرف جا رہا ہے، اور اس کا سبب Android اور سرچ کی تقسیم کی صلاحیت ہے، نہ کہ ماڈل بہتر ہونا۔ Anthropic کو اب پیشگوئی مارکیٹ اور انٹرنیٹ کے ماحول میں بہترین ماڈل رکھنے والا سمجھا جاتا ہے، لیکن صارف چیٹ میں یہ تقریباً ایک اہم کھلاڑی نہیں ہے، بلکہ اس نے اپنا کاروبار صرف کاروباری اور کوڈنگ کے مناظر میں قائم کیا ہے۔
اگر ایک بہتر ماڈل اپنے سب سے اہم استعمال میں بھی مقابلہ کرنے والے کے صارفین کو نہیں چھین سکتا، تو وہ کسی ہسپتال کے مرضیہ سسٹم یا کسی بینک کے ذمہ داری نظام کو ادغام کر کے بھی آسانی سے نہیں جیت سکتا۔ آج، عوام کسی مصنوعات کا انتخاب صرف کوڈنگ کے صلاحیتوں پر نہیں کرتے۔ اگر سب سے آگے کی ماڈل لیئر اب بھی بھری ہوئی ہے، تو اس کے اوپر کی ایپلیکیشن لیئر کی قیمت ہوگی۔
اگر کسی کام کا باہری طور پر جائزہ نہیں لیا جا سکتا، تو اندر کسی کو یہ فیصلہ کرنا ہوگا کہ اچھا جواب کیا ہے۔ اور یہی فیصلہ پورے کھیل کو بناتا ہے۔ جب کافی ایسے فیصلے لکھ لیے جائیں، تو وہ بینچ مارک بن جاتے ہیں۔ ہیروی نے قانون کے شعبے کے لیے بینچ مارک جاری کیا، اور سیریا نے صوتی ایجنٹ کے لیے بینچ مارک جاری کیا۔ آپ کو اس شعبے میں "اچھا" کا مطلب تعریف کرنے کا حق اس لیے حاصل ہے کہ یہ شعبہ پہلے سے آپ کا استعمال کر رہا ہے۔ اور یہ کمپنیاں اصل استعمال کے مشکل مراحل سے گزر کر اس حق حاصل کرتی ہیں۔
پیسے کی رواندگی کا حقیقی جائزہ، نجی اور ہر کمپنی کے لیے الگ الگ بنایا جاتا ہے: اس کمپنی کو اس قسم کے معاملات میں کیا اچھا کام سمجھنا چاہیے۔ اور یہ بات ابھی تک مکمل نہیں ہوئی، کیونکہ قانون کی گہرائی کسی بھی عوامی ٹیسٹ سے بہت زیادہ ہے۔ OpenEvidence اس بات کو مکمل کر رہا ہے کہ محفوظ بالینی جواب کیا ہے۔
یہ سب اصل میں کسی "پیمائش" کے بجائے اس بات کا فیصلہ ہے کہ کیا سچ ہے اور کیا اچھا ہے۔ ان فیصلوں کو لکھ دیا جاتا ہے، جب تک کہ وہ دوسرے سب کے لیے معیار بن جائیں۔ چاہے بنیادی ماڈل لیبارٹری کتنی ہی ذکی کیوں نہ بن جائے، وہ ان معیارات کو خود سے نہیں لکھ سکتی، کیونکہ یہ عزت صرف اس شعبے کے اندر موجود ہوتی ہے۔
یہ اختیار عام طور پر اسی جگہ پر ہوتا ہے جہاں وہ پہلے سے موجود ہوتا ہے۔ تجربہ کار وکلاء قانونی معیار لکھتے ہیں۔ محفوظ کلینکل جوابات ڈاکٹرز ہی طے کرتے ہیں۔ "حل شدہ" کا مطلب کیا ہے، اس کا فیصلہ وہی کمپنی کرتی ہے جس کے پاس پہلے سے صارفین کا تعلق ہوتا ہے۔
سیم باؤنڈریز مزید بڑھتی رہیں گی، کیونکہ ہم لگاتار زیادہ کام کو قابلِ اندازہ بنانے کا طریقہ سیکھتے رہیں گے، اور جو چیز قابلِ اندازہ ہوگی، وہ نگل لی جائے گی۔ غیر تربیت یافتہ زمین وہیں کم ہوتی جائے گی جہاں لوگ کھڑے ہیں، اس لیے آپ ایک قابلِ دفاع مقام تلاش کرکے رک نہیں سکتے۔ آپ کو ان چیزوں کی طرف مسلسل بڑھتے رہنا ہوگا جنہیں ابھی تک درجہ نہیں دیا جا سکا ہے، اور مسلسل دوبارہ بیمہ کرنا اور خطرات کا دوبارہ جائزہ لینا ہوگا۔
ایک تنگ کام پر، اپنے نجی ڈیٹا اور اپنے اپنے جائزہ نظام کے ساتھ، آپ اعلیٰ سطح تک تربیت حاصل کر سکتے ہیں اور اہم صورتحال میں جنرل ماڈل کو شکست دے سکتے ہیں؛ یہ مخصوص ماڈل تحفظ کا ایک حصہ بن جائے گا۔ دوسری طرف، اگر آپ جنرل ماڈل کی صلاحیتوں پر مقابلہ کر رہے ہیں، تو یہ ایک سرمایہ کی جنگ ہوگی، اور آپ وہیں شکست کھائیں گے جس کے پاس سب سے زیادہ کمپوٹیشنل طاقت ہوگی۔ یہی وہ جال ہے جس میں صرف سطحی تک رسائی رکھنے والی اور کام بہت زیادہ قابل فہم والی کمپنیاں آسانی سے فانسی جاتی ہیں۔
جب کوئی کمپنی بقا کے لیے ایک بڑے سیٹ پر عام کاموں پر انتہائی ماڈل سے زیادہ صلاحیت حاصل کرنے کا فیصلہ کرتی ہے، تو فتح یا شکست عام طور پر ڈیٹا سینٹر کے سائز سے طے ہو جاتی ہے۔ آخری نتیجہ اکثر ایک منفرد فاتح کا ظہور نہیں ہوتا، بلکہ کسی ایسے کھلاڑی کو بیچ دیا جاتا ہے جس کے پاس کافی کمپوٹیشنل پاور ہو۔
یہ سب دفاعی ہیں۔ زیادہ مشکل بات حملہ ہے: سب سے پہلے یہ فیصلہ کرنا کہ بالآخر کیا بنانا ہے۔ یہی وہ چیز ہے جسے میں نے اس سال کے دوران تلاش کیا ہے، اور میں نے صرف تین بار ہی اسے تلاش کیا ہے۔ ماڈل اس معاملے میں آپ کی مدد نہیں کر سکتا۔ آپ اسے جہاں بھی اشارہ کریں گے، وہ وہی کرے گا؛ لیکن یہ آپ کو نہیں بتا سکتا کہ کیا اشارہ کرنے کے قابل ہے۔ آپ اس کے لیے بینچ مارک نہیں بناسکتے، اور اس لیے اسے تربیت نہیں دے سکتے۔
اسی لیے بڑے کھلاڑی سب کچھ نہیں لے جائیں گے: وہ اپنے پہلے سے قبضہ کیے ہوئے علاقوں کو برقرار رکھیں گے، اور اگلا چیز کسی ایسے شخص سے آئے گی جس نے دوسرے سے پہلے اس کا استعمال دریافت کر لیا ہو۔ شاید، نیت، کمپوٹیشنل پاور سے زیادہ نایاب ان پٹ ہے۔
اس بے چینی کا آدھا حصہ صحیح ہے۔ پتلا کور确实正在被吸收,而今天很多看起来像公司的东西,确实只是薄外壳。但它对于「吸收之后还剩下什么」的判断是错的。机制是清楚的,终点却不是。
میں اس سمت پر شرط لگانا چاہتا ہوں: ذکاوت مزید سستا ہوتا جائے گا، جبکہ قیمت کم از کم کچھ ماڈلز تک نہ پہنچنے والی جگہوں کی طرف مائل ہوتی جائے گی۔ جو چیزیں تربیت نہیں کی جا سکتیں، وہ تاریخی قیمت رکھتی ہیں۔
تو، ایسے کسی ایک شعبے میں داخل ہو کر، ان غیر جذاب ترین ترجموں کو کریں، اور وہاں «اچھا» کی تعریف لکھنا شروع کر دیں۔ کیونکہ کسی نہ کسی کو یہ کرنا ہی پڑے گا۔ اس سال سب سے زیادہ حوالہ دیا جانے والا بینچ مارک اسکور، اصل میں ایک ایسا نقشہ ہے جو جلد ہی بے قیمت ہو جائے گا، اور ایک اطلاع ہے: کچھ لوگوں کو یہ اطلاع دینا کہ وہ «اچھا» کی تعریف کرنے کا حق کھونے والے ہیں۔
[اصل لنک]
لیک بیٹس
