زھیپو AI کے انجینئرنگ بہتریوں سے لاگت کی کارگردگی اور بازار کی اعتماد بڑھی

لیبر ڈے کے عید کے بعد پہلا ٹریڈنگ دن، Zhipu اور MiniMax دونوں نے دیوانہ وار اضافہ کیا۔

4 مئی کو، زھی پو نے 10 فیصد سے زیادہ کا اضافہ کیا، اور اس کا سٹاک دوبارہ 1000 یوان کے سطح کے قریب پہنچ گیا، جبکہ مینی میکس نے 12.62 فیصد کا اضافہ کیا اور 803 ہانگ کانگ ڈالر پر بند ہوا۔

مورگن اسٹینلی کی رپورٹ کے مطابق، شیئرز کی تیزی کا سبب چینی AI کا منفرد "قابلیت اور قیمت کا نرخ" ہے۔

مورگن اسٹینلی نے رپورٹ "چین کا AI راستہ: زیادہ بینگ فار دی بک" میں کہا کہ کمپوٹیشنل پاور کے پابندیوں کے تحت، امریکا اور چین کے عالی الشأن ماڈلز کی ذہانت کی سطح تیزی سے قریب آ رہی ہے، اور فرق 3 سے 6 ماہ تک کم ہو چکا ہے۔

اسی ساتھ رپورٹ میں یہ بھی بتایا گیا کہ چینی ماڈل کی اصل خوبی یہ ہے کہ وہ امریکی ہم جنسوں کے 15 فیصد سے 20 فیصد کے استدلال لاگت پر تقریباً اسی سطح کی ذہانت حاصل کرتے ہیں۔

یہ جملہ اصل میں بہت آسان ہے۔ تمام لوگوں کو ضرورت نہیں ہوتی کہ وہ سب سے طاقتور ماڈل استعمال کریں، لیکن زیادہ تر لوگ سستے ماڈل استعمال کرنا چاہتے ہیں۔

بازار میں خریداری صرف ایک سادہ “قومی تبدیلی” کی کہانی نہیں ہے، بلکہ چینی AI اپنی قیمت اور کارکردگی کو حقیقی استعمال، حقیقی آمدنی اور حقیقی قیمت میں تبدیل کر رہا ہے۔

لیکن سوال یہ بھی اٹھتا ہے کہ اس کی قیمت اور کارکردگی کا توازن کہاں سے آ رہا ہے؟

اگر صرف کم قیمت پر صارفین حاصل کرنے کا مقصد ہو، تو یہ جلد ہی قیمت کی جنگ بن جائے گا۔

اگر صرف مدل کی تخفیف ہے، تو اب Anthropic، OpenAI جیسی کمپنیاں تخفیف کے راستے بند کر چکی ہیں، تو ریٹنگ کم نہیں ہونی چاہیے؟ اس کے باوجود اسے کیوں بڑھایا گیا؟

واقعیت میں، یہ کہانی کو زیادہ قانع کن بنانے والا نقطہ زہ پو کی طرف سے لیبر ڈے کے قبل جاری کیا گیا ٹیکنیکل بلاگ "Scaling Pain: انتہائی بڑے Coding Agent استدلال کی عملی تجربات" تھا۔

یہ بلاگ بڑے AGI کے خوابوں کے بجائے KV Cache، ذخیرہ کشی، شیڈولنگ، اور غیر معمولی پیداوار جیسے بنیادی انجینئرنگ کو مارکیٹ کے سامنے رکھتی ہے۔

سب سے اہم بات یہ ہے کہ اس نے چینی AI کی قیمت اور عمل کی پشت پر چھپا ہوا راز کھول دیا۔

01

اس بلاگ میں زہپو نے بتایا کہ کیسے کیش، شیڈولنگ اور خطا کی نگرانی کو بہتر بنانے سے ایک جیسے GPU زیادہ کام کر سکتے ہیں اور کم خطا کرتے ہیں۔

زھی پو نے پایا کہ AI کا استعمال نہ ہونا ضروری نہیں کہ ماڈل بہت ذکی نہیں ہے، بلکہ پیچھے چلنے والے سسٹم بہت بے ترتیب ہو سکتا ہے۔ اس نے کیش میں ڈیٹا کے مسائل کو درست کیا، GPU شیڈولنگ اور کیش کی دوبارہ استعمال کو بہتر بنایا، اور ایک ایسا الارم سسٹم شامل کیا جو غیر معمولی آؤٹ پٹ کو پہلے ہی پکڑ لے۔

اس طرح، ایک ہی ماڈل اور ایک ہی GPU سے زیادہ صارفین کو سروس فراہم کیا جا سکتا ہے اور خطا کا احتمال بھی کم ہوتا ہے۔ اس لیے اس کی "قیمت اور کارکردگی کی کہانی" صرف قیمت میں کمی نہیں، بلکہ انجینئرنگ کے ذریعے ہر GPU سے زیادہ مستقل اور استعمال کے قابل کمپوٹنگ طاقت نکالنا ہے۔

لیورل انجینئرنگ کے بہترین کے بعد، GLM-5 سیریز کی کوڈنگ ایجنٹ سیناریو میں سسٹم تھروپٹ 132% تک بڑھ گئی، اور سسٹم کی غلط پیداوار کی شرح لگ بھگ دس لاکھ میں دس سے گھٹ کر تین ہو گئی۔

مثلاً، ایک GPU جو ایک گھنٹے میں اصل میں 100 کاموں کو سرو کرتی تھی، اب اس کی بہتری کے بعد، زیادہ سے زیادہ 232 کاموں کو سرو کر سکتی ہے۔

ہر ایک الگ الگ دیکھنے پر، فتح یا شکست کا فیصلہ نہیں کرتا۔ لیکن جب وہ ایک ساتھ جمع ہو جائیں، تو وہ ایک جیسی کمپیوٹنگ طاقت کے تحت دگنا ٹریفک کے ساتھ ایک درجہ سے زیادہ استحکام کا اضافہ ہوتا ہے۔

ماڈل تبدیل نہیں ہوا۔ تبدیلی اس بات کی ہے کہ ماڈل کو کیسے استعمال کیا جا رہا ہے۔

خود کو مزید تفصیل سے، مارچ سے، زہی پو نے GLM-5 کے آن لائن مانیٹرنگ اور صارفین کے فیڈ بیک میں تین قسم کے غیر معمولی ظاہر ہونے والے واقعات دیکھے: بے ترتیب حروف، دہرائی، اور نایاب حروف۔ یہ ظواہر سطحی طور پر لمبے سیاق و سباق کے اوقات میں عام "بہت سست" ہونے کے مشابہ ہیں۔

لیکن زھی پو ٹیم نے کوئی بھی ماڈل کی درستگی کو کم کرنے والے بہتریوں کو لانچ نہیں کیا۔ تو وہ غیر معمولی بات ماڈل خود میں ہے یا استدلال لینک میں؟

بار بار تجزیہ اور استدلال لاگس کے بعد، انہیں ایک غیر متوقع نقطہِ شروع ملا: ٹریڈنگ سیمپلنگ انڈیکیٹرز کو غیر معمولی کاشف کے لیے حوالہ سگنل کے طور پر استعمال کیا جا سکتا ہے۔

سپیکولیٹو سیمپلنگ اصل میں صرف ایک پرفارمنس آپٹیمائزیشن ٹیکنیک تھی۔ اس میں پہلے ایک ڈرافٹ ماڈل سے کینڈیڈیٹ ٹوکنز تیار کیے جاتے ہیں، پھر مقصد ماڈل ان کی تصدیق کرتا ہے اور قبول کرنے کا فیصلہ کرتا ہے، جس سے نتیجہ کی توزیع کو بنا رکھتے ہوئے ڈیکوڈنگ کی کارکردگی میں اضافہ ہوتا ہے۔

یہ ہے کہ چھوٹے ماڈل پہلے تیزی سے کچھ جوابات تیار کرے، اور پھر بڑا ماڈل صحیح جواب کو منتخب کرے، جس سے یہ تیز اور درست ہوتا ہے۔

زھی پو ٹیم نے پایا کہ جب غیر معمولی واقعات پیش آتے ہیں، تو اسپیکولیٹو سیمپلنگ کے دو اشارے مستقل نمونہ ظاہر کرتے ہیں۔ اس لیے انہوں نے اسپیکولیٹو سیمپلنگ کو صرف پرفارمنس کے بہترین عمل سے آؤٹ پٹ کی معیار کے لیے ریل ٹائم مانیٹرنگ سگنل تک وسعت دے دی۔

jab spec_accept_length لگاتار 1.4 سے کم رہے اور جنریٹڈ لمبائی 128 ٹوکن سے زیادہ ہو جائے، یا spec_accept_rate 0.96 سے زیادہ ہو جائے، تو سسٹم موجودہ جنریشن کو فوری طور پر روک دیتا ہے اور درخواست کو لوڈ بیلنسر کو دوبارہ بھیج دیتا ہے۔

یہ دو اعداد جیسے جسمانی جانچ کے اشارے ہیں، اگر ان میں کوئی غیر معمولی بات ہو تو یہ ظاہر کرتا ہے کہ ماڈل "بیمار" ہے اور اسے دوبارہ شروع کرکے علاج کی ضرورت ہے۔

صارف اس عمل کو محسوس نہیں کرتا، لیکن بیک اینڈ میں ایک ایسا ریسٹارٹ ضرور ہوا ہے۔

خرابی کی بنیادی وجہ KV Cache کے استعمال میں تصادم ہے۔

یہ ایسے ہی جیسے رستوران کی رسوائی، جب کھانے کے وقت کی چوٹی پر بہت سارے لوگ ایک ساتھ آ کر آرڈر کرتے ہیں۔

سسٹم کو ہر صارف کے ماحول کو عارضی طور پر محفوظ رکھنا ہوگا، یعنی KV Cache۔ اس میز پر گاہک نے پہلے کیا آرڈر کیا تھا، مرچ کم ڈالنی ہے یا کھانے میں دھنیا نہیں چاہیے۔ ایک یا دو گاہک تو ٹھیک ہیں، لیکن جب گاہکوں کی تعداد بڑھ جائے تو ویٹر میں غلطی ہونے لگتی ہے۔

مینی میکس

ہائی کنکرنس کے دوران، کچھ کیش کو ری سائیکل، ری استعمال، یا پڑھنے کا ترتیب بگڑ گیا۔ اس کے نتیجے میں ماڈل نے غلط کنٹیکس حاصل کیا، جس کی وجہ سے اس نے بے ترتیب ٹیکسٹ، دہرائی گئی معلومات، یا نایاب حروف پیدا کر دیے۔

انفریس انجن میں، PD الگ تھلگ آرکیٹیکچر کے تحت، درخواست کی زندگی کا دور اور KV کیش کی واپسی اور دوبارہ استعمال کے درمیان عدم تطابق ہے۔ جب ہم آپریشن کا دباؤ بڑھ جاتا ہے، تو تصادم بڑھ جاتا ہے، جس کا صارف کے طرف سے نتیجہ گڑبڑ اور دہرائی ہوتا ہے۔

اس لیے کئی درخواستیں ایک ساتھ ایک ہی میموری کے لیے مقابلہ کرتی ہیں، جس کے نتیجے میں ڈیٹا بگڑ جاتا ہے اور صارفین کو اسے ادھر ادھر کا متن دکھائی دیتا ہے۔

زھی پو ٹیم نے اس بگ کی پہچان کی اور اسے درست کر دیا۔

اس کے علاوہ، انہوں نے مقبول اوپن سورس انفرنس فریم ورک SGLang کے سورس کوڈ لیول پر HiCache ماڈیول کے لودنگ اورڈر کی کمی، یعنی read-before-ready کو درست کیا۔

修复方案通过 Pull Request #22811 提交给了 SGLang 社区，并被采纳۔

SGLang ایک اوپن سورس پروجیکٹ ہے، جس کا مکمل نام بڑے زبان ماڈل کے لیے انفرینس/سروس فریم ورک کے طور پر سمجھا جا سکتا ہے۔ یہ ایک بڑا ماڈل نہیں ہے، نہ ہی ایک AI کمپنی، بلکہ بڑے ماڈلز کو موثر طریقے سے چلانے کے لیے ایک بنیادی سافٹ ویئر سیٹ ہے۔

زھی پو نے SGLang کے اس اوپن سورس انفرنس فریم ورک کے استعمال کے دوران ایک ہائی کانکرنس کیش بگ دریافت کیا۔

اس نے صرف اپنے اندر ہی درست نہیں کیا، زھی پو نے درستگی کا کوڈ SGLang ایک اوپن سورس پراجیکٹ میں جمع کر دیا۔

پروجیکٹ مینٹینر کے جائزے کے بعد قبول اور ضم ہو گیا۔ اس طرح، یہ فکس عوامی ورژن میں شامل ہو گیا، اور بعد میں دیگر SGLang استعمال کرنے والے ڈیولپرز اور کمپنیاں بھی اس کا فائدہ اٹھا سکیں۔

یہ کیا مطلب ہے؟

اگر کوئن کی کسی ڈیپلویمنٹ لائن میں SGLang+HiCache استعمال ہو رہا ہے، تو الی باب بھی زھی پو کی طرف سے اس مسئلے کے دریافت اور حل ہونے کے باعث فائدہ اٹھائے گا۔

وہی پہلے کہی گئی بات ہے، ماڈل میں کوئی تبدیلی نہیں ہوئی، لیکن انجینئرنگ کے ذریعے اسے استعمال کرتے وقت زیادہ ذکی بنایا گیا ہے۔

02

زھی پو کا یہ بلاگ اصل میں ایک گہرے سطح کو کھول دیتا ہے۔

چیٹ بات کے دور کی سستی، زیادہ تر تربیت کی لاگت کم ہونے کی وجہ سے ہے، جس میں سرکاری ماڈلز سے ڈسٹلیشن کا استعمال کیا جاتا ہے۔

ایجینٹ کے دور میں، یہ طریقہ کام نہیں کرتا۔

اس سال کے دوران، Anthropic اور OpenAI نے تعلیمی دروازے بند کر دیے ہیں اور اپنے ماڈلز کے آؤٹ پٹ کا استعمال کرکے مقابلہ کرنے والے ماڈلز کو تربیت دینے کو واضح طور پر منع کر دیا ہے۔ تعلیم کے ذریعہ چال بازی کا راستہ لگاتار تنگ ہوتا جا رہا ہے۔

لیکن چینی AI کمپنیوں کی قیمت اور ادائیگی کی کہانی کمزور نہیں ہوئی، بلکہ بازار اس کہانی کو مزید طاقت دے رہا ہے۔

اس کا سبب یہ ہے کہ قیمت اور مفیدت کی تعریف بدل چکی ہے۔

چیٹ بات کے دور میں، اوسط متن 55K ٹوکنز، ایک بار کی بات چیت، کم ت одноکرنسی۔

ایجینٹ کے دور میں، اوسطاً 70K+ ٹوکنز کا سیاق، لمبے وقت کے کام (8 گھنٹے کے سطح پر)، اعلیٰ ہم آہنگی اور اعلیٰ پیش‌ترین استعمال۔

چیٹ بوٹ کے دور میں، AI کی قیمت کی کارکردگی کا پیمانہ بہت آسان ہے۔ ایک ہی سوال پوچھنے پر، جس کا ماڈل سستا ہو اور جس کا جواب لائن لیول کے قریب ہو، وہ بہتر ہے۔

صنعت میں ہر ملین ٹوکن کی قیمت، ماڈل کے پیرامیٹرز کا سائز اور رینکنگ کا اسکور بحث کا موضوع ہے۔

ایجینٹ کے دور میں، کسی نے اس کے بارے میں نہیں پوچھا، یہ الگورتھم بے کار ہو گیا۔

صارف اب صرف ایک جواب نہیں خرید رہا۔ وہ ایک مکمل کام کے نتیجے کو خرید رہا ہے۔

ایک کوڈنگ ایجینٹ کوڈ پڑھتا ہے، سیاق و سباق کو سمجھتا ہے، مرحلہ وار منصوبہ بنا تا ہے، ٹولز کو بلاتا ہے، فائلز میں تبدیلی کرتا ہے، ٹیسٹ چلاتا ہے، اور ناکامی پر دوبارہ کوشش کرتا ہے۔ اس کے استعمال کی جانے والی ٹوکنز ایک ایک سوال جواب کے اضافے نہیں بلکہ ایک عملی راہنمائی کی کل مجموعی رقم ہیں۔

اوپن راؤٹر، دنیا کا سب سے بڑا کال پلیٹ فارم، 2026ء کی جنوری کی پہلی ہفتے میں 6.4 ٹریلین ٹوکنز کو معالجہ کرتا تھا، جبکہ فروری کی 9 تاریخ کے ہفتے تک یہ تعداد بڑھ کر 13 ٹریلین ہو گئی، جس سے ایک ماہ میں یہ دگنا ہو گئی۔

اوپن راؤٹر کا دعویٰ ہے کہ 100K سے 1M تک لمبے متن کے انٹرول میں اضافی کالوں کی ضرورت، ایجنٹ ورک فلو کا ایک مخصوص استعمال کا منظر ہے۔

لوگوں کا AI کا استعمال "مکالماتی" سے "عملی" طریقے پر منتقل ہو چکا ہے۔ اس لیے، AI کی قیمت کارکردگی کا معیار بھی "ٹوکن فی واحد" سے "کام فی واحد" بن گیا ہے۔

اس سے یہ نتیجہ نکلتا ہے کہ کچھ ماڈلز کے ٹوکن سستے ہوتے ہیں، لیکن ماڈل کی کارکردگی کمزور ہونے کی وجہ سے، کام کے دوران یہ بار بار ناکام ہو جاتے ہیں یا کام کے نتائج معیار پر نہیں پہنچ پاتے، جس کی وجہ سے ان کے ایجنٹ کی قیمت سستی نہیں ہوتی۔

مثلاً، ایک 8 گھنٹے کا کوڈنگ ٹاسک، اگر صرف ایک بار کوڈ میں خرابی آ جائے، تو پورا ورک فلو دوبارہ شروع کرنا پڑ سکتا ہے۔ بچائے گئے ٹوکن کی قیمت، ضائع ہونے والے وقت کو پورا نہیں کر سکتی۔

چینی AI کی قیمت اور کارکردگی کی کہانی ترقی کر رہی ہے۔

پہلے کہا جاتا تھا کہ "وہی سطح کے جوابات، میں سستا ہوں۔" اب کہا جاتا ہے کہ "اسی پیچیدہ کام کو، میں کم لاگت پر مکمل کر سکتا ہوں۔"

اوپن سورس انفراسٹرکچر بھی چین کے AI کے لیے نئی دفاعی دیوار بن رہا ہے۔

جیسا کہ پہلے ذکر کیا گیا، SGLang اسی طرح ہے۔ چینی AI کی انجینئرنگ صلاحیتیں اب اوپر کی طرف کمیونٹی تک پھیل رہی ہیں۔

اس کی قیمت صرف زہ پو نے ایک بگ درست کرنے تک محدود نہیں، بلکہ یہ بھی ہے کہ چینی AI کمپنیاں اپنے حقیقی کاروبار میں ہائی کانکرنس، لمبے کانٹیکسٹ، اور ایجنٹ کال کے مسائل کو عام بنیادی ڈھانچے کی صلاحیتوں میں واپس تبدیل کر رہی ہیں۔

جیسا کہ پہلے ذکر کیا گیا، جب ایک درستگی SGLang جیسے اوپن سورس فریم ورک میں شامل ہوتی ہے، تو وہ صرف Zhipu کے اپنے ماڈلز کے لیے ہی محدود نہیں رہتی۔ اس فریم ورک کا استعمال کرتے ہوئے بڑے ماڈلز کو ڈپلوی کرنے والی تمام ٹیمیں زیادہ مستحکم کیش، کم انفرنس لاگت اور بہتر ایجنٹ تجربہ حاصل کرنے کا موقع پاتی ہیں۔

موڈل کی صلاحیتیں قابلِ تعاقب ہیں، قیمتیں دبائی جا سکتی ہیں، لیکن بنیادی ڈھانچہ اگر اوپن سورس ایکوسسٹم میں داخل ہو جائے تو وہ معیار، انٹرفیس اور ڈویلپمنٹ کے عادات بن جاتا ہے۔

جس نے اپنی انجینئرنگ کی تجربہ کو ان بنیادی نظاموں میں زیادہ جلد لکھا، وہ اگلے AI ایپلیکیشن کے بھرپور افراط میں زیادہ آسانی سے اپنا مقام قائم کرے گا۔

03

بازار کی پٹی پر واپسی۔

AI بڑے ماڈل کے کنسپٹس میں تمام میں اضافہ ہوا، سرمایہ کار AI کمپنیوں کو دوبارہ قیمت دینے کو تیار ہیں؟ بازار کیا خرید رہا ہے؟

جواب یہ ہے کہ سرمایہ کاری بازار "چینی AI کمپنیاں کم ترین استدلال لاگت پر ایک جیسی ذہانت پیدا کر سکتی ہیں" کے نریٹیو کے لیے ادائیگی کر رہے ہیں۔

ابھی بھی OpenRouter کے ڈیٹا کے ساتھ۔

2025ء کے اپریل سے 2026ء کے مارچ تک، چین کی ٹاپ AI کمپنیوں کا ٹوکن استعمال کا حصہ 5% سے بڑھ کر 32% ہو گیا۔ امریکی ٹاپ ماڈلز کا حصہ 58% سے گھٹ کر 19% ہو گیا۔

2026ء کے فروری اور مارچ میں MiniMax، ZhiPu اور Alipay کے ٹوکن استعمال میں گزشتہ دسمبر کے مقابلے میں 4 سے 6 گناہ اضافہ ہوا۔

ٹوکن کال کے علاوہ، چینی AI ایک مکمل طور پر بیرونی بڑی کمپنیوں سے مختلف نمو کا منطق تیار کر رہا ہے۔

overseas leading models are selling "capability premium".

جتنا زیادہ طاقتور مدل ہوگا، اتنا ہی زیادہ ایک بار کال کی قیمت ہوگی، اور صارفین طاقتور ترین ذہانت کے لیے ادائیگی کرتے ہیں۔ کلاڈ، جی پی ٹی-5، جیمنائی سب یہی راستہ اختیار کر رہے ہیں۔

چینی AI "انجینئرنگ" بیچ رہا ہے۔

ماڈل کی صلاحیت اولین ماڈلز کے قریب پہنچ گئی ہے، لیکن قیمت، تاخیر اور فراہمی کی شرائط کم ہیں، جو زیادہ تر ہائی فریکوئنسی سیناریوز کی ضروریات کے مطابق ہیں۔

مورگن اسٹینلی کی رپورٹ میں ذکر کیا گیا ہے کہ چینی ماڈل کی ان پٹ قیمت تقریباً 0.3 امریکی ڈالر فی ملین ٹوکن ہے، جبکہ کچھ خارجی مساوی مصنوعات کی قیمت تقریباً 5 امریکی ڈالر ہے۔ اس کے درمیان دسگنا فرق ہے۔

جب AI ایک تجرباتی ٹول سے بڑھ کر پیداواری ٹول بن جائے، تو اس کی قیمت اور فائدہ فراہمی کی اکثریت کو فیصلہ کرے گا۔

جب ماڈل سستا ہو گا، تو کمپنیاں زیادہ کسٹمر سروس، کوڈنگ، مارکیٹنگ اور ڈیٹا تجزیہ کے کاموں کو اس پر سونپنے کا خود اعتمادی محسوس کریں گی۔ جتنا زیادہ کام چلے گا، اتنے ہی زیادہ ٹوکن استعمال ہوں گے، جس سے پلیٹ فارم کو انفراسٹرکچر کے اخراجات کو تقسیم کرنے میں آسانی ہوگی۔

مینی میکس

میں سمجھتا ہوں کہ اس مرحلے میں ایک فل ویل بننے کا امکان ہے۔

پہلا مرحلہ، ڈیولپرز اور کمپنیوں کو کم API قیمت اور بہتر لائن تک پہنچ کی صلاحیت کے ساتھ متوجہ کرنا ہے۔

دوسرا مرحلہ، زیادہ کالز کی مقدار حقیقی سیناریوز کو بڑھائے گی، جس سے ماڈل اور انفرینس سسٹم کو مزید بہتر بنانے کی ضرورت پڑے گی۔

تیسرے مرحلے میں، جس کے بارے میں زھی پو کی ٹیکنیکل بلاگ میں بات کی گئی ہے، انجینئرنگ کے بہترین طریقوں کے ذریعے فی ٹوکن اور فی ٹاسک لاگت کو کم کیا جاتا ہے تاکہ فرماں مزید قیمت کم کرنے، مقدار میں اضافہ کرنے، یا اعلیٰ قیمت والے مناظر میں قیمت بڑھانے کی صلاحیت رکھ سکیں۔

چوتھا مرحلہ، جب ٹوکن کا استعمال AI کے دور کی نئی ٹریفک بن جائے، تو جو کوئی زیادہ ٹوکن کو کم لاگت پر برداشت کر سکے، وہ اگلے مرحلے کی پلیٹ فارم کمپنی کے قریب تر ہو گا۔

اگر صرف ماڈل کی قیمت کم ہو جائے، تو بازار کو خوف ہوگا کہ یہ سبسڈی اور قیمت کی جنگ ہے، جس سے لگاتار پیسہ خرچ ہو رہا ہے، اور آخرکار کسی کا بیلنس بھی برداشت نہیں کر پائے گا۔

اور، قیمت کی جنگ عالی اقدار کو برقرار نہیں رکھ سکتی۔

لیکن اگر کم قیمت کے پیچھے تھروٹل میں اضافہ، کیش کی دوبارہ استعمال، خرابی کی شرح میں کمی اور شیڈولنگ کی کارکردگی میں بہتری ہے، تو کم قیمت منافع کے بدلے نہیں بلکہ انجینئرنگ کے صلاحیت سے آزاد ہونے والی لاگت کی جگہ ہے۔

قیمت کی جنگ اور اس طرح کے انجینئرنگ آپٹیمائزیشن کے نتائج، جبکہ دونوں ماڈل کو سستا بناتے ہیں اور فنانشل رپورٹس میں ایک جیسے دکھائی دے سکتے ہیں، اقدار کے ماڈل میں بہت زیادہ فرق رکھتے ہیں۔

پہلا سبسڈی ہے، جس کی وجہ سے بازار میں ڈسکاؤنٹ ہوتا ہے۔ دوسرا انجینئرنگ رکاوٹ ہے، جس کی وجہ سے بازار میں پریمیم ہوتا ہے۔

آخر میں ایک فیصلہ کیا جا سکتا ہے۔

گزشتہ میں AI کمپنیوں کی قیمتیں ماڈل کی صلاحیت کی حد پر منحصر تھیں، جو AGI کے قریب تر تھیں۔ اس وقت بازار "سب سے زیادہ ذہین" کے لیے ادائیگی کر رہا تھا، جس کی تعریف دن بدن ادھم ہوتی جا رہی تھی، اور ہر ایک کال کی قیمت بڑھتی جا رہی تھی۔

اب کے ایجینٹ دور میں، اقدار کا اندازہ لگانے کے لیے لاگت کی حد نچلی سطح دیکھی جاتی ہے۔ یہ دیکھا جاتا ہے کہ کون ذکاوت، مستقل، اور سستے طریقے سے بڑے پیمانے پر فراہم کر سکتا ہے۔

سب سے زیادہ جدید "سماجی" کی تلاش میں، یہ شاید چینی AI کی طرف سے موزوں بات نہ ہو۔

تاہم چینی AI سب سے زیادہ ممکنہ طور پر "智能" کے دو الفاظ کو ایک� ایسی بنیادی ڈھانچہ بنائے گا جو ہر شخص اور ہر کاروبار کے لیے قابلِ دستیاب ہو۔

اور بازار صرف ایسی کمپنیوں کے لیے رقم ادا کرنا چاہتا ہے جو اپنے منطق کو واضح طور پر بیان کر سکیں۔

یہ مضمون ویچن گروپ "حروف بینک" (ID: wujicaijing) سے ہے، مصنف: میائو زھنگ