عمودی AI اسٹارٹ اپس عام ماڈل کی برتری کے درمیان بقا کا راستہ تلاش کر رہے ہیں

ذکاوت غیر خطی طور پر بڑھنا شروع ہو گیا ہے، اے آئی کی کمپنیوں کی بنیادی منطق تبدیل ہو رہی ہے۔

مضمون کے مصنف، ذریعہ: جیک پارک

90%، یہ وہ احتمال ہے جو سرمایہ کار 2026 تک AI اسٹارٹ اپ کی ناکامی کے لیے دے رہے ہیں۔

اپریل میں، جس نے a16z کی قیادت میں 33 ملین امریکی ڈالر کی بیج فنڈنگ حاصل کی تھی، AI ماڈل ایوان کے پلیٹ فارم Yupp نے اچانک بند ہونے کا اعلان کر دیا، جسے گوگل کے سربراہ سائنسدان جیف ڈین، ٹویٹر کے ملکیہ بز اسٹون سمیت کئی سلیکون ویلی کے بڑے چہروں نے سپورٹ کیا تھا۔ پلیٹ فارم کے شروع ہونے کے صرف ایک سال کے اندر 13 لاکھ صارفین کو اپنی طرف متوجہ کرنے کے باوجود، اسے اچانک اپنے بانیوں نے بند کر دیا۔ حالانکہ اس کے پاس اب بھی کافی رقم موجود تھی، لیکن بانیوں کو مستقبل کی طرف سے کوئی امید نہیں تھی۔ "صرف گزشتہ ایک سال میں، AI ماڈلز کی صلاحیتوں کا منظر تبدیل ہو چکا ہے، مستقبل صرف ماڈلز نہیں، بلکہ ایجنٹ سسٹم ہوگا۔" Yupp کے بانی پنکج گپتا نے اپنے الوداع کے بلاگ میں لکھا۔

اسی دوران، AI تصویر کمپنی NeuroPixel کو Google NanoBanana Pro جیسے بڑے ماڈلز کی صلاحیتوں میں اضافے کے باعث بند کر دیا گیا، NeuroPixel کے بانی نے اس شکست کو ایک لفظ میں بیان کیا: outgunned — «ایک رات میں بے بسی کے ساتھ شکست کھا گئے»۔

بنیادی ماڈل کے ذہین اسٹیپ ایڈجسٹمنٹ کے پیش نظر، AI کی صلاحیتیں لگاتار وسعت پا رہی ہیں۔ شروع میں، ڈائیلاگ باکس نے سرچ کو کھا لیا، اور صارفین کو نتائج تلاش کرنے کے لیے صفحات پلٹنے کی ضرورت نہیں رہی۔ پھر، ایجنٹ نے سافٹ ویئر کو کھانا شروع کر دیا—ایک ایسا ذہین ایجنٹ جو ٹولز کو کال کر سکے اور ٹاسکس کو ٹکڑوں میں تقسیم کر سکے، وہ ایسے کام کر سکتا ہے جو پہلے پورے مینو اور ایپس کی ضرورت رکھتا تھا۔ جب AI براہ راست ٹرمینل پر کوڈ لکھ سکے، انٹرفیسز کو کال کر سکے، اور عمل کر سکے، تو روایتی سافٹ ویئر سسٹمز کی سرحدیں بھی دوبارہ تعریف ہو رہی ہیں۔

پروڈکٹ منیجرز کے لیے، انہیں پروڈکٹ کی شکل اور انٹرایکشن کو دوبارہ تعریف کرنے کی ضرورت ہے۔ اور بانیوں کے لیے، جان و موت کا سوال اب سامنے آ چکا ہے:

جب بنیادی ماڈل کی بہترین صلاحیتیں مزید بڑھتی ہیں، تو میں کیسے کاروبار شروع کروں؟ میں جو کچھ اب کر رہا ہوں، اسے کیسے اس طرح ڈیزائن کروں کہ اگلے اپ ڈیٹ سے نہیں نکل جائے؟

فلیش لیبس کے بانی شی یی، گزشتہ سال صرف اس سوال کے اندر رہے ہیں۔ انہوں نے باہری لوگوں کے لیے کافی غیر متوقع فیصلے کیے: مصنوعات کا راستہ منسوخ کر دیا، ٹیم کو جان بوجھ کر چھوٹا کر دیا، مختصر مدتی کمائی کے اشاریے چھوڑ دیے، اور حتیٰ کہ کمپنی کا نام بھی تبدیل کر دیا۔ ہم نے ان سے بات کی، جبکہ عام ماڈلز کی ترقی کے دور میں، پہلے کے خاص شعبے کے AI اسٹارٹ اپس کو زندہ رکھنے کا طریقہ کیا ہو سکتا ہے۔

01 نام تبدیل کرنا، جسم کو ہلکا کرنا، AI نیٹو کی طرف موڑنا، بڑے ماڈلز نے مجبور کر دیا جان لیوا تبدیلی

ایک خطرے کا احساس صرف آج ہی کے لیے موجدین کے سامنے نہیں آیا۔ 2024 کے آخر تک، شی یی نے احساس کر لیا تھا کہ جنرل ماڈل کی ذہنی ترقی بہت تیز ہو رہی ہے۔

اس نے پہلی بار ایک AI یونیکورن کمپنی جیسپر کے خاتمے کو محسوس کیا۔ یہ ستارہ کمپنی جسے AI ایپلیکیشن لیئر کا معیار سمجھا جاتا تھا، 18 ماہ میں 1.5 ارب ڈالر کی قیمت تک پہنچ گئی، لیکن GPT کی اصل صلاحیتوں کے کھل جانے کے بعد اس کی آمدنی آدھی ہو گئی۔ "جیسپر کی ARR دونوں طرف سے آدھی ہو گئی،" شی ی نے یاد کیا، "جو کمپنیاں NLP پر کام کرتی تھیں، وہ بڑے ماڈلز کی صلاحیتوں میں مسلسل اضافے کے ساتھ بڑے ماڈلز کے ذریعے نگل لی جائیں گیں۔"

یہ فیصلہ اس کے دل میں ایک کانٹے کی طرح چبھ رہا تھا، جس سے وہ بے چین محسوس کر رہا تھا۔ اس وقت، اس کی کمپنی کا نام FlashIntel تھا اور وہ نسبتاً روایتی To B SaaS کا کاروبار کر رہا تھا۔ روایتی To B SaaS کے منطق کے مطابق، اگر آپ ایک کافی مخصوص شعبے میں کافی سے زیادہ صنعتی ڈیٹا جمع کر لیں، اور قانونی اور محفوظ طریقے سے ٹیکنالوجی کا رکاوٹ بنائیں، تو ضرورت ہے کہ آپ کے لیے زندہ رہنے کا مارکیٹ سپیس ہوگا، لیکن آج یہ سب کچھ کام نہیں کرتا۔

"کیا میں جو کچھ کر رہا ہوں، اسے بھی اسی قسم کی مسائل کا سامنا کرنا پڑے گا؟" یہ سوال اس کے خیالات میں بار بار آنے لگا۔ جلد ہی اسے احساس ہوا کہ اس کا کام جیسپر کے کام سے بنیادی طور پر کوئی فرق نہیں رکھتا، اور پچھلے پروڈکٹ سسٹم تمام طور پر اس فرضیہ پر مبنی تھے کہ ماڈل کی صلاحیت مخصوص شعبے کے ماڈل سے زیادہ نہیں ہوگی۔ جب تک بنیادی ماڈل کی ذہانت کسی انتہائی حد تک پہنچ جائے، تمام مخصوص شعبوں کے پروڈکٹس پر ڈالے گئے اعلیٰ سطح کے انجینئرنگ اور سیناریو آپٹیمائزیشنز کا فائدہ ایک رات میں صفر ہو سکتا ہے۔

نتیجہ کے بعد، اس نے فوراً اس اہم مسئلہ کو کمپنی کی حکمت عملی کی سب سے اہم ترین ترجیح بنا دیا اور ٹیم کو یہ فیصلہ کرنے پر مجبور کر دیا کہ کمپنی کو SaaS سے مکمل طور پر AI Native پر منتقل ہونا ہوگا۔

یہ تبدیلی ایک دفعہ میں نہیں ہوئی۔ اس نے اپنا پہلا سوال یہ پوچھا کہ اگلی نسل کی AI کمپنیاں بالآخر کس قسم کی تنظیمی ساخت کی ضرورت رکھتی ہیں؟

وہ سمجھتا ہے کہ اب کمپنی کو ٹیم کے افراد کی تعداد اور تفصیلی تقسیمِ کام کی طرف راغب نہیں ہونا چاہیے۔ "AI کے دور میں، جتنا زیادہ لوگ ہوں گے، اتنی ہی کم AI کا استعمال ہوگا، کیونکہ تقسیمِ کام جتنا بھی تفصیلی ہوگا، ہر ایک اپنے حصے پر اتنی ہی زیادہ انحصار کرے گا۔" اس نے ٹیم کے سائز کو جان بوجھ کر کم کرنا شروع کر دیا، اور نوکری پر لینے کا معیار "تجربہ اور منصوبوں کو دیکھنا" سے مکمل طور پر "سوچ کے انداز اور مکمل اسٹیک صلاحیت" پر منتقل کر دیا۔ اس نے امیدواروں کا ٹیسٹ کرنے کا طریقہ بھی تبدیل کر دیا، اب وہ ماضی کے رزومے یا تجربے پر نظر نہیں ڈالتا، بلکہ امیدوار کو براہ راست ایک کام دے دیتا ہے اور دیکھتا ہے کہ کیا وہ AI کا استعمال کرتے ہوئے فرانت اینڈ اور بیک اینڈ دونوں کو انجام دے سکتا ہے۔ "جو شخص اسے انجام دے سکتا ہے، وہ AI ٹولز بہت خراب استعمال نہیں کرے گا۔"

اس کے بعد، اس نے کمپنی کے اندر وسائل کی ترجیحات کو دوبارہ ترتیب دیا۔ جب کہ زیادہ تر سٹارٹ اپس صرف مصنوعات کو جلدی لانچ کرنے اور تجارتی تصدیق پر توجہ دے رہے تھے، اس نے زیادہ تر وسائل کو اعلیٰ تحقیق کی طرف موڑ دیا اور کمپنی کا نام بدل کر FlashLabs رکھ دیا۔

وہ کہتے ہیں کہ پہلے انٹرنیٹ کا منطق مصنوعات یا آپریشنز کو ترجیح دیتا تھا، لیکن اب AI کے لیے تحقیق کو ترجیح دینی ہوگی۔ وہ اپنے اور اپنی ٹیم کو تحقیقی مقالوں کو پڑھنے اور پہلے اصولوں کو سمجھنے کا مطالبہ کرتے ہیں، «صرف پہلے اصولوں کے قریب جانے سے آپ جان سکتے ہیں کہ مستقبل میں AI اور کیا کر سکتا ہے اور کیا متبادل بن سکتا ہے۔»

اس تبدیلی کے ساتھ کمپنی کے اندر "درد کا دور" بھی آیا، جس میں ٹیم کے سب لوگوں نے اس بڑے ڈھانچے کی تبدیلی کو سمجھنا نہیں تھا۔ جب وہ اپنی ٹیم کو کہتا تھا "سب سے پہلے منافع کے بارے میں نہ سوچو، صرف دلچسپ چیزیں بناؤ"، تو کمپنی کے اندر کچھ لوگ بہت خوش ہوئے، جبکہ کچھ نے چلے جانے کا فیصلہ کیا۔ لیکن وہ اس بات پر ڈٹے رہے کہ AI کے دور میں کم کرنا زیادہ اہم ہے، "اگر آپ اسے قبول نہیں کرتے، تو صرف اسے ختم کر دیں۔"

لیکن زیادہ اہم بات یہ ہے کہ AI کے دور میں کون سے بانیوں کا گھر رہے گا؟

شی یی کے جواب کو دو نصف جملوں میں تقسیم کیا گیا ہے، پہلا نصف جملہ حقیقت کی طرف مخاطب ہے، "کم از کم آپ کو پیسہ حاصل ہو سکتا ہے، اگر آپ نہیں مرتے یا آپ کی جیب کافی گہری ہے تو آپ لگاتار خون چڑھا سکتے ہیں۔" اور دوسرا نصف جملہ وہ ہے جو وہ حقیقت میں کہنا چاہتا تھا، "کیا آپ کے پاس AI سے زیادہ گہری سوچنے کی صلاحیت ہے؟"

"بڑے ماڈلز کیوں ہر دن زیادہ کام کرنے لگ رہے ہیں؟ کیونکہ تمام قدرتی علوم کا اصل مضمون ریاضی ہے، اور ماڈلز کوڈ لکھ سکتے ہیں اور ریاضی جانتے ہیں۔ اس سلسلے کو ایک ایک کر کے گہرا کرکے دیکھیں تو انسانوں کی صرف ایک ہی چیز نایاب رہ جاتی ہے: کسی خاص شعبے میں AI سے زیادہ گہری سوچنا۔" اسٹی یی نے تجزیہ کیا، "بہت سے لوگ AI کے بارے میں بالکل بھی درست نہیں سمجھتے۔ دیکھیں کتنے بانی اپنے آپ کوڈ لکھتے ہیں یا روزانہ AI ٹولز استعمال کرتے ہیں؟ مستقبل میں کوڈ لکھنے کی صلاحیت ایک کمودٹی بن جائے گی، جسے ہر کوئی سیکھ لے گا۔ لیکن کیا آپ AI سے زیادہ ذہین ہو سکتے ہیں؟ یہی محفوظ دیوار ہے۔"

ہوشیاری سے خطرے تک، فیصلہ لینے تک، اور تنظیمی دوبارہ ساخت کے لیے قیمت ادا کرنے تک، شی یی نے ایک سال میں ایک “خود کو دوبارہ ترقی دینا” مکمل کیا۔ اس نے مدل کے اپڈیٹ کا انتظار نہیں کیا تاکہ آخری نتیجہ معلوم ہو، بلکہ اس نے پہلے ہی اس صحیح جواب کے ظاہر ہونے کے ممکنہ مقام کو تلاش کرنے کا فیصلہ کیا۔ اب یہ ایک اور سوال ہے کہ کیا وہ مقام صحیح تھا، لیکن اب تک، وہ AI کے ٹیبل سے اٹھنا نہیں چاhta۔

02 کاروباری سطح کا ایجینٹ "Harness" کا ایجاد کرنا چاہتا ہے

organisational restructuring is just the first step on the path to corporate survival. What truly required Shi Yi to make a firm decision to change was the product roadmap.

اس نے شروع میں ایک متعدد ایجینٹ تعاون نظام بنانے کا خیال رکھا، اس منطق کے مطابق کہ زیادہ لوگوں سے زیادہ طاقت ملتی ہے، انسانی کمپنی کی تنظیمی ساخت کا نمونہ بنایا جا سکتا ہے: کچھ تلاش کے لیے، کچھ منطقی استدلال کے لیے، اور کچھ نتائج کو مجموعی طور پر جمع کرنے کے لیے۔

لیکن عملی ٹیسٹ کے نتائج نے شی یی کو بار بار سر ہلاتے دیکھا: "بہت سست، بہت جھٹکے والی، اور نکلنے والا نتیجہ ایک واحد ایجینٹ سے بھی کم ہے۔" اس کے خیال میں، ایجینٹس کے درمیان حکم کا تبادلہ ایک کم معیار کا فون گیم کی طرح ہے، جہاں ہر اضافی منتقلی سے معلومات کا نقصان ہوتا ہے۔ "میں ایک 150 IQ والے جنوری کو ترجیح دوں گا جو تمام عالی شان گاڑیوں سے لیس ہو، نہ کہ 110 IQ والے کئی عام لوگوں کو جو ناقص ٹولز کے ساتھ ہیں اور باہم مذاقہ کرتے ہیں۔" شی یی نے انٹرویو میں صاف صاف کہا۔

آخر کار، اس نے تمام پیش گئے سب ایجینٹس کو ختم کر دیا اور ایک ایسا واحد ایجینٹ تیار کرنے کا فیصلہ کیا جو متعدد تھریڈنگ کے ذریعے متوازی طور پر کام کرے تاکہ کلستر تعاون کی ضرورت ختم ہو جائے۔

یہ FlashLabs کے نئے ترین مصنوعہ Super Agent کا ابتدائی رūp ہے، جو ایک واحد ماڈل کی ذہانت کو حد تک پہنچاتا ہے اور اوزاروں کو بھی حد تک استعمال کرتا ہے۔ Super Agent اپنے صارفین کی آمدنی کے نظام کو ایک جگہ متحد کرنے کے لیے ذکاوت مند خودکاری کا استعمال کرتا ہے، جس میں ممکنہ صارفین کی تلاش سے لے کر ٹرانزیکشن تک AI Agent تمام مراحل میں شامل ہوتا ہے۔

جیک پارک کے انٹرویو کے میدان میں، شی ی نے سپر ایجنٹ کو ایک معلومات کی تلاش کا ٹاسک دیا: "چین میں گزشتہ ست ماہ میں سرمایہ کاری حاصل کرنے والی تمام AI کمپنیوں کے بانیوں کے پس منظر کی تلاش کریں اور ایک ٹیبل بنائیں۔" اس کے بعد، سپر ایجنٹ نے فوراً کئی ڈیڑھ ٹاسک تھریڈز شروع کر دیں، جن میں تلاش، ویب سکریپنگ، کوڈ لکھنا اور ڈیٹا صاف کرنا شامل تھا، اور 2-3 منٹ کے اندر نتائج حاصل ہو گئے، جس میں بانیوں کے نام، فنڈنگ کی رقم، اور شائع کردہ رابطہ معلومات شامل تھیں۔

اگر ملٹی ایجینٹ کو چھوڑنا ایک آرکیٹیکچرل سبٹریکشن ہے، تو مقامی کرنا چھوڑنا ڈیپلومنٹ منطق پر ایک الٹا انتخاب ہے۔

جب OpenClaw ڈویلپر کمیونٹی میں "لوکل Agent" کی لہر پیدا کر رہا ہے، تو شی یی نے Super Agent کو بے نقاب طور پر کلاؤڈ پر رکھ دیا۔ "اگر OpenClaw جیسا سسٹم کسی کاروبار کے اندر چلایا جائے، تو یہ ایک ٹروجن ہارس کے برابر ہے، آپ اس کے ذریعے آسانی سے اندر گھس سکتے ہیں۔" وہ سمجھتے ہیں کہ ابھی کے مرحلے میں جو بھی کمپنی OpenClaw کو کاروباری اندر بڑے پیمانے پر ڈپلوی کرنے کا جرات کرتی ہے، وہ دنیا بھر کے ہیکرز کے لیے دروازہ کھول رہی ہے۔

اس کے خیال میں، OpenClaw کی ترجیح یہ ہے کہ اس سے انفرادی سطح پر اقدام کی ممکنہ صلاحیت ظاہر ہوتی ہے۔ مثال کے طور پر، OpenClaw کے ساتھ، AI صارف سے 2000 ڈالر کی درخواست کرتا ہے تاکہ گرافکس کارڈ خرید سکے، اور صارف کہتا ہے کہ تم خود کمائو، تو AI مارکیٹ کی پیشگوئی اور کوانتٹیٹو اسٹریٹجیز کا جائزہ لینے لگ جاتا ہے۔ "کون سا بوس ایک اقدامی ملازم کو پسند نہیں کرتا؟" شی ی نے پوچھا۔ جب یہ اقدامیت کاروباری سطح کے مصنوعات کا حصہ بن جائے، تو انسانی ملازمین کی جگہ لینے کی رفتار توقع سے بہت زیادہ ہو جائے گی۔ "پہلے صنعتی انقلاب میں، گاڑیوں سے کاروں میں تبدیلی کے لیے آپ کو پہلے کار خریدنی پڑتی تھی، ڈرائیونگ لائسنس حاصل کرنا پڑتا تھا، اور سڑکوں کو تبدیل کرنا پڑتا تھا — اس میں بہت زیادہ وقت لگتا تھا۔ لیکن اس بار بات الگ ہے، ہوسٹڈ ڈپلومنٹ، اور اچانک، دسوں ملازمین کا کام ختم ہو جاتا ہے۔" اس نے یہ بھی جائزہ لیا کہ اس سال وائٹ کالر نوکریاں AI کے ذریعے بڑھتے ہوئے شدید طور پر متبادل ہو جائیں گی۔

آٹومیٹڈ ایکزیکیشن کی چیلنج، یعنی کس طرح کاروباری درجہ کے ایپلیکیشنز کی حفاظت کی جائے، کے لیے FlashLabs کا حل ایک macOS جیسی سینڈ باکس اجازت نظام تعمیر کرنا ہے، جسے کلاؤڈ پر ڈپلوی کیا جاتا ہے اور تدریجی اجازت دی جاتی ہے۔ اس کا مطلب ہے کہ Agent شروع میں صرف اپنا کام مکمل کرنے کے لیے ضروری حد تک اجازت رکھتا ہے، اور صرف اس صورت میں جب اس کی استحکام اور حفاظت کو بار بار تصدیق کر لیا جائے، تو Agent کی حدود تدریجاً وسعت پاتی ہیں۔

اس نے ونڈوز اور میک کا مثال کے طور پر ذکر کیا، "ونڈوز پر ایک سافٹ ویئر انسٹال کرنے سے بہت زیادہ اجازتیں حاصل ہو سکتی ہیں، خاموشی سے انسٹال ہو جاتا ہے، براؤزر کے ساتھ جڑ جاتا ہے، اور آپ اسے حذف بھی نہیں کر سکتے۔ میک پر تمام پروگرامز سینڈ باکس میں الگ ہوتے ہیں، اس لیے آپ کو کبھی اینٹی وائرس سافٹ ویئر انسٹال کرنے کی ضرورت نہیں پڑتی۔" شی یی کو یقین ہے کہ اینٹرپرائز لیول ایجینٹ کے مقابلے کا اختتام مدل کے استعمال کی صلاحیت سے ماحول ڈیزائن کرنے کی صلاحیت تک پہنچ جائے گا، جو ایجینٹ کے لیے محفوظ، قابل کنٹرول اور قابل آڈٹ ماحول فراہم کر سکے، وہی صارفین کو حقیقی طور پر استعمال کرنے کے لیے ترغیب دے سکتا ہے۔

لیکن، اگر مدل دوبارہ ترقی کر جائے، تو اب کے یہ تبدیلیاں کیا معنی رکھتی ہیں؟ اگر GPT-6 یا Claude میں زیادہ طاقتور ٹاسک ڈیکامپوزیشن اور ٹول کال کی صلاحیتیں ہو جائیں، تو کیا FlashLabs کا آج کا کام دوبارہ ختم ہو جائے گا؟

اس سوال کے جواب میں شی یی نے بھاگنے کی بجائے اپنی سوچ کو دو پہلوؤں میں تقسیم کیا۔

اس نے سب سے پہلے مخصوص شعبے کی کمپنیوں کی کاروباری رکاوٹوں کو چار سطحوں میں تقسیم کیا: احساس (Perception)، منصوبہ بندی (Planning)، تکراری سیکھنا (Recursive Learning)، اور حکومتی نظام (Governance)۔

بڑے ماڈل کے مارکیٹ میں 5 کمپنیاں ہیں، اور SOTA رینکنگ تین ماہ بعد تبدیل ہو جاتی ہے۔ آپ اپنی اورکیسٹریشن لیئر کے ذریعے تمام ماڈلز کو ایک ساتھ جوڑ سکتے ہیں اور مختلف سیناریوز میں سب سے زیادہ ماہر ماڈل کو استعمال کر سکتے ہیں۔ لیکن ایک منفرد ماڈل کمپنی صرف اپنا ہی استعمال کر سکتی ہے، اور جب آپ کا بنیادی ماڈل سب سے ذکاوت والے ماڈل نہ ہو، تو آپ کی مصنوعات کی مقابلہ جاتی صلاحیت فوراً کم ہو جاتی ہے۔" جبکہ عام بڑے ماڈلز جلد ہی پہلے دو لیئرز کو کور کر رہے ہیں، شی یی کا خیال ہے کہ اصل رکاوٹ صرف آخری دو لیئرز باقی رہ جاتی ہیں، اور آخری دفاعی دیوار اورکیسٹریشن لیئر (Orchestration Layer) میں ہے۔

وہ سمجھتا ہے کہ جب کئی ایجینٹس کسی کاروباری سسٹم میں تعاون کرتے ہیں، تو وہ انسانوں کی نظر سے پوشیدہ طور پر مذاکرات کر سکتے ہیں اور متعین اجازت کے قوانین کو دور کر سکتے ہیں۔ خاص شعبوں کی کمپنیوں کا اصل رکاوٹ، خاص مناظر کے لیے ایک ایسا چلائی جانے والی ماحول تیار کرنا ہے جو کھلا اور قابو میں ہو۔

اس جائزے کے درست ہونے کے بارے میں، وہ تسلیم کرتا ہے کہ اسے مکمل یقین نہیں ہے۔ "AI بہت جلدی تبدیل ہو رہا ہے، آپ کو حقیقت میں نہیں پتہ کہ مستقبل میں کیا ہوگا۔" لیکن وہ ایک بات پر یقین رکھتا ہے کہ اگر عمودی کاروبار اپنے پاس AI اور AI حکمت عملی کے دو پتے اچھی طرح سے استعمال کریں اور ماحولیاتی ڈیزائن کے مسائل حل کر لیں، تو وہ اگلی لہر کے ماڈل کے ارتقاء میں براہ راست بورڈ سے نکال دیے جانے سے بچ سکتے ہیں۔

03 صوتی ماڈل کو دوبارہ تعمیر کیا جائے گا، ایکٹیو ایجینٹس کی وجہ سے اثرات کے مطابق ادائیگی کا نیا انداز ظاہر ہو سکتا ہے

اپنے مقابلہ جیتھے مصنوعات کو کیسے تیار کیا جائے، اس کو جاننے کے بعد اگلے مرحلے میں صارفین کو تسلیم کرانا ہے۔

فلاش لیبس کے حالیہ تجارتی منصوبوں میں دو اہم مصنوعات ہیں: سپر ایجنٹ، جس کا ادائیگی کا طریقہ ٹوکن استعمال پر مبنی ہے اور اس کی قیمت ویب سائٹ پر دی گئی ہے؛ اور دوسرے، اپنا کروما آواز ماڈل اوپن سورس کرنا، لیکن اس ماڈل پر مبنی پلیٹ فارم اور خدمات کے لیے شرحیں لینا۔ درحقیقت، یہ دونوں منصوبے موجودہ دور کی عام تجارتی راہیں ہیں: اوپن سورس کے ذریعے ٹیکنالوجی پر اعتماد قائم کرنا اور پلیٹ فارم اور خدمات کے ذریعے تجارتی قیمت واپس حاصل کرنا۔

اپنی موجودہ حالت میں، جاپان کی ٹیکس اور فنانس کمپنیاں انسانی کسٹمر سروس کے بجائے FlashLabs کے Chroma اسپیچ ماڈل کا استعمال کر رہی ہیں، جس میں ابھی صرف 1/10 کارکنان کے ساتھ ٹیسٹ کیا جا رہا ہے، جہاں AI اور انسانی عملہ ایک ساتھ آن لائن ہوتے ہیں اور دونوں کی کارکردگی کے اسکورز کا موازنہ جاری رکھا جاتا ہے۔ تصدیق کا طریقہ بہت آسان ہے: جو زیادہ درستگی اور بہتر کارکردگی دکھائے گا، اس کی ڈیٹا سے تصدیق ہو جائے گی۔

"صوت کے استعمال کی حدود، بصری ایسے ہی ہیں"، جب پورا صنعت متعدد ماڈلز اور ویڈیو سمجھ پر توجہ مرکوز کر رہا ہے، تو شی یی نے اپنی ٹیم کے ساتھ ریل ٹائم آواز ماڈل Chroma پر توجہ مرکوز کی اور اندرونی تاخیر کو صرف 135 ملی سیکنڈ تک کم کر دیا۔

پہلے متن کے بڑے ماڈل کے آنے سے پہلے، OCR، NLP، اور مختلف چھوٹے ماڈلز کو جوڑا جاتا تھا۔ آج کی صوتی ٹیکنالوجی بھی وہی حالت ہے جو متن کے بڑے ماڈل کے آنے سے پہلے تھی — ASR، TTS، اور مختلف ماڈیولز کو جوڑا جا رہا ہے، جہاں ہر مرحلہ صرف اپنے حصے کو بہتر بنانے پر مبنی ہے۔ یہ پرانی ساخت ضرور ایک ایسے اینڈ-ٹو-اینڈ صوتی بڑے ماڈل سے مکمل طور پر بدل جائے گی۔ اس کا خیال ہے کہ دوسروں کا انتظار کرنے کی بجائے، وہ خود اس تبدیلی کا موجد بن جائیں۔

شی یی کا خیال ہے کہ آواز انسانوں کے درمیان سب سے قدرتی مواصلات کا طریقہ ہے، اور مستقبل میں یہ انسانوں اور AI کے درمیان سب سے اہم انٹرفیس ہوگی۔ "آواز میں متن کے مقابلے میں بہت زیادہ معلومات کا بینڈ ویتھ ہوتا ہے، میں ایک جملہ کہوں اور آپ فوراً سمجھ جائیں گے۔"

اس نے یہ بھی محسوس کیا کہ اس صوتی ماڈل کا جسمانی ذہانت کے صنعت میں اہم کردار ہے۔ پہلا لیول ریل ٹائم صوتی ماڈل ہے، جو کم لیٹنسی اور اعلیٰ ایمotional ا intelligence کے ساتھ فوری ردعمل فراہم کرتا ہے — موسم کے بارے میں پوچھنا، یا کپڑے بڑھانے کے بارے میں پوچھنا، یہ لیول فوراً ہندسہ کرتا ہے؛ دوسرا لیول گہری سوچ والے بڑے ماڈل ہے، جو پیچیدہ استدلال کو سنبھالتا ہے؛ تیسرا لیول دنیا کا ماڈل ہے، جو فزکل قوانین کو سمجھتا ہے۔ "صوت کے استعمال کا دائرہ، بصری کے ساتھ ایک ہی سطح پر ہے۔" یہ اس کا اب تک کا سب سے زیادہ یقینی لمبے مدتی جائزہ ہے۔

شی یی چن کا خیال ہے کہ موجودہ AI کا تجارتی ماڈل صرف ایک عارضی شکل ہے۔ کیونکہ موجودہ تمام ایجینٹس بنیادی طور پر پاسیو فیڈ بیک ہیں، آپ انہیں بتاتے ہیں کہ کیا کرنا ہے، وہ وہی کرتے ہیں، جیسے ایک حکم کا انتظار کرنے والا انجن، جو ابھی بھی چیٹ بوٹ کے قریب ہے، اس لیے تجارتی ماڈل اب بھی ٹوکن کے استعمال کے مطابق ادائیگی پر مبنی ہے، جتنا استعمال کیا، اتنی ادائیگی کی جائے۔

لیکن جب ایجنٹ سرگرم خدمت شروع کر دے، یعنی جب آپ اسے بتائیں کہ KPI کیا ہے، OKR کیا ہے، تو وہ خود کام تلاش کرے، اپنا راستہ منصوبہ بند کرے، اور نہایت قابل پیمائش نتائج پیش کرے۔ اس وقت، اس کا موازنہ اب آلہ نہیں، بلکہ ملازم کے ساتھ ہوتا ہے۔ واضح بات ہے کہ کمپنی ملازم کے لکھے گئے حروف یا بھیجی گئی ای میلز کے حساب سے تنخواہ نہیں دیتی، آپ دیکھتے ہیں کہ اس نے کون سے مقاصد حاصل کیے۔

اس لیے وہ سمجھتا ہے کہ ایجنٹک دور میں، تجارتی ادائیگی کا منطق بھی نتائج اور KPI کے مطابق ادائیگی پر منتقل ہونا چاہیے۔ جب یہ تبدیلی حقیقی طور پر واقع ہوگی، تو پورے ایجنٹ مصنوعات کی قیمت ڈالنے کی نظام، فروخت کا طریقہ اور صارفین کے تعلقات دوبارہ لکھے جائیں گے۔

صنعت کے اندر نئے کاروباری ماڈلز کی تلاش شروع ہو چکی ہے۔ AI قانونی فرم Crosby، جس نے حال ہی میں 60 ملین امریکی ڈالر کا B راؤنڈ فنڈنگ حاصل کیا ہے، ہر ایجنٹ کو معاہدے کے جائزے کے مختلف مراحل کی ذمہ داری دیتا ہے، جیسے پس منظر کی معلومات نکالنا، ترمیم کی تجاویز دینا، اور نوٹس بنانا، اور پھر وکلاء AI کے نتائج کا جائزہ لیتے ہیں، کمیوں کو دور کرتے ہیں اور درستگی کو یقینی بناتے ہیں۔ اس کا کاروباری ماڈل معاہدوں کی تصدیق شدہ تعداد کے لحاظ سے فیس لینا ہے، جس میں ہر معاہدے کے لیے 250 سے 1000 امریکی ڈالر تک لیا جاتا ہے، جو تقریباً صفحات کی تعداد کے مطابق ہوتا ہے، تقریباً 10 سے 50 امریکی ڈالر فی صفحہ۔

لیکن اگلا کمرشل ماڈل تک پہنچنے کی اصل شرط یہ ہے کہ ایکٹو ایجنٹس قابل قیاس نتائج کو مستقل طور پر فراہم کر سکیں۔ "ابھی ہم اس مرحلے تک نہیں پہنچے۔"

فلیش انٹیل سے فلیش لیبس تک، شی یی نے ایک سال میں ایک واضح قیمت کے ساتھ تنظیم اور راستہ تبدیل کر لیا۔ ملازمین کو برطرف کرنا، موجودہ پروڈکٹ آرکیٹیکچر کو منسوخ کرنا، اور تجارتی حصول کو عارضی طور پر کم کرنا، باہر کے لوگوں کے لیے سب کچھ صرف منفی تبدیلیاں لگ رہی ہیں۔

لیکن AI صنعت کی تیز رفتار ترقی کے ماحول میں، یہ زیادہ تر ایک اسٹارٹ اپ کی طرح ہے جو تیزی سے تبدیل ہونے والے ماحول میں اپنے آپ کو درست کر رہا ہے۔ ماڈل کی صلاحیتیں ہر کچھ ماہ بعد ایک نئی کھڑکی کے ساتھ بڑھ سکتی ہیں، اور کوئی بھی مستقبل کی راہ کو مکمل طور پر پیش گوئی نہیں کر سکتا۔ شی ی اور FlashLabs کے لیے، اب کا مرکزی مقصد بازار کا کتنا حصہ قبضہ کرنا نہیں بلکہ اپنے ٹیکنالوجی کے انتخابات اور تجارتی منطق کو اگلی لہر سے آسانی سے ختم ہونے سے بچانا ہے۔

صنعت اب بھی ایجینٹ کی حقیقی شکل کا جائزہ لے رہی ہے، ادائیگی کے ماڈل، سیکورٹی کی سرحدوں، اور تعامل کے طریقوں کا نتیجہ ابھی تک واضح نہیں ہوا۔ فلیش لیبس کا انتخاب ضرور بہترین حل نہیں ہو سکتا، لیکن یہ ایک عمودی AI کمپنی کے لیے حقیقی بقا کا راستہ ظاہر کرتا ہے: بڑے ماڈلز کے نیچے کی طرف بڑھنے کے دباؤ کے تحت، پہلے ایک مستحکم مقام حاصل کریں، اور پھر صنعت کے بالکل بالغ ہونے کا انتظار کریں۔