ای آئی ایجنٹ کی خروجی کی معیاریت ٹوکن برن سے متعلق ہے

لکھنے والے: سسٹماتک لانگ شارٹ

ترجمہ: شن چاؤ ٹیک فلو

شین چاؤ کا خلاصہ: اس مضمون کا مرکزی دعویٰ صرف ایک جملہ ہے: AI Agent کی پیداوار کی معیار اور آپ کے ذریعہ استعمال کیے جانے والے ٹوکن کی تعداد کے درمیان مستقیم تعلق ہے۔

مصنف صرف نظریات کے بارے میں عام باتیں نہیں کر رہا، بلکہ دو ایسے عملی طریقے پیش کر رہا ہے جن کا استعمال آپ آج سے شروع کر سکتے ہیں، اور "نئے ہونے کا مسئلہ" کے ساتھ ٹوکن بنانے کی حدود واضح طور پر طے کر رہا ہے۔

ایجینٹ کا استعمال کرتے ہوئے کوڈ لکھنے یا ورک فلو چلانے والے پڑھنے والوں کے لیے، معلومات کی گنجائش اور قابل عملیت بہت زیادہ ہے۔

تعارف

ٹھیک ہے، آپ کو تسلیم کرنا ہوگا کہ یہ عنوان واقعی دلچسپ ہے—لیکن سچ بات یہ ہے کہ یہ مزاح نہیں ہے۔

2023 میں، جب ہم LLM کا استعمال پروڈکشن کوڈ کے لیے کر رہے تھے، تو ہمارے اردگرد کے سب حیران رہ گئے، کیونکہ اس وقت عام سمجھ یہ تھی کہ LLM صرف استعمال نہ ہونے والی گندگی پیدا کرتے ہیں۔ لیکن ہمیں ایک ایسا حقیقت معلوم تھی جسے دوسرے نہیں سمجھ رہے تھے: ایجنٹ کی پیداوار کی معیار، آپ کے درج کردہ ٹوکن کی تعداد کا فنکشن ہے۔ بس اتنا ہی۔

آپ خود کچھ تجربات کر کے دیکھ سکتے ہیں۔ ایجنٹ کو ایک پیچیدہ، تھوڑا سا نایاب پروگرامنگ کام سونپیں — مثلاً، ایک پابندیوں والے کنواکس آپٹیمائزیشن الگورتھم کو صفر سے تعمیر کرنا۔ سب سے کم سوچنے والی سطح پر شروع کریں؛ پھر اعلیٰ سوچنے والی سطح پر جائیں اور اسے اپنے کوڈ کا جائزہ لینے دیں کہ وہ کتنے بگز دریافت کرتا ہے۔ درمیانی اور اعلیٰ سطح دونوں کا آزمائش کریں۔ آپ واضح طور پر دیکھیں گے کہ بگز کی تعداد ٹوکنز کی مقدار کے ساتھ منفرد طور پر کم ہوتی جاتی ہے۔

یہ سمجھنا آسان نہیں ہے، نہیں؟

زیادہ ٹوکن = کم غلطیاں۔ آپ اس منطق کو مزید آگے بڑھا سکتے ہیں، جو تقریباً کوڈ ریویو پروڈکٹ کے پیچھے (سادہ کردہ) مرکزی خیال ہے۔ مکمل طور پر نیا ماحول بنائیں، بہت زیادہ ٹوکن لگائیں (مثلاً اسے کوڈ کو لائن بہ لائن پڑھنے اور ہر لائن میں بگ ہے یا نہیں، یہ جاننے کے لیے استعمال کریں) — اس طرح آپ تقریباً تمام یا پورے بگز کو پکڑ سکتے ہیں۔ اس عمل کو دس بار، سو بار دہرایا جا سکتا ہے، ہر بار کوڈ بیس کو " مختلف نظریات" سے دیکھتے ہوئے، اور آپ نہایت ممکن ہے کہ تمام بگز کو نکال لیں۔

"زیادہ ٹوکن کا استعمال کرنے سے ایجینٹ کی معیار بہتر ہوتا ہے" کا نقطہ نظر ایک تجرباتی ثبوت بھی رکھتا ہے: وہ ٹیمیں جو دعویٰ کرتی ہیں کہ وہ ایجینٹ کا استعمال کرکے مکمل کوڈ لکھ کر براہ راست پروڈکشن میں لے جاتی ہیں، یا تو بنیادی ماڈل فراہم کنندگان ہیں، یا پھر بہت زیادہ فنڈز والی کمپنیاں ہیں۔

تو، اگر آپ ابھی تک ایجنٹ کے پروڈکشن لیول کوڈ نہیں چلا پا رہے — صاف الفاظ میں کہوں تو، مسئلہ آپ کے ساتھ ہے۔ یا، آپ کے والٹ کے ساتھ۔

کیسے جانیں کہ میں نے کتنے ٹوکن جلائے ہیں

میں نے ایک پورا مضمون لکھا تھا کہ مسئلہ بالکل آپ کے ڈھانچے (harness) میں نہیں ہے، "سادہ رکھیں" کے ساتھ بھی آپ عالی کام کر سکتے ہیں، اور میں اب بھی اس خیال پر ڈٹا ہوں۔ آپ نے وہ مضمون پڑھا، اس پر عمل کیا، لیکن اب بھی ایجنٹ کے نتائج سے نااخلاق ہوئے۔ آپ نے مجھے ڈی ایم بھیجی، میں نے اسے پڑھ لیا لیکن جواب نہیں دیا۔

یہ، جواب ہے۔

آپ کا ایجینٹ کمزور پرفارم کرتا ہے اور مسائل حل نہیں کرتا، زیادہ تر صورتوں میں اس کا سبب یہ ہے کہ آپ نے کافی ٹوکن نہیں جلائے۔

ایک مسئلہ حل کرنے کے لیے کتنے ٹوکن درکار ہوں گے، بالکل اس مسئلے کے سائز، پیچیدگی اور نئے ہونے پر منحصر ہے۔

"2+2 کتنے برابر ہے؟" اس کے لیے کوئی زیادہ ٹوکن نہیں چاہیے۔

میرے لیے ایک بॉٹ لکھیں جو Polymarket اور Kalshi کے درمیان تمام مارکیٹس کو اسکین کرے، سیمنٹک طور پر مماثل مارکیٹس تلاش کرے جو ایک ہی واقعہ کے前后 میں سیٹل کرنا چاہیں، بلا آربٹریج حدود مقرر کرے، اور جب بھی آربٹریج کا موقع ہو تو کم تاخیر کے ساتھ خودکار طور پر ٹریڈ کرے — اس کے لیے بہت سارے ٹوکنز کی ضرورت ہوگی۔

ہم نے عملی طور پر ایک دلچسپ بات دریافت کی۔

اگر آپ مسئلہ کے حل کے لیے کافی زیادہ ٹوکن لگائیں، تو ایجنٹ کسی بھی طرح مسئلہ حل کر دے گا۔ دوسرے الفاظ میں، اگر آپ ایک بہت زیادہ پیچیدہ چیز بنانا چاہتے ہیں جس میں بہت سے کمپوننٹس اور کوڈ لائنز ہوں، تو صرف اس کے لیے کافی زیادہ ٹوکن لگا دیں، اور وہ تمام مسائل بالآخر مکمل طور پر حل ہو جائیں گے۔

یہاں ایک چھوٹا مگر اہم استثناء ہے۔

آپ کا سوال بہت نیا نہیں ہونا چاہیے۔ اب کے مرحلے میں، کوئی بھی مقدار میں ٹوکن "نئے پن" کے مسئلے کو حل نہیں کر سکتا۔ کافی زیادہ ٹوکن مختصریت کے باعث ہونے والی غلطیوں کو صفر تک کم کر سکتے ہیں، لیکن ایجنٹ کو وہ چیزیں جو وہ نہیں جانتا، وہ خود سے تخلیق نہیں کر سکتا۔

یہ نتیجہ درحقیقت ہمیں آرام دیتا ہے۔

ہم نے بہت زیادہ محنت کی، اور بہت، بہت، بہت زیادہ ٹوکن جلائے، تاکہ یہ آزمائیں کہ کیا ایجنٹ کسی بھی ہدایت کے بغیر ادارتی سرمایہ کاری کے عمل کو دوبارہ تشکیل دے سکتا ہے۔ اس کا ایک حصہ یہ سمجھنے کی کوشش تھی کہ ہم (مقداری تحقیق کاروں کے طور پر) AI کے مکمل طور پر متبادل ہونے سے کتنے سال دور ہیں۔ نتیجہ یہ نکلا کہ ایجنٹ ایک قابل قبول ادارتی سرمایہ کاری کے عمل تک نہیں پہنچ سکتا۔ ہم سمجھتے ہیں کہ اس کا ایک سبب یہ ہے کہ وہ کبھی اس قسم کے عمل کو نہیں دیکھ چکے — یعنی، ادارتی سرمایہ کاری کا عمل تربیتی ڈیٹا میں موجود نہیں ہے۔

تو، اگر آپ کا سوال نیا ہے، تو اسے حل کرنے کے لیے صرف ٹوکنز کا استعمال کرنے کی امید نہ کریں۔ آپ کو خود تلاش کے عمل کی رہنمائی کرنی ہوگی۔ لیکن جب آپ ایک عملی حل تلاش کر لیں، تو اسے نفاذ کے لیے بے خوف طریقے سے ٹوکنز کا استعمال کر سکتے ہیں — چاہے کوڈ بیس کتنا بھی بڑا ہو یا کمپوننٹس کتنا بھی پیچیدہ ہوں، یہ کوئی مسئلہ نہیں۔

ایک آسان اسٹریٹجی یہ ہے کہ ٹوکن بجٹ کو کوڈ کی لائنوں کے مطابق بڑھایا جانا چاہیے۔

زیادہ جلائے جانے والے ٹوکن دراصل کیا کر رہے ہیں

عملی طور پر، اضافی ٹوکن عام طور پر Agent کی انجینئرنگ کی معیار کو درج ذیل طریقوں سے بہتر بناتے ہیں:

اسی کوشش میں زیادہ وقت تک استدلال کریں، تاکہ خود غلط منطق کا پتہ لگانے کا موقع ملے۔ استدلال جتنا گہرا ہوگا = منصوبہ بندی بہتر ہوگی = ایک بار میں کامیابی کا امکان زیادہ ہوگا۔

اسے متعدد مستقل کوششیں کرنے کی اجازت دیں، مختلف مسائل حل کرنے کے راستے اپنائیں۔ کچھ راستے دوسرےں سے بہتر ہوتے ہیں۔ اسے ایک سے زیادہ بار کوشش کرنے کی اجازت دیں، تو وہ بہترین راستہ منتخب کر سکتا ہے۔

اسی طرح، زیادہ مستقل منصوبہ بندی کی کوششیں اسے کمزور رجحان چھوڑنے اور سب سے زیادہ وعدہ کرنے والے کو برقرار رکھنے کی اجازت دیتی ہیں۔

مزید ٹوکن اسے اپنے پچھلے کام کا جدید سیاق و سباق میں جائزہ لینے اور اسے بہتر بنانے کا موقع دیتے ہیں، نہ کہ کسی "استدلالی رجحان" میں گھسٹ جانے دیتے ہیں۔

بالکل، اور میری پسندیدہ بات یہ ہے: زیادہ ٹوکن کا مطلب ہے کہ اسے ٹیسٹ اور ٹولز کے ذریعے تصدیق کیا جا سکتا ہے۔ کوڈ کو عملی طور پر چلانا اور دیکھنا کہ کیا وہ چل رہا ہے، جواب کی درستگی کی سب سے قابلِ اعتماد ترین طریقہ ہے۔

یہ منطق کام کرتا ہے کیونکہ ایجینٹ کی انجینئرنگ میں ناکامی بے ترتیب نہیں ہوتی۔ یہ تقریباً ہمیشہ اس لیے ہوتی ہے کہ راستہ جلدی سے غلط منتخب کر لیا گیا، یا اس راستے کو شروع میں ہی چلنے کے قابل چیک نہیں کیا گیا، یا پھر غلطی کا پتہ چلنے کے بعد اسے درست کرنے اور واپس جانے کے لیے کافی بجٹ نہیں تھا۔

کہانی یہی ہے۔ ٹوکن کا مطلب اصل میں آپ کی خریدی گئی فیصلہ سازی کی معیار ہے۔ اسے تحقیق کے کام کی طرح سمجھیں: اگر آپ کسی شخص کو فوراً ایک مشکل سوال کا جواب دینے کو کہیں، تو جواب کی معیار وقت کے دباؤ کے ساتھ کم ہوتا جائے گا۔

تحقیق، در حقیقت، "جواب جاننا" کا بنیادی عنصر ہے۔ انسان زندگی کے بیولوجیکل وقت کا استعمال کرتے ہوئے بہتر جوابات پیدا کرتے ہیں، جبکہ ایجینٹ مزید کمپوٹیشنل وقت کا استعمال کرتے ہوئے بہتر جوابات پیدا کرتے ہیں۔

اپنے ایجینٹ کو کیسے بہتر بنائیں

آپ شاید ابھی بھی شک کر رہے ہوں، لیکن اس بات کی تائید کئی تحقیقی مقالات کرتے ہیں، اور سچ بولوں تو، "استدلال" رگڑ کے وجود کا ہونا ہی آپ کو درکار تمام ثبوت ہے۔

میں نے ایک مضمون کو بہت پسند کیا، جس میں تحقیق کاروں نے ایک چھوٹی سی، اچھی طرح سے تیار کی گئی استدلال کی نمونوں کی مجموعہ کے ساتھ تربیت دی، اور پھر ایک طریقہ استعمال کیا جس نے ماڈل کو اس وقت تک سوچنے پر مجبور کر دیا جب تک وہ رکنا چاہتا تھا — اس کا طریقہ یہ تھا کہ جب وہ رکنا چاہتا تھا تو اس کے بعد "Wait" (انتظار کریں) شامل کر دیا جائے۔ صرف اس ایک چیز نے کسی بینچ مارک میں 50% سے بڑھا کر 57% تک پہنچا دیا۔

میں صرف یہ کہنا چاہتا ہوں: اگر آپ لگاتار اس بات کی شکایت کر رہے ہیں کہ ایجنٹ نے جو کوڈ لکھا ہے وہ کافی اچھا نہیں، تو شاید آپ کے لیے ایک بار کی سب سے زیادہ سوچنے کی سطح بھی کافی نہیں ہے۔

میں آپ کو دو بہت آسان حل پیش کرتا ہوں۔

آسان طریقہ ایک: WAIT (انتظار کریں)

آج آپ جو سب سے آسان کام کر سکتے ہیں: ایک خودکار سائکل بنائیں — اسے تعمیر کرنے کے بعد، ایجنٹ کو نئے سیاق و سباق کے ساتھ N بار جائزہ لینے دیں، اور ہر بار مسئلہ دریافت ہونے پر اسے درست کریں۔

اگر آپ کو یہ آسان ٹرک اپنے ایجینٹ انجینئرنگ کے نتائج میں بہتری لائے، تو آپ کم از کم سمجھ گئے ہیں کہ آپ کا مسئلہ صرف ٹوکن کی تعداد کا ہے — تو آئیے ٹوکن جلانے والے کلب میں شامل ہو جائیں۔

آسان طریقہ دو: VERIFY (تصدیق)

ایجینٹ کو اپنا کام جلد اور بار بار تصدیق کرنے دیں۔ یہ ثابت کرنے کے لیے ٹیسٹ لکھیں کہ منتخب کی گئی راہ واقعی کام کرتی ہے۔ یہ انتہائی پیچیدہ اور گہرائی سے نکلے ہوئے منصوبوں کے لیے خاص طور پر مفید ہے — ایک فنکشن کو نیچے کئی دوسرے فنکشنز کے ذریعے بلایا جا سکتا ہے۔ اگر آپ خطا کو ابتدائی مرحلے میں پکڑ لیں تو آپ کو بعد میں بہت سارا کمپیوٹیشنل وقت (ٹوکن) بچ جائے گا۔ اس لیے جہاں بھی ممکن ہو، پورے تعمیر کے عمل میں "تصدیقی چیک پوائنٹس" لگائیں۔

کچھ لکھنے کے بعد، مین ایجنٹ کہتا ہے کہ ہو گیا؟ دوسرے ایجنٹ کو ایک بار پرکھنے کے لیے بھیجیں۔ غیر متعلقہ سوچ کا رجحان نظاماتی جھکاؤ کے ذرائع کو کور کر سکتا ہے۔

یہی بنیادی باتیں ہیں۔ میں اس موضوع پر کئی اور چیزیں لکھ سکتا ہوں، لیکن مجھے یقین ہے کہ اگر آپ ان دو باتوں کو سمجھ لیں اور ان کا اچھی طرح سے عملی جامہ پہنائیں، تو یہ آپ کو 95 فیصد مسائل سے نجات دے دے گا۔ میں یقین رکھتا ہوں کہ سادہ چیزوں کو بہترین طریقے سے کرنا چاہیے، اور پھر ضرورت کے مطابق پیچیدگی شامل کرنی چاہیے۔

میں نے کہا تھا کہ "نئے پہلو" کا مسئلہ ٹوکن سے حل نہیں ہو سکتا، میں دوبارہ زور دینا چاہتا ہوں کیونکہ آپ جلد ہی اس گڑھے میں گر جائیں گے اور پھر مجھے شکایت کرتے ہوئے کہیں گے کہ ٹوکن جمع کرنا کام نہیں آیا۔

جب آپ کو حل کرنے کے لیے وہ مسئلہ ملتا ہے جو تربیتی ڈیٹا سیٹ میں نہیں ہے، تو آپ ہی وہ حل فراہم کرنے والا ہوتے ہیں۔ اس لیے، شعبہ کی ماہرینہ جانکاری اب بھی بہت اہم ہے۔