کیسے اینتھرپک انجینئرز حقیقت میں ٹوکن بچاتے ہیں
ماخذ: نیٹ ہرک
ترجمہ: پیگی، بلاک بیٹس
ایڈیٹوریل نوٹ: بہت سے لوگ کلاؤڈ کوڈ کا استعمال کرتے وقت سب سے زیادہ محسوس کرتے ہیں کہ ٹوکن جلد ختم ہو جاتے ہیں اور لمبی چیٹس آسانی سے کوٹا ختم کر دیتی ہیں۔ لیکن اینتھرپک انجینئرز کے نقطہ نظر سے، اصل لاگت کا اثر زیادہ تر اس بات پر نہیں پڑتا کہ آپ نے کتنی کوڈ لکھی، بلکہ یہ ہے کہ سسٹم نے پہلے سے معالجہ شدہ کنٹیکس کو لگاتار دوبارہ استعمال کیا ہے یا نہیں۔
اس مضمون کا مرکزی نقطہ یہ ہے کہ کیسے کیش میکنزم کے ذریعے ٹوکن بچائے جا سکتے ہیں۔ مصنف نے ایک ہفتے میں تین ارب سے زائد ٹوکن کیش کے ذریعے دوبارہ استعمال کیا، جس میں ایک دن کی کیش مقدار 91 ملین تھی۔ چونکہ کیش شدہ ٹوکن کا اخراج صرف عام ان پٹ ٹوکن کا 10 فیصد ہے، اس کا مطلب ہے کہ 91 ملین کیش شدہ ٹوکن کا اصل اخراج تقریباً 9 ملین عام ٹوکن کے برابر ہے۔ کلاڈ کوڈ کی لمبی سیشنز زیادہ "ٹھوس" لگتی ہیں، نہ کہ اس لیے کہ ماڈل مفت کام کرتا ہے، بلکہ اس لیے کہ بڑی تعداد میں دہرائے گئے تناظر کامیابی سے دوبارہ استعمال ہو گئے۔
پرامپٹ کیش کا کلیدی نقطہ یہ ہے کہ «کیش کو مت توڑیں»۔ کلاؤڈ کوڈ سسٹم کے پرامپٹ، ٹول ڈیفینیشنز، CLAUDE.md، پروجیکٹ کے قوانین اور تاریخی مکالمے کو لیئرڈ کیش میں محفوظ کرتا ہے؛ اگر بعد کے درخواستوں کا پہلا حصہ ایک جیسا رہے تو کلاؤڈ براہ راست کیش سے پڑھ سکتا ہے اور پورے کنٹیکسٹ کو دوبارہ پروسیس نہیں کرنا پڑتا۔ اینتھرپک اندر بھی پرامپٹ کیش کے ری استعمال کی شرح پر نظر رکھتا ہے، کیونکہ یہ صرف صارفین کے لیے مقدار پر ہی نہیں بلکہ ماڈل سروس کے اخراجات اور عملی کارکردگی پر بھی منحصر ہے۔
عام صارفین کے لیے، تمام بنیادی تفصیلات کو سمجھنا ضروری نہیں، صرف کچھ اہم عادات پر عمل کریں: 1 گھنٹے سے زیادہ سیشن خالی نہ رکھیں؛ ٹاسک بدلتے وقت سیشن ہینڈ آف کریں؛ مدلز کو بار بار بدلنا مت چھوڑیں؛ بڑے دستاویزات کو ڈائیلاگ میں دوبارہ پیسٹ کرنے کے بجائے Projects میں رکھیں۔
یہ مضمون صرف ایک ٹوکن بچانے کا طریقہ نہیں بلکہ کلود کوڈ کا استعمال کرنے کا ایک ایسا طریقہ پیش کرتا ہے جو انجینئرز کے سوچنے کے انداز کے قریب ہے: متن کو اثاثہ کی مدیریت کے طور پر سمجھیں، کیش کو مستقل دوبارہ استعمال کریں، اور لمبی سیشنز میں دوبارہ کمپیوٹنگ سے بچیں۔
نیچے متن ہے:
میں نے اس ہفتے 3 ارب ٹوکن بچائے، ایک دن میں 91 ملین، ایک ہفتے میں 3 ارب سے زیادہ۔

میں نے کوئی سیٹنگز تبدیل نہیں کیں۔ یہ صرف پرامپٹ کیش کا پیچھے سے درست طریقے سے کام کرنا ہے۔
لیکن جب میں نے اصل میں کیش کیا ہے اور کیش کو "توڑنے" سے کیسے بچنا ہے، یہ سمجھ لیا، تو اسی استعمال کے بجٹ کے تحت میری سیشنیں زیادہ دیر تک جاری رہیں۔ اس لیے، یہاں API کے گہرے تفصیلات کے بغیر Claude Code پرامپٹ کیشِنگ کا 80/20 شروعاتی گائیڈ پیش ہے۔
TL;DR
کیش ٹوکن کی لاگت عام ان پٹ ٹوکن کی 10% ہے۔ 91 ملین کیش ٹوکن، اصل طور پر تقریباً 9 ملین ٹوکن کے برابر ہیں۔
کلود کوڈ سبسکرپشن ورژن کے کیش کا TTL 1 گھنٹہ ہے؛ API ڈیفالٹ 5 منٹ ہے؛ سب-ایجنٹ ہمیشہ 5 منٹ ہے۔
کیش تین درجات میں تقسیم ہے: سسٹم لیول، پروجیکٹ لیول، اور ڈائیلاگ لیول۔
سیشن کے درمیان ماڈل بدلنا کیش کو خراب کر دے گا، جس میں «opus plan» موڈ کو شامل کرنا بھی شامل ہے۔
کیش کا حساب کیسے لگایا جاتا ہے؟
ہر کیشڈ ٹوکن کی لاگت عام ان پٹ ٹوکن کا 10% ہوتی ہے۔

اس لیے، جب میرا ڈیش بورڈ دکھاتا ہے کہ کسی دن 91 ملین ٹوکن کیش میں ہو گئے، تو اصل میں بلندگی صرف 9 ملین ٹوکن کے برابر ہے۔ اسی لیے کیش کے بغیر کے مقابلے میں، طویل عرصے تک Claude Code استعمال کرنے سے محسوس ہوتا ہے کہ سیشن تقریباً "مفت" طور پر لاگو ہو رہے ہیں۔
ڈیش بورڈ میں دو اعداد ہیں جن پر توجہ دینے کی ضرورت ہے:
کیش بنانا: جب مواد کو کیش میں لکھا جاتا ہے تو ایک مرتبہ کا خرچہ ہوتا ہے۔ یہ اگلے مکالمے میں کام شروع کر دے گا۔
کیش پڑھی گئی: کلوڈ کے ذریعہ کیش سے دوبارہ استعمال کیے گئے ٹوکن، جیسے آپ کے CLAUDE.md، ٹول کی تعریفیں، اور پہلے کے پیغامات۔ دوبارہ انپٹ کے طور پر پردازش کرنے کے مقابلے میں یہ 10 گنا سستا ہے۔

اگر آپ کا کیش ریڈ نمبر زیادہ ہے، تو یہ ظاہر کرتا ہے کہ آپ کیش کا مؤثر طریقے سے استعمال کر رہے ہیں؛ اگر یہ نمبر کم ہے، تو اس کا مطلب ہے کہ آپ ایک ہی سیٹ کے متن کے لیے بار بار ادائیگی کر رہے ہیں۔
انٹروپک کے ثارق نے ایک بات مجھے بہت یاد رکھائی: "ہم حقیقت میں پرامپٹ کیش کی ہٹ ریٹ کی نگرانی کرتے ہیں، اور جب ہٹ ریٹ بہت کم ہو جائے تو ہم ایلرٹ ٹرگر کرتے ہیں، اور کبھی کبھی SEV لیول کی ایمرجنسی قرار دے دیتے ہیں۔"
اس نے ایک بہترین X مضمون بھی لکھا ہے۔ جب کیش ہٹ ریٹ بلند ہوتا ہے، تو چار باتیں ایک ساتھ ہوتی ہیں: Claude Code زیادہ تیز محسوس ہوتا ہے، Anthropic کی سروس کی لاگت کم ہوتی ہے، آپ کا سبسکرپشن بجٹ زیادہ دیر تک چلتا ہے، اور لمبے کوڈنگ سیشن زیادہ عملی بن جاتے ہیں۔
لیکن اگر درستگی کم ہو تو سب کو نقصان ہوگا۔

تو، دونوں طرف کے انگیجمنٹ اصل میں ایک جیسے ہیں: Anthropic چاہتی ہے کہ آپ کی کیش میں زیادہ سے زیادہ ہٹس ہوں، اور آپ بھی چاہتے ہیں کہ آپ کی کیش میں زیادہ سے زیادہ ہٹس ہوں۔ واقعی جو پیچیدہ بناتا ہے، وہ کچھ ایسی چھوٹی عادات ہیں جو نظر نہیں آتیں لیکن کیش کو پُرتنانے لگتی ہیں۔
کیش کیسے ہر مکالمے کے دوران بڑھتی ہے؟
کیش کو پریفکس میچنگ پر انحصار ہے، یعنی «پریفکس میچنگ»۔
بہت زیادہ ٹیکنیکل تفصیلات میں نہ جائیں، آپ کو صرف ایک بات سمجھنی ہے: اگر کسی جگہ کے پہلے کا مواد پہلے سے کیشڈ مواد کے مکمل طور پر مطابق ہے، تو کلوڈ اس کیشڈ ٹوکن کو دوبارہ استعمال کر سکتا ہے۔
ایک بالکل نئی سیشن، جو اس طرح شروع ہوتی ہے:

کلید کوڈ دستاویز کے مطابق، ایک نیا سیشن عام طور پر اس طرح چلتا ہے:
پہلی بات چیت: کوئی کیش نہیں ہے۔ سسٹم کا پیغام، آپ کا پروجیکٹ کا حوالہ (جیسے CLAUDE.md، میموری، اور قواعد)، اور آپ کا پہلا پیغام دوبارہ پروسیس ہو جائیں گے اور کیش میں محفوظ کر دیے جائیں گے۔
دوسرا مکالمہ: پہلے مکالمے کا تمام مواد اب کیش ہو چکا ہے۔ کلوڈ صرف آپ کے نئے جواب اور اگلے پیغام کو معالجہ کرے گا۔ اس مکالمے کا خرچ کافی کم ہوگا۔
تیسری بات چیت: منطق وہی ہے۔ پچھلی بات چیتیں ابھی بھی کیش میں موجود ہیں، صرف تازہ ترین بات چیت کو دوبارہ پروسیس کیا جانا ہے۔
کیش خود کو تین سطحوں میں تقسیم کیا جا سکتا ہے:

تھارق کی ایکس مضمون:
سسٹم لیئر (System layer): بنیادی حکمات، ٹولز کی تعریف (read، write، bash، grep، glob) اور آؤٹ پٹ اسٹائل شامل ہیں۔ یہ لیئر عالمی کیش میں ہے۔
پروجیکٹ لیئر (Project layer): CLAUDE.md، memory، پروجیکٹ قواعد شامل ہیں۔ یہ لیئر پروجیکٹ کے لحاظ سے کیش کیا جاتا ہے۔
ڈائیلاگ لیئر (Conversation): جوابات اور پیغامات شامل ہیں، جو ہر ایک ڈائیلاگ راؤنڈ کے ساتھ بڑھتے رہتے ہیں۔
اگر سیشن کے درمیان کسی بھی سسٹم یا پروجیکٹ لیول کا کوئی مواد تبدیل ہو جائے، تو پورا مواد دوبارہ شروع سے کیش کیا جائے گا۔ یہ سب سے سب سے زیادہ "مہنگا" آپریشن ہے۔ اسے ایسے سمجھیں: آپ 16ویں پیغام تک بات چیت کر چکے ہیں، اچانک سسٹم کا پرومپٹ تبدیل ہو جائے یا ایک گھنٹہ رک جائے، تو پہلے پیغام سے لے کر تمام ٹوکنز دوبارہ پروسیس کئے جائیں گے۔
ایک گھنٹہ اور پانچ منٹ کا اشتباه
یہ سب سے زیادہ غلط فہمی کا باعث بننے والا حصہ ہے۔
کلود کوڈ سبسکرپشن ورژن: ڈیفالٹ TTL 1 گھنٹہ ہے۔
Claude API: ڈیفالٹ TTL 5 منٹ ہے۔ آپ اسے بڑھا کر ایک گھنٹہ کر سکتے ہیں، لیکن اس کے لیے زیادہ لاگت ادا کرنی ہوگی۔
کسی بھی منصوبے کے تحت سب-ایجینٹ: ہمیشہ 5 منٹ۔
Claude.ai ویب چیٹ: افسرانی طور پر کوئی ریکارڈ نہیں ہے۔ شاید سبسکرپشن ورژن جیسا ہے، لیکن میں نے ابھی تک تصدیق نہیں کی ہے۔
کچھ ماہ پہلے، بہت سے لوگوں نے شکایت کی کہ کلاؤڈ کی سبسکرپشن لِمٹ جلد ختم ہو رہی ہے۔ اس وقت کچھ لوگوں کو لگا کہ Anthropic نے بغیر کسی اطلاع کے TTL کو 1 گھنٹے سے 5 منٹ تک کم کر دیا ہے، لیکن ایسا نہیں ہے — کلاؤڈ کوڈ کا TTL اب بھی 1 گھنٹہ ہے۔
مسئلہ یہ ہے کہ کلوڈ کوڈ اور API کی دستاویزات الگ الگ ہیں، اور یہ دونوں بالکل الگ چیزیں ہیں، جس سے کافی الجھن پیدا ہوئی۔
اگر آپ بہت زیادہ سب-ایجینٹ ورک فلو چلا رہے ہیں یا API کا ب без استعمال کر رہے ہیں، تو 5 منٹ کا عدد اہم ہے۔ لیکن 95% کلاؤڈ کوڈ صارفین کے لیے، جس پر حقیقت میں توجہ دینی چاہیے وہ صرف ایک گھنٹے کا ونڈو ہے۔
95% صارفین کے تین عادات
یہ وہ چیزیں ہیں جو میں روزمرہ کے استعمال میں حقیقی طور پر مفید سمجھتا ہوں۔
بہت دیر نہ رکیں
اگر آپ ایک گھنٹے سے زیادہ کے لیے غیر فعال رہے ہیں، تو پہلے کا مواد زیادہ تر کیش سے ختم ہو چکا ہوگا۔ آپ کا اگلا پیغام کیش کو دوبارہ تعمیر کرے گا۔ اس صورت میں، ایک پہلے سے "ٹھنڈا" ہو چکے سیشن کو دوبارہ شروع کرنے کے بجائے، ایک صاف تبدیلی کرنا اور ایک نیا سیشن شروع کرنا عام طور پر کم لاگت کا ہوتا ہے۔
ٹاسک بدلتے وقت، براہ راست دوبارہ شروع کریں
/compact یا /clear اصل میں کیش کو خراب کر دیتے ہیں، اس لیے اس نوڈ پر ایک بار حقیقی طور پر ری سیٹ کر دیں۔
میں نے ایک سیشن ہینڈ آف اسکل بنایا ہے جو /compact کی جگہ لے لے گا۔ یہ ہم نے کیا مکمل کیا، کن فیصلوں پر ابھی تک مذاکرات جاری ہیں، کون سے فائلز سب سے اہم ہیں، اور اگلے مرحلے کہاں سے شروع کرنا چاہیے، اس کا خلاصہ دے گا۔ پھر میں /clear کرتا ہوں اور یہ خلاصہ ڈال دیتا ہوں، تاکہ جیسے کوئی رکاوٹ نہ ہوئی ہو، ویسے ہی آگے بڑھ سکوں۔
کمپیکٹ کمانڈ کبھی کبھی بھی بہت سست چلتی ہے۔ جبکہ یہ ہینڈ آف سکل عام طور پر ایک منٹ سے کم میں مکمل ہو جاتا ہے۔
کلاؤڈ چیٹ میں، بڑے دستاویزات کو Projects میں ڈالیں
کلاؤڈ.ai پر کیش میکنزم کے بارے میں کوئی تفصیلی سرکاری وضاحت نہیں ہے، لیکن پروجیکٹس واضح طور پر عام ڈائیلاگ تھریڈز کے مقابلے میں مختلف طریقے سے بہتر بنائے گئے ہیں۔ اس لیے، اگر آپ بڑا دستاویز کاپی کرنا چاہتے ہیں، تو بہتر ہے کہ آپ اسے ڈائیلاگ میں نہ ڈال کر پروجیکٹ میں رکھیں۔
کون سے عملز کیش کو چپکے سے خراب کرتے ہیں؟
کچھ چیزیں بغیر کسی واضح اطلاع کے کیش کو مکمل طور پر ری سیٹ کر دیں گی۔
ماڈل تبدیل کریں: کیونکہ کیش کو پیشتر میچنگ پر منحصر ہے اور ہر ماڈل کا اپنا کیش ہوتا ہے۔ جب بھی آپ ماڈل تبدیل کریں گے، اگلی درخواست کیش میچ کے بغیر مکمل تاریخ دوبارہ پڑھ لی جائے گی۔
"Opus plan" ماڈل: یہ ترتیب منصوبہ بندی کے مرحلے میں Opus اور انجام دہی کے مرحلے میں Sonnet استعمال کرتی ہے۔ میں نے اسے کچھ ٹوکن بہتر بنانے والے ویڈیوز میں تجویز کیا تھا، اور اس کا ایک سبب ہے۔ لیکن آپ کو یہ سمجھنا ہوگا کہ ہر منصوبہ تبدیل کرنا بنیادی طور پر ایک ماڈل تبدیل کرنا ہے، جس کا مطلب ہے کہ کیش دوبارہ بنانا ہوگا۔ لمبے عرصے تک، یہ اس بات میں مدد کرتا ہے کہ سیشن کا امتیاز بڑھے، لیکن آپ کو نیچے کیا ہو رہا ہے، اس کا علم ہونا چاہئے۔
سیشن کے درمیان CLAUDE.md کو ایڈٹ کیا جا سکتا ہے: یہ تبدیلی فوراً لاگو نہیں ہوگی، اگلی ریسٹارٹ تک انتظار کرنا ہوگا۔ اس لیے، موجودہ رننگ کیش متاثر نہیں ہوگی۔
میرا مفت ٹوکن ڈیش بورڈ
میں نے پہلے جو اسکرین شاٹ دکھایا، وہ ایک ٹوکن ڈیش بورڈ سے لیا گیا ہے۔

https://github.com/nateherkai/token-dashboard
یہ ایک بہت آسان گٹہب ریپوزٹری ہے۔ آپ لنک کو کلاؤڈ کوڈ کو دیں، جس سے وہ لوکل ہوسٹ پر ڈیپلوی کرے گا، اور وہ آپ کی پچھلی تمام سیشنز کی ریکارڈز پڑھے گا، خالی حالت سے شمار نہیں کرے گا۔ آپ فوراً روزانہ ان پٹ، آؤٹ پٹ، کیش بنانے اور کیش پڑھنے کے ڈیٹا دیکھ سکتے ہیں۔
لیکن ایک بات کا خیال رکھیں: یہ ڈیش بورڈ اپنے مقامی ڈیوائس پر ٹوکن کے ڈیٹا کو شمار کرتا ہے۔ اگر آپ ڈیسک ٹاپ سے لیپ ٹاپ پر منتقل ہو جائیں، تو اعداد و شمار بالکل مطابق نہیں ہوں گے۔ ہر ڈیوائس کا اپنا الگ احصائی نظارہ ہوتا ہے۔
خلاصہ
پرامپٹ کیشینگ ایک ایسا موضوع ہے جس پر گہرائی سے تحقیق کی جا سکتی ہے۔ تھارق کا مقالہ اس کے بارے میں یہاں سے زیادہ مکمل طور پر بیان کرتا ہے، اگر آپ مکمل تصویر دیکھنا چاہتے ہیں تو اسے پڑھنا قابلِ توجہ ہے۔
لیکن آپ کو ان تمام تفصیلات کو مکمل طور پر سمجھنے کی ضرورت نہیں ہے تاکہ آپ ان سے فائدہ اٹھا سکیں۔ آپ کو صرف اہم ترین 80/20 کو سمجھنا ہے: کیش ٹوکن عام ٹوکن سے 10 گنا سستا ہوتا ہے؛ Claude Code کا TTL 1 گھنٹہ ہے؛ ماڈل بدلنا کیش کو خراب کر دیتا ہے؛ اکثر ایک پرانے سیشن کو "ختم" ہونے تک رکھنے کے بجائے کاموں کے درمیان واضح ہاتھ بدلنا زیادہ منافع بخش ہوتا ہے۔
لیو دونگ BlockBeats کے خالی پوسٹس جاننے کے لیے کلک کریں
لیکٹ میشن BlockBeats کے آفیشل سوشل گروپ میں شامل ہوں:
ٹیلیگرام سبسکرائپ گروپ:https://t.me/theblockbeats
ٹیلیگرام گروپ:https://t.me/BlockBeats_App
ٹویٹر کا افسانوی اکاؤنٹ:https://twitter.com/BlockBeatsAsia
