एडिटोरियल नोट: जब लोग क्लॉड कोड का उपयोग करते हैं, तो सबसे स्पष्ट अनुभव यह होता है कि टोकन बहुत तेजी से खर्च हो जाते हैं और लंबी सत्रें आसानी से कोटा खत्म कर देती हैं। हालाँकि, एंथ्रोपिक इंजीनियरों के दृष्टिकोण से, लागत को प्रभावित करने वाला वास्तविक कारक अक्सर आपके द्वारा लिखे गए कोड की मात्रा नहीं, बल्कि सिस्टम द्वारा पहले से संसाधित संदर्भ का निरंतर पुन: उपयोग होता है।
इस लेख का केंद्रीय बिंदु यह है कि कैसे कैशिंग मैकेनिज्म के माध्यम से टोकन बचाए जा सकते हैं। लेखक ने एक सप्ताह में 300 मिलियन से अधिक टोकन कैशिंग के माध्यम से पुनः उपयोग किया, जिसमें एक दिन में 91 मिलियन टोकन कैश किए गए। चूंकि कैश किए गए टोकन की लागत सामान्य इनपुट टोकन की तुलना में केवल 10% है, इसका मतलब है कि 91 मिलियन कैश किए गए टोकन की वास्तविक लागत लगभग 9 मिलियन सामान्य टोकन के बराबर है। Claude Code की लंबी सत्रों को अधिक "टिकाऊ" लगने का कारण यह नहीं है कि मॉडल मुफ्त में काम करता है, बल्कि इसलिए है क्योंकि बड़ी मात्रा में दोहराए गए संदर्भ सफलतापूर्वक पुनः उपयोग किए गए हैं।
प्रॉम्प्ट कैशिंग की कुंजी है "कैश को बाधित न करें"। Claude Code सिस्टम प्रॉम्प्ट, टूल परिभाषाएँ, CLAUDE.md, प्रोजेक्ट नियम और इतिहास की बातचीत को स्तरबद्ध रूप से कैश करता है; जब तक बाद के अनुरोध का प्रारंभिक भाग समान रहता है, Claude संपूर्ण संदर्भ को पुनः प्रसंस्कृत करने के बजाय कैश से सीधे पढ़ सकता है। Anthropic अपने आंतरिक रूप से प्रॉम्प्ट कैश के पुनःउपयोग दर का निरीक्षण भी करता है, क्योंकि यह न केवल उपयोगकर्ता की सीमा को प्रभावित करता है, बल्कि मॉडल सेवा लागत और चलाने की दक्षता से सीधे संबंधित है।
सामान्य उपयोगकर्ताओं के लिए, सभी निचले स्तर के विवरणों को समझने की आवश्यकता नहीं है, बस कुछ महत्वपूर्ण आदतें अपनाएं: 1 घंटे से अधिक समय तक सत्र को खाली न छोड़ें; कार्य बदलते समय सत्र हैंडऑफ करें; मॉडल को बार-बार बदलने से बचें; बड़े दस्तावेज़ को डायलॉग में बार-बार पेस्ट करने के बजाय Projects में रखें।
यह लेख एक टोकन सेव ट्रिक के बारे में नहीं, बल्कि क्लॉड कोड का उपयोग करने का एक ऐसा तरीका प्रदान करता है जो इंजीनियरिंग सोच के करीब है: संदर्भ को संपत्ति प्रबंधन के रूप में मानें, कैश का लगातार पुन: उपयोग करें, और लंबी सत्रों में दोहराए गए गणनाओं को कम करें।
The following is the original text:
मैंने इस हफ्ते 3 अरब टोकन बचाए, एक दिन में 91 मिलियन, एक हफ्ते में 3 अरब से अधिक।

मैंने कोई सेटिंग नहीं बदली है। यह केवल प्रॉम्प्ट कैशिंग पीछे से सामान्य रूप से काम कर रही है।
लेकिन जब मैंने वास्तव में कैशिंग क्या है और कैशिंग को "तोड़ने" से कैसे बचा जाए, यह समझ लिया, तो उसी उपयोग सीमा के तहत मेरी सत्र अधिक लंबे समय तक चली। इसलिए, यहाँ API स्तर के गहन विवरण के बिना Claude Code prompt कैशिंग का 80/20 परिचय दिया गया है।
TL;DR
कैश्ड टोकन की लागत सामान्य इनपुट टोकन की केवल 10% है। 91 मिलियन कैश्ड टोकन, वास्तविक बिलिंग लगभग 9 मिलियन टोकन के समान है।
क्लॉड कोड सब्सक्रिप्शन के लिए कैश TTL 1 घंटा है; API के लिए डिफ़ॉल्ट 5 मिनट है; सब-एजेंट हमेशा 5 मिनट होता है।
कैश तीन स्तरों में विभाजित है: सिस्टम स्तर, प्रोजेक्ट स्तर, और डायलॉग स्तर।
सत्र के बीच में मॉडल बदलने से कैश बर्बाद हो जाता है, जिसमें «opus plan» मोड शामिल है।
कैशिंग का शुल्क कैसे लगाया जाता है?
प्रत्येक कैश किए गए टोकन की लागत सामान्य इनपुट टोकन का 10% होती है।

इसलिए, जब मेरा डैशबोर्ड दिखाता है कि किसी दिन 91 करोड़ टोकन कैश में मिल गए, तो वास्तविक बिलिंग लगभग केवल 90 लाख टोकन के समान है। यही कारण है कि कैश के बिना की तुलना में, लंबे समय तक Claude Code का उपयोग करने पर, सत्र लगभग "मुफ्त" तरीके से बढ़ते हुए महसूस होते हैं।
डैशबोर्ड में दो संख्याएँ हैं जिन पर ध्यान देना चाहिए:
कैश बनाना: कंटेंट को कैश में लिखते समय उत्पन्न होने वाली एक बार की लागत। यह अगली बातचीत में काम करना शुरू कर देगी।
कैश पढ़ा गया: क्लॉड द्वारा कैश से पुनः उपयोग किए गए टोकन, जैसे आपके CLAUDE.md, उपकरण परिभाषाएँ, पिछले संदेश आदि। पुनः इनपुट के रूप में संसाधित करने की तुलना में लागत 10 गुना सस्ती है।

अगर आपकी कैश रीड संख्या अधिक है, तो इसका मतलब है कि आप कैश का प्रभावी ढंग से उपयोग कर रहे हैं; अगर यह संख्या कम है, तो इसका मतलब है कि आप एक ही सेट के संदर्भ के लिए बार-बार भुगतान कर रहे हैं।
एंथ्रोपिक के थारिक का एक वाक्य मुझे बहुत प्रभावित कर गया: "हम वास्तव में प्रॉम्प्ट कैश हिट रेट की निगरानी करते हैं, और जब हिट रेट बहुत कम हो जाता है, तो यह एक अलर्ट ट्रिगर करता है, यहां तक कि SEV-लेवल की घटना घोषित कर दी जाती है।"
उसने एक बहुत अच्छी X लेख भी लिखी है। जब कैश हिट रेट उच्च होता है, तो चार बातें एक साथ होती हैं: Claude Code तेज़ महसूस होता है, Anthropic की सेवा लागत कम होती है, आपकी सदस्यता सीमा अधिक स्थायी प्रतीत होती है, और लंबे कोडिंग सेशन अधिक वास्तविक हो जाते हैं।
लेकिन यदि सटीकता बहुत कम है, तो सभी को नुकसान होगा।

इसलिए, दोनों पक्षों के लिए प्रेरणा वास्तव में संगत है: Anthropic चाहता है कि आपकी कैश हिट दर अधिक हो, और आप भी चाहते हैं कि आपकी कैश हिट दर अधिक हो। वास्तव में धीमा करने वाली बातें केवल कुछ ऐसी छोटी-छोटी आदतें हैं, जो दिखने में अहम नहीं लगतीं, लेकिन कैश को चुपचाप रीसेट कर देती हैं।
कैश कैसे प्रत्येक डायलॉग राउंड में बढ़ता है?
Cache relies on prefix matching, i.e., "prefix matching".
बहुत अधिक तकनीकी विवरण में न फंसें, आपको बस एक बात समझनी है: जब तक किसी स्थिति से पहले का सामग्री पहले से कैश किए गए सामग्री के पूरी तरह से मेल खाता है, Claude इस कैश किए गए Token का पुन: उपयोग कर सकता है।
एक नया सत्र, लगभग इस तरह शुरू होता है:

क्लॉड कोड दस्तावेज के अनुसार, एक नया सत्र इस प्रकार चलता है:
पहली बातचीत: कोई कैश नहीं है। सिस्टम प्रॉम्प्ट, आपका प्रोजेक्ट कॉन्टेक्स्ट (जैसे CLAUDE.md, memory, नियम), और आपका पहला संदेश पुनः प्रसंस्कृत किए जाएंगे और कैश में सहेजे जाएंगे।
दूसरी बातचीत: पहली बातचीत का सारा सामग्री अब कैश में है। क्लॉड को बस आपके नए जवाब और अगले संदेश को संभालना है। इस चरण की लागत काफी कम होगी।
तीसरा संवाद: तर्क समान है। पिछले संवाद अभी भी कैश में सहेजे गए हैं, केवल नवीनतम संवाद को पुनः प्रसंस्कृत किया जाना है।
कैश को स्वयं तीन स्तरों में विभाजित किया जा सकता है:

Thariq के X लेख से:
सिस्टम लेयर (System layer): इसमें बेसिक निर्देश, टूल परिभाषाएँ (read, write, bash, grep, glob) और आउटपुट स्टाइल शामिल हैं। यह लेयर ग्लोबल कैश किया गया है।
प्रोजेक्ट लेयर (Project layer): CLAUDE.md, memory, प्रोजेक्ट नियम शामिल हैं। यह लेयर प्रोजेक्ट के आधार पर कैश की जाती है।
संवाद स्तर (Conversation): इसमें उत्तर और संदेश शामिल हैं, जो प्रत्येक संवाद चक्र के साथ बढ़ते रहते हैं।
यदि सत्र के मध्य में सिस्टम स्तर या प्रोजेक्ट स्तर की कोई भी चीज़ बदल जाए, तो सभी चीज़ों को पुनः शुरू से कैश करना पड़ेगा। यह सबसे 'महंगी' ऑपरेशन है। कल्पना कीजिए: आप 16वें संदेश तक बात कर चुके हैं, और अचानक सिस्टम प्रॉम्प्ट बदल जाए या एक घंटे के लिए रुक जाए, तो पहले संदेश से लेकर सभी टोकन को पुनः प्रोसेस करना पड़ेगा।
1 घंटा और 5 मिनट का भ्रम
यह सबसे अधिक भ्रमित करने वाला स्थान है।
Claude Code सब्सक्रिप्शन: डिफ़ॉल्ट TTL 1 घंटा है।
Claude API: डिफ़ॉल्ट TTL 5 मिनट है। आप इसे बढ़ाकर 1 घंटा कर सकते हैं, लेकिन इसके लिए अधिक लागत देनी होगी।
सभी योजनाओं के तहत सब-एजेंट: हमेशा 5 मिनट।
Claude.ai वेब चैट: आधिकारिक रूप से कोई रिकॉर्ड नहीं है। यह सब्सक्रिप्शन संस्करण के समान हो सकता है, लेकिन मैंने अभी तक पुष्टि नहीं की है।
कुछ महीनों पहले, कई लोगों ने शिकायत की कि Claude सब्सक्रिप्शन की सीमा बहुत तेजी से समाप्त हो रही है। उस समय कुछ लोगों को लगा कि Anthropic ने बिना उपयोगकर्ताओं को सूचित किए TTL को 1 घंटे से घटाकर 5 मिनट कर दिया है। लेकिन ऐसा नहीं है, Claude Code का TTL अभी भी 1 घंटा है।
समस्या यह है कि Claude Code और API के दस्तावेज़ अलग-अलग हैं, और ये दोनों पूरी तरह से अलग चीज़ें हैं, जिससे काफी भ्रम पैदा हुआ।
यदि आप बड़े पैमाने पर Sub-agent वर्कफ्लो चला रहे हैं या API का सीधे उपयोग कर रहे हैं, तो 5 मिनट का अंक महत्वपूर्ण है। लेकिन 95% Claude Code उपयोगकर्ताओं के लिए, वास्तव में जिस पर ध्यान केंद्रित करना चाहिए, वह केवल 1 घंटे की खिड़की है।
तीन आदतें जो 95% उपयोगकर्ताओं को कवर करती हैं
ये वे चीजें हैं जो मुझे रोजमर्रा के उपयोग में वास्तव में उपयोगी लगती हैं।
बहुत देर नहीं रुकें
अगर आप एक घंटे से अधिक समय से अनुपस्थित हैं, तो पिछली सामग्री अधिकांशतः कैश से समाप्त हो चुकी है। आपका अगला संदेश कैश को पुनः बनाएगा। इस स्थिति में, एक 'ठंडा' हो चुके पुराने सत्र को जारी रखने के बजाय, एक स्पष्ट हस्तांतरण करना और एक नया सत्र शुरू करना अक्सर कम लागत का होता है।
टास्क बदलते समय, सीधे पुनः शुरू करें
/compact या /clear तो मूल रूप से कैश को बर्बाद कर देते हैं, इसलिए इस बिंदु पर वास्तविक रूप से एक बार रीसेट कर देना बेहतर होगा।
मैंने एक सेशन हैंडऑफ स्किल बनाया है, जो /compact को बदलने के लिए है। यह हमारे द्वारा किए गए कार्यों, अभी तक निर्णयित नहीं हुए निर्णयों, सबसे महत्वपूर्ण फ़ाइलों और आगे कहाँ से जारी रखना है, इसका सारांश प्रस्तुत करता है। फिर मैं /clear निष्पादित करता हूँ और इस सारांश को पेस्ट कर देता हूँ, ताकि मैं ऐसा लगे जैसे कोई बाधा न हुई हो, आगे बढ़ सकूँ।
compact कमांड कभी-कभी धीमे से चलती है। जबकि यह handoff स्किल आमतौर पर एक मिनट से कम समय में पूरा हो जाता है।
Claude चैट में, बड़े दस्तावेज़ को Projects में डालें
Claude.ai पर कैशिंग मैकेनिज्म के बारे में बहुत विस्तृत आधिकारिक विवरण नहीं है, लेकिन Projects स्पष्ट रूप से सामान्य डायलॉग थ्रेड्स के लिए अलग अनुकूलन का उपयोग करते हैं। इसलिए, यदि आप बड़ा दस्तावेज़ कॉपी करना चाहते हैं, तो इसे सीधे डायलॉग में नहीं, बल्कि Project में रखना सबसे अच्छा है।
कौन से ऑपरेशन कैश को चुपचाप नुकसान पहुंचाते हैं?
कुछ चीजें बिना किसी स्पष्ट अलर्ट के कैश को पूरी तरह रीसेट कर देती हैं।
मॉडल बदलें: क्योंकि कैश प्रीफिक्स मैचिंग पर निर्भर करता है और प्रत्येक मॉडल का अपना कैश होता है। जब भी मॉडल बदलेंगे, अगला अनुरोध किसी कैश हिट के बिना पूरा इतिहास पुनः पढ़ेगा।
«Opus plan» मोड: यह सेटिंग योजना चरण में Opus का उपयोग करती है और निष्पादन चरण में Sonnet का उपयोग करती है। मैंने इसे कुछ टोकन अनुकूलन वीडियो में सिफारिश की थी, और इसका कारण है। हालाँकि, आपको समझना होगा कि प्रत्येक plan बदलना मूल रूप से एक मॉडल बदलना है, जिसका अर्थ है कि कैश को पुनः स्थापित करना होगा। दीर्घकालिक रूप से, यह अभी भी सत्र की सीमा बढ़ाने में मदद करता है, लेकिन आपको नीचे क्या हो रहा है, यह समझना चाहिए।
CLAUDE.md को सत्र के बीच में संपादित किया जा सकता है: यह संशोधन तुरंत लागू नहीं होगा, बल्कि अगली पुनर्प्रारंभ तक प्रतीक्षा करनी होगी। इसलिए, वर्तमान में चल रही कैश प्रभावित नहीं होगी।
मेरा निःशुल्क टोकन डैशबोर्ड
मैंने जो स्क्रीनशॉट दिखाया था, वह एक टोकन डैशबोर्ड से आया है।

यह एक बहुत सरल GitHub रिपॉजिटरी है। आप लिंक Claude Code को दें, और यह स्थानीय localhost पर डिप्लॉय करेगा, तो यह आपके पिछले सभी सत्र रिकॉर्ड्स को पढ़ेगा, और खाली स्थिति से गिनती शुरू नहीं करेगा। आप तुरंत प्रतिदिन के input, output, cache create और cache read डेटा को देख पाएंगे।
हालांकि, एक बात ध्यान देने योग्य है: यह डैशबोर्ड स्थानीय उपकरण पर टोकन डेटा को गिनता है। यदि आप डेस्कटॉप से लैपटॉप पर स्विच करते हैं, तो संख्याएँ पूरी तरह समान नहीं होंगी। प्रत्येक उपकरण के पास अपना अलग स्टैटिस्टिक्स व्यू होता है।
Summary
प्रॉम्प्ट कैशिंग एक ऐसी चीज है जिसे गहराई से अध्ययन किया जा सकता है। थारिक का लेख यहाँ से अधिक पूर्ण रूप से इसकी व्याख्या करता है, अगर आप पूरी छवि देखना चाहते हैं, तो पढ़ने लायक है।
लेकिन आपको इससे लाभ उठाने के लिए सभी विवरणों को पूरी तरह समझने की आवश्यकता नहीं है। आपको केवल सबसे महत्वपूर्ण 80/20 नियम समझना है: कैशेड टोकन सामान्य टोकन से 10 गुना सस्ते होते हैं; Claude Code का TTL 1 घंटा है; मॉडल बदलने से कैश बर्बाद हो जाता है; टास्क के बीच स्पष्ट हस्तांतरण करना, आमतौर पर पुरानी सत्र को 'समाप्त' होने तक रखकर फिर उसे जबरन जारी रखने की तुलना में अधिक लाभदायक होता है।
