एंथ्रोपिक इंजीनियर कैसे वास्तव में टोकन बचाते हैं
मूल लेखक: Nate Herk
संकलन: Peggy, BlockBeats

एडिटोरियल नोट: जब लोग क्लॉड कोड का उपयोग करते हैं, तो सबसे स्पष्ट अनुभव यह होता है कि टोकन बहुत तेजी से खर्च हो जाते हैं और लंबी सत्रें आसानी से कोटा खत्म कर देती हैं। हालाँकि, Anthropic इंजीनियर्स के दृष्टिकोण से, लागत को प्रभावित करने वाला वास्तविक कारक अक्सर आपके द्वारा लिखे गए कोड की मात्रा नहीं, बल्कि सिस्टम द्वारा पहले से संसाधित संदर्भ का निरंतर पुन: उपयोग होता है।

इस लेख का केंद्रीय बिंदु यह है कि कैसे कैशिंग मैकेनिज्म के माध्यम से टोकन बचाए जा सकते हैं। लेखक ने एक सप्ताह में 300 मिलियन से अधिक टोकन कैशिंग के माध्यम से पुनः उपयोग किया, जिसमें एक दिन में 91 मिलियन टोकन कैश किए गए। चूंकि कैश किए गए टोकन की लागत सामान्य इनपुट टोकन की तुलना में केवल 10% है, इसका मतलब है कि 91 मिलियन कैश किए गए टोकन की वास्तविक लागत लगभग 9 मिलियन सामान्य टोकन के बराबर है। Claude Code की लंबी सत्रों को अधिक "टिकाऊ" लगने का कारण यह नहीं है कि मॉडल मुफ्त में काम करता है, बल्कि इसलिए है कि बड़ी मात्रा में दोहराए गए संदर्भ सफलतापूर्वक पुनः उपयोग किए गए हैं।

प्रॉम्प्ट कैशिंग की कुंजी है "कैश को बाधित न करें"। Claude Code सिस्टम प्रॉम्प्ट, टूल परिभाषाएँ, CLAUDE.md, प्रोजेक्ट नियम और इतिहास की बातचीत को स्तरबद्ध रूप से कैश करता है; जब तक बाद के अनुरोधों का प्रारंभिक भाग समान रहता है, Claude सीधे कैश से पढ़ सकता है और पूरे संदर्भ को पुनः प्रसंस्कृत नहीं करता। Anthropic अपने आंतरिक रूप से प्रॉम्प्ट कैश के पुनःउपयोग दर का निरीक्षण भी करता है, क्योंकि यह न केवल उपयोगकर्ता की सीमा को प्रभावित करता है, बल्कि मॉडल सेवा लागत और संचालन कुशलता से सीधे संबंधित है।

सामान्य उपयोगकर्ताओं के लिए, सभी निचले स्तर के विवरणों को समझने की आवश्यकता नहीं है, बस कुछ महत्वपूर्ण आदतें अपनाएं: 1 घंटे से अधिक समय तक सत्र को खाली न रखें; कार्य बदलते समय सत्र हैंडऑफ करें; मॉडल को बार-बार बदलने से बचें; बड़े दस्तावेज़ को बार-बार संवाद में पेस्ट करने के बजाय Projects में रखें।

यह लेख एक टोकन सेव ट्रिक के बारे में नहीं, बल्कि क्लॉड कोड का उपयोग करने का एक ऐसा तरीका प्रदान करता है जो इंजीनियरिंग सोच के करीब है: संदर्भ को संपत्ति प्रबंधन के रूप में मानें, कैश का लगातार पुनःउपयोग करें, और लंबी सत्रों में दोहराव वाली गणनाएँ कम करें।

The following is the original text:

मैंने इस हफ्ते 3 अरब टोकन बचाए, एक दिन में 91 मिलियन, एक हफ्ते में 3 अरब से अधिक।

मैंने कोई सेटिंग नहीं बदली है। यह केवल प्रॉम्प्ट कैशिंग पीछे से सामान्य रूप से कार्य कर रही है।

लेकिन जब मैंने वास्तव में समझा कि कैश क्या है और कैश को "तोड़ने" से कैसे बचा जाए, तो उसी उपयोग सीमा के तहत मेरी सत्र अधिक समय तक चली। इसलिए, यहाँ Claude Code प्रॉम्प्ट कैशिंग का एक 80/20 शुरुआती गाइड दिया गया है, जिसमें API स्तर के गहन विवरण शामिल नहीं हैं।

TL;DR

कैश्ड टोकन की लागत सामान्य इनपुट टोकन की केवल 10% है। 9.1 करोड़ कैश्ड टोकन, वास्तविक बिलिंग लगभग 90 लाख टोकन के समान है।

क्लॉड कोड सब्सक्रिप्शन के लिए कैश TTL 1 घंटा है; API के लिए डिफ़ॉल्ट 5 मिनट है; सब-एजेंट हमेशा 5 मिनट होता है।

कैश तीन स्तरों में विभाजित है: सिस्टम स्तर, प्रोजेक्ट स्तर, और डायलॉग स्तर।

सत्र के बीच में मॉडल बदलने से कैश बर्बाद हो जाता है, जिसमें «opus plan» मोड शामिल है।

कैशिंग का शुल्क कैसे लगाया जाता है?

प्रत्येक कैश किए गए टोकन की लागत सामान्य इनपुट टोकन का 10% होती है।

इसलिए, जब मेरा डैशबोर्ड दिखाता है कि किसी दिन 91 करोड़ टोकन कैश में हिट हुए, तो वास्तविक बिलिंग लगभग केवल 90 लाख टोकन के समान है। यही कारण है कि कैश के बिना की तुलना में, लंबे समय तक Claude Code का उपयोग करने पर, सत्र लगभग "मुफ्त" तरीके से बढ़ते हुए महसूस होते हैं।

डैशबोर्ड में दो संख्याएँ हैं जिन पर ध्यान देना चाहिए:

कैश बनाना: कंटेंट को कैश में लिखते समय उत्पन्न होने वाली एक बार की लागत। यह अगली बातचीत में कार्य करना शुरू कर देगी।
कैश पढ़ें: क्लॉड द्वारा कैश से पुनः उपयोग किए गए टोकन, जैसे आपके CLAUDE.md, उपकरण परिभाषाएँ, पिछले संदेश आदि। पुनः इनपुट के रूप में संसाधित करने की तुलना में लागत 10 गुना सस्ती है।

अगर आपकी कैश रीड संख्या अधिक है, तो इसका मतलब है कि आप कैश का प्रभावी ढंग से उपयोग कर रहे हैं; अगर यह संख्या कम है, तो इसका मतलब है कि आप एक ही सेट के संदर्भ के लिए बार-बार भुगतान कर रहे हैं।

एंथ्रोपिक के थारिक का एक वाक्य मुझे बहुत प्रभावित कर गया: "हम वास्तव में प्रॉम्प्ट कैश हिट रेट की निगरानी करते हैं, और जब हिट रेट बहुत कम हो जाता है, तो यह एक अलर्ट ट्रिगर करता है, यहां तक कि SEV-लेवल की घटना घोषित कर देता है।"

उसने एक बहुत अच्छी X लेख भी लिखी है। जब कैश हिट रेट उच्च होता है, तो चार बातें एक साथ होती हैं: Claude Code तेज़ महसूस होता है, Anthropic की सेवा लागत कम होती है, आपकी सदस्यता सीमा अधिक स्थायी प्रतीत होती है, और लंबे कोडिंग सेशन अधिक वास्तविक हो जाते हैं।

लेकिन यदि हिट रेट बहुत कम है, तो सभी को नुकसान होगा।

इसलिए, दोनों पक्षों के प्रेरणाएँ वास्तव में संगत हैं: Anthropic चाहता है कि आपकी कैश हिट दर अधिक हो, और आप भी चाहते हैं कि आपकी कैश हिट दर अधिक हो। वास्तव में धीमा करने वाली बातें केवल कुछ ऐसी छोटी-छोटी आदतें हैं, जो दिखने में नगण्य लगती हैं, लेकिन कैश को चुपचाप रीसेट कर देती हैं।

कैश कैसे प्रत्येक डायलॉग राउंड में बढ़ता है?

Cache relies on prefix matching, i.e., "prefix matching".

बहुत अधिक तकनीकी विवरण में न फंसें, आपको बस एक बात समझनी है: जब तक किसी स्थिति से पहले का सामग्री पहले से कैश किए गए सामग्री के पूरी तरह से मेल खाता है, Claude इस कैश किए गए Token का पुन: उपयोग कर सकता है।

एक नया सत्र, लगभग इस तरह शुरू होता है:

Claude Code दस्तावेज़ के अनुसार, एक नया सत्र इस प्रकार चलता है:

पहली बातचीत: कोई कैश नहीं है। सिस्टम प्रॉम्प्ट, आपका प्रोजेक्ट कॉन्टेक्स्ट (जैसे CLAUDE.md, memory, नियम), और आपका पहला संदेश फिर से प्रोसेस किए जाएंगे और कैश में सहेजे जाएंगे।

दूसरी बातचीत: पहली बातचीत का सारा सामग्री अब कैश में है। क्लॉड केवल आपके नए उत्तर और अगले संदेश को संभालेगा। इस चरण की लागत काफी कम होगी।

तीसरा संवाद: तर्क समान है। पिछले संवाद अभी भी कैश में संग्रहित हैं, केवल नवीनतम संवाद को पुनः प्रसंस्कृत किया जाना है।

कैश को स्वयं तीन स्तरों में विभाजित किया जा सकता है:

Thariq के X लेख से:

सिस्टम लेयर (System layer): इसमें बेसिक निर्देश, टूल परिभाषाएँ (read, write, bash, grep, glob) और आउटपुट स्टाइल शामिल हैं। यह लेयर ग्लोबल कैश किया गया है।

प्रोजेक्ट लेयर (Project layer): CLAUDE.md, memory, प्रोजेक्ट नियम शामिल हैं। यह लेयर प्रोजेक्ट के आधार पर कैश किया जाता है।

संवाद स्तर (Conversation): इसमें उत्तर और संदेश शामिल हैं, जो प्रत्येक संवाद चक्र के साथ बढ़ते रहते हैं।

यदि सत्र के मध्य में सिस्टम स्तर या प्रोजेक्ट स्तर की कोई भी चीज़ बदल जाए, तो सभी चीज़ों को पुनः शुरू से कैश किया जाना चाहिए। यह सबसे 「महंगी」 ऑपरेशन है। कल्पना कीजिए: आप 16वें संदेश तक बात कर चुके हैं, और अचानक सिस्टम प्रॉम्प्ट बदल जाता है, या एक घंटे के लिए रुक जाता है, तो पहले संदेश से लेकर सभी टोकन को पुनः प्रोसेस किया जाना चाहिए।

1 घंटा और 5 मिनट का भ्रम

यह सबसे अधिक भ्रमित करने वाला स्थान है।

Claude Code सब्सक्रिप्शन: डिफ़ॉल्ट TTL 1 घंटा है।

Claude API: डिफ़ॉल्ट TTL 5 मिनट है। आप इसे बढ़ाकर 1 घंटा कर सकते हैं, लेकिन इसके लिए अधिक लागत देनी होगी।
सभी योजनाओं के अंतर्गत सब-एजेंट: हमेशा 5 मिनट।

Claude.ai वेब चैट: आधिकारिक रूप से कोई रिकॉर्ड नहीं है। यह सब्सक्रिप्शन संस्करण के समान हो सकता है, लेकिन मैंने अभी तक पुष्टि नहीं की है।

कुछ महीनों पहले, कई लोगों ने शिकायत की कि Claude सब्सक्रिप्शन की सीमा बहुत तेजी से खत्म हो रही है। तब कुछ लोगों को लगा कि Anthropic ने बिना उपयोगकर्ताओं को सूचित किए TTL को 1 घंटे से घटाकर 5 मिनट कर दिया है। लेकिन ऐसा नहीं है, Claude Code का TTL अभी भी 1 घंटा है।

समस्या यह है कि Claude Code और API के दस्तावेज़ अलग-अलग हैं, और ये दोनों पूरी तरह से अलग चीजें हैं, जिससे काफी भ्रम पैदा हुआ है।

यदि आप बड़े पैमाने पर Sub-agent वर्कफ्लो चला रहे हैं या API का सीधे उपयोग कर रहे हैं, तो 5 मिनट का अंक महत्वपूर्ण है। लेकिन 95% Claude Code उपयोगकर्ताओं के लिए, वास्तव में जिस एक घंटे की खिड़की पर ध्यान केंद्रित करना चाहिए, वही है।

तीन आदतें जो 95% उपयोगकर्ताओं को कवर करती हैं

नीचे दिए गए, मुझे लगता है कि दैनिक उपयोग में वास्तव में उपयोगी हैं।

बहुत देर नहीं रुकें

अगर आप एक घंटे से अधिक समय से अनुपस्थित हैं, तो पिछली सामग्री अधिकांशतः कैश से समाप्त हो चुकी है। आपका अगला संदेश कैश को पुनः बनाएगा। इस स्थिति में, एक 'ठंडा' हो चुके पुराने सत्र को बहाल करने के बजाय, एक स्पष्ट हस्तांतरण करना और एक नया सत्र शुरू करना अक्सर कम लागत का होता है।

टास्क बदलते समय, सीधे पुनः शुरू करें

/compact या /clear तो मूल रूप से कैश को बर्बाद कर देते हैं, इसलिए इस बिंदु पर वास्तविक रूप से एक बार रीसेट कर देना बेहतर होगा।

मैंने एक सेशन हैंडऑफ स्किल बनाया है, जो /compact का विकल्प है। यह हमारे द्वारा किए गए कार्यों, अभी तक निर्णयित नहीं हुए निर्णयों, सबसे महत्वपूर्ण फ़ाइलों और आगे कहाँ से जारी रखना है, इसका सारांश देता है। फिर मैं /clear निष्पादित करता हूँ और इस सारांश को पेस्ट कर देता हूँ, ताकि ऐसा लगे जैसे कोई बाधा नहीं हुई हो।

कॉम्पैक्ट कमांड कभी-कभी धीमी गति से चलती है। जबकि यह हैंडऑफ स्किल आमतौर पर एक मिनट से कम समय में पूरा हो जाता है।

Claude चैट में, बड़े दस्तावेज़ को Projects में डालें

Claude.ai पर कैशिंग मैकेनिज्म के बारे में बहुत विस्तृत आधिकारिक विवरण नहीं है, लेकिन Projects स्पष्ट रूप से सामान्य डायलॉग थ्रेड्स के लिए अलग अनुकूलन का उपयोग करते हैं। इसलिए, यदि आप बड़ा दस्तावेज़ कॉपी करना चाहते हैं, तो इसे सीधे डायलॉग में नहीं, बल्कि Project में रखना सबसे अच्छा है।

कौन से ऑपरेशन कैश को चुपचाप नुकसान पहुंचाते हैं?

कुछ चीजें बिना किसी स्पष्ट अलर्ट के कैश को पूरी तरह रीसेट कर देती हैं।

मॉडल बदलें: क्योंकि कैश प्रीफिक्स मैचिंग पर निर्भर करता है और प्रत्येक मॉडल का अपना कैश होता है। जब भी मॉडल बदलें, अगला अनुरोध किसी कैश हिट के बिना पूरा इतिहास पुनः पढ़ेगा।

"Opus plan" मोड: यह सेटिंग योजना चरण में Opus का उपयोग करती है और निष्पादन चरण में Sonnet का उपयोग करती है। मैंने इसे कुछ टोकन अनुकूलन वीडियो में सिफारिश की थी, जिसका कारण है। हालाँकि, आपको समझना होगा कि प्रत्येक plan पर स्विच करना मूल रूप से एक मॉडल स्विच है, जिसका अर्थ है कि कैश को पुनः स्थापित करना होगा। दीर्घकालिक रूप से, यह सत्र की सीमा को बढ़ाने में मदद करता है, लेकिन आपको नीचे क्या हो रहा है, यह समझना आवश्यक है।

CLAUDE.md को सत्र के बीच में संपादित किया जा सकता है: यह संशोधन तुरंत लागू नहीं होगा, बल्कि अगली पुनः शुरू करने तक प्रभावी नहीं होगा। इसलिए, वर्तमान में चल रही कैश प्रभावित नहीं होगी।

मेरा निःशुल्क टोकन डैशबोर्ड

मैंने पहले जो स्क्रीनशॉट दिखाया था, वह एक टोकन डैशबोर्ड से आया है।

https://github.com/nateherkai/token-dashboard

यह एक बहुत सरल GitHub रिपॉजिटरी है। आप लिंक Claude Code को दें, और यह स्थानीय localhost पर डिप्लॉय करेगा, तो यह आपके पिछले सभी सत्र रिकॉर्ड को पढ़ेगा, और खाली स्थिति से गिनती शुरू नहीं करेगा। आप तुरंत प्रतिदिन के input, output, cache create और cache read डेटा को देख पाएंगे।

हालांकि, एक बात ध्यान देने योग्य है: यह डैशबोर्ड स्थानीय उपकरण पर टोकन डेटा को गिनता है। यदि आप डेस्कटॉप से लैपटॉप पर स्विच करते हैं, तो संख्याएँ पूरी तरह समान नहीं होंगी। प्रत्येक उपकरण के पास अपना एक सेट सांख्यिकी दृश्य होता है।

Summary

प्रॉम्प्ट कैशिंग एक ऐसी चीज है जिसे गहराई से अध्ययन किया जा सकता है। थारिक का लेख यहाँ से अधिक पूर्ण रूप से इसकी व्याख्या करता है, अगर आप पूरी छवि देखना चाहते हैं, तो पढ़ने लायक है।

लेकिन आपको इससे लाभ उठाने के लिए सभी विवरणों को पूरी तरह समझने की आवश्यकता नहीं है। आपको केवल सबसे महत्वपूर्ण 80/20 नियम जानना है: कैशेड टोकन सामान्य टोकन से 10 गुना सस्ते होते हैं; Claude Code का TTL 1 घंटा है; मॉडल बदलने से कैश बर्बाद हो जाता है; टास्क के बीच स्पष्ट हस्तांतरण करना, आमतौर पर पुरानी सत्र को 'समाप्त' होने तक रखकर फिर उसे जबरन जारी रखने की तुलना में अधिक लाभदायक होता है।

[Original Link]

जानने के लिए क्लिक करें कि लुडोंग ब्लॉकबीट्स कौन सी नौकरियाँ भर रहा है

लियूडोंग ब्लॉकबीट्स के आधिकारिक समुदाय में शामिल हों:

टेलीग्राम सब्सक्रिप्शन समूह：https://t.me/theblockbeats

टेलीग्राम समुदाय: https://t.me/BlockBeats_App

ट्विटर आधिकारिक खाता: https://twitter.com/BlockBeatsAsia