Редакторський коментар: Багато користувачів Claude Code відчувають, що токени споживаються занадто швидко, і довгі сесії легко вичерпують ліміт. Але з точки зору інженерів Anthropic, справжнім фактором витрат є не кількість написаного коду, а чи використовує система повторно вже оброблений контекст.

Основна ідея цієї статті — як за допомогою механізму кешування економити токени. Автор за тиждень зберіг і повторно використав понад 300 мільйонів токенів, що становить 91 мільйон токенів на день. Оскільки вартість кешованих токенів становить лише 10% від вартості звичайних вхідних токенів, це означає, що 91 мільйон кешованих токенів еквівалентні приблизно 9 мільйонам звичайних токенів. Claude Code здається більш «тривалим» не тому, що модель працює безкоштовно, а тому, що велика кількість повторюваних контекстів успішно повторно використовується.

Ключ до кешування запитів — «не переривати кеш». Claude Code кешує системні підказки, визначення інструментів, CLAUDE.md, правила проекту та історію діалогу шаром; якщо префікс наступного запиту залишається незмінним, Claude може безпосередньо отримувати дані з кешу, а не обробляти весь контекст знову. Anthropic також моніторить коефіцієнт повторного використання кешу запитів, оскільки це впливає не лише на ліміти користувачів, а й безпосередньо на витрати на сервіс моделі та її ефективність.

Для звичайних користувачів не потрібно розуміти всі нижчі деталі — достатньо дотримуватися кількох ключових звичок: не залишайте сеанс бездіяльним більше ніж на 1 годину; правильно передавайте сеанс при переключенні завдань; уникайте частого переключення моделей; величезні документи краще додавати до Project, а не постійно вставляти їх у діалог.

Ця стаття більше про підхід до використання Claude Code, що наближений до інженерного мислення: розглядайте контекст як управління активами, забезпечуйте постійне повторне використання кешу та мінімізуйте повторні обчислення у довгих сесіях.

Нижче наведено оригінал:

Цього тижня я заощадив 300 мільйонів токенів, щодня — 91 мільйон, за тиждень — більше 300 мільйонів.

Claude Code

Я не змінював жодних налаштувань. Це просто кешування запиту, яке нормально працює у фоновому режимі.

Але коли я справді зрозумів, що таке кеш і як уникнути «зламу» кешу, мої сеанси при тому самому ліміті використання тривали довше. Тож ось 80/20 посібник з кешування prompt у Claude Code — без глибоких деталей на рівні API.

Коротко

Вартість кешування токенів становить лише 10% від вартості звичайних вхідних токенів. 91 мільйон кешованих токенів фактично сплачуються як 9 мільйонів токенів.

Час дії кешу для підписки Claude Code — 1 година; за замовчуванням для API — 5 хвилин; для суб-агентів — завжди 5 хвилин.

Кеш поділено на три рівні: системний, проектний та діалоговий.

Переключення моделі посеред сеансу зруйнує кеш, включаючи режим «opus plan».

Як саме розраховується оплата за кешування?

Вартість кожного кешованого токена становить 10% від вартості звичайного вхідного токена.

Claude Code

Тоже саме, коли моя панель показує, що за день кеш був використаний для 91 мільйона токенів, фактично оплачувалося лише приблизно 9 мільйонів токенів. Саме тому, порівняно з використанням без кешу, тривалий час використання Claude Code створює враження, що сесія майже «безкоштовно» продовжується.

На панелі інструментів є два числа, на які варто звернути увагу:

Cache create: одноразова вартість, що виникає під час запису контенту до кешу. Вона почне діяти на наступному діалозі.
Читання кешу: Токени, використані Claude з кешу, наприклад, ваші CLAUDE.md, визначення інструментів, попередні повідомлення тощо. Вартість у 10 разів нижча, ніж обробка як вхідних даних.

Claude Code

Якщо ваша кількість Cache read висока, це означає, що ви ефективно використовуєте кеш; якщо це число низьке, це означає, що ви платите знову і знову за той самий набір контексту.

Тарік з Anthropic сказав одне, що мене дуже вразило: «Ми фактично моніторимо частоту спрацьовування кешу запитів, і якщо вона занадто низька, запускається сповіщення, а навіть оголошується аварія рівня SEV».

Він також написав чудову X статтю. Коли частота влучань у кеш висока, відбувається чотири речі одночасно: Claude Code відчувається швидшим, витрати на сервіси Anthropic зменшуються, ваш ліміт підписки здається більш стійким, а довгі сесії кодування стають більш реалістичними.

Але якщо точність дуже низька, всі зазнають збитків.

Claude Code

Отже, мотивація обох сторін насправді збігається: Anthropic хоче, щоб ваша частота спрацьовування кешу була вищою, і ви самі також бажаєте вищої частоти спрацьовування. Єдине, що може уповільнити процес — це деякі здаються незначними, але тихо скидають кеш звички.

Як кеш зростає під час кожного діалогу?

Кеш залежить від співпадіння префіксів, тобто «співпадіння префіксів».

Не потрібно заглиблюватися у надто технічні деталі — вам достатньо зрозуміти одну річ: якщо вміст до певної позиції повністю збігається з вже закешированим, Claude може повторно використовувати ці закешировані токени.

Нова сесія, яка розгортається приблизно так:

Claude Code

Згідно з документацією Claude Code, новий сеанс зазвичай працює так:

Перша діалогова сесія: кеш ще не створено. Системні підказки, контекст вашого проекту (наприклад, CLAUDE.md, memory, правила) та ваше перше повідомлення будуть повторно оброблені та збережені в кеші.

Друга розмова: усі матеріали з першої розмови зараз кешовані. Claude має обробляти лише вашу нову відповідь та наступне повідомлення. Витрати цієї сесії будуть значно нижчими.

Третій діалог: логіка та сама. Попередні діалоги все ще зберігаються у кеші, потрібно обробити лише останній діалог.

Кеш може бути розділений на три рівні:

Claude Code

З посту Thariq у X:

Системний рівень (System layer): включає базові команди, визначення інструментів (read, write, bash, grep, glob) та стиль виводу. Цей рівень кешується глобально.

Рівень проекту (Project layer): включає CLAUDE.md, memory, правила проекту. Цей рівень кешується за проектом.

Рівень діалогу (Conversation): включає відповіді та повідомлення, які збільшуються з кожною ітерацією діалогу.

Якщо в ході сесії будь-що змінюється на рівні системи чи проекту, усе потрібно знову кешувати з початку. Це най«вартісніша» операція. Уявіть: ви вже дійшли до 16-го повідомлення, і раптово змінили системний промпт або сесія була призупинена на годину — тоді всі токени з першого повідомлення потрібно обробити знову.

1 година і 5 хвилин плутанини

Це найбільш заплутане місце.

Підписка Claude Code: за замовчуванням TTL — 1 година.

Claude API: за замовчуванням TTL — 5 хвилин. Ви можете заплатити більше, щоб підняти його до 1 години.
Субагент за будь-яким планом: завжди 5 хвилин.

Веб-чат Claude.ai: офіційно не зафіксовано. Можливо, так само, як у підписковій версії, але я ще не підтвердив.

Кілька місяців тому багато людей скаржилися, що ліміти підписки Claude витрачаються занадто швидко. Тоді деякі вважали, що Anthropic таємно зменшила TTL з 1 години до 5 хвилин, не повідомивши користувачів. Але це не так — TTL Claude Code залишається 1 годиною.

Проблема в тому, що документація Claude Code та API розділені, а це дві абсолютно різні речі, що призводить до багатьох непорозумінь.

Якщо ви активно використовуєте підагентські робочі процеси або безпосередньо використовуєте API, то це число в 5 хвилин має значення. Але для 95% користувачів Claude Code справжньою увагою є лише цей 1-годинний вікно.

Три звички, які охоплюють 95% користувачів

Нижче наведено ті частини, які, на мою думку, справді корисні у повсякденному використанні.

Не зупиняйтесь надовго

Якщо ви були неактивні більше години, попередній вміст майже повністю вийшов із кешу. Ваше наступне повідомлення знову створить кеш. У такому випадку замість спроби відновити вже «остиглу» стару сесію, краще зробити чіткий перехід і розпочати нову сесію — це зазвичай дешевше.

При переключенні завдань, почніть знову

/compact або /clear і так руйнують кеш, тому краще скористатися цим моментом, щоб справді скинути його.

Я створив навичку передачі сесії, щоб замінити /compact. Вона підсумовує, що ми вже зробили, які рішення залишилися невирішеними, які файли найважливіші та з чого слід продовжити далі. Потім я виконую /clear, вставляю цей підсумок — і можу продовжити роботу, ніби перерва взагалі не відбувалася.

Команда compact іноді працює дуже повільно. А цей handoff навичка зазвичай завершується менше ніж за хвилину.

У чаті Claude величезні документи краще додавати до Projects

На Claude.ai не існує дуже детального офіційного опису механізму кешування, але Projects, очевидно, використовують інший підхід до оптимізації порівняно зі звичайними діалоговими потоками. Тому, якщо ви хочете вставити великий документ, краще помістити його в Project, ніж просто вставляти його безпосередньо в діалог.

Які дії можуть тихо порушувати кеш?

Декілька речей можуть скинути кеш без явного попередження.

Зміна моделі: через залежність кешу від співпадіння префіксів, кожна модель має власний кеш. При зміні моделі наступний запит знову завантажить повну історію без співпадінь у кеші.

Режим «Opus plan»: ця настройка використовує Opus на етапі планування та Sonnet на етапі виконання. Я раніше рекомендував його у кількох відео про оптимізацію токенів, і для цього були причини. Але слід розуміти, що кожна зміна плану суттєво є переключенням моделі, що означає перебудову кешу. У довгостроковій перспективі це все ще допомагає продовжити ліміт сеансу, але вам потрібно розуміти, що саме відбувається на нижньому рівні.

Редагування CLAUDE.md у середині сесії можливе: ця зміна не набуде дії негайно, а застосується лише після наступного перезапуску. Тому поточний кеш, що працює, не буде вплинутий.

Моя безкоштовна панель токенів

Знімки екрана, які я показував раніше, взяті з інформаційної панелі токена.

Claude Code

Це дуже простий репозиторій GitHub. Ви надаєте посилання Claude Code, і він розгортає його локально на localhost, після чого він читає ваші попередні сесії, а не починає з нуля. Ви одразу бачите дані щоденних input, output, cache create та cache read.

Однак варто звернути увагу: цей інформаційний щит відображає дані про токени на локальному пристрої. Якщо ви переключитеся з настільного комп’ютера на ноутбук, цифри можуть не збігатися. Кожен пристрій має власний набір статистичних даних.

Підсумок

Кешування запитів — це річ, яку можна глибоко дослідити. Стаття Thariq розкриває це повніше, і якщо ви хочете побачити повну картину, варто її прочитати.

Але вам не потрібно повністю розуміти всі деталі, щоб отримати користь. Вам достатньо зрозуміти найважливіші 80/20: кешовані токени дешевші в 10 разів, ніж звичайні токени; TTL Claude Code — 1 година; зміна моделі знищує кеш; чітке передавання завдань між ними зазвичай вигідніше, ніж продовжувати використання старого сеансу після його «закінчення».

Інженер Anthropic ділиться порадами щодо кешу Claude Code, щоб зберегти 300 мільйонів токенів щотижня

Коротко

Як саме розраховується оплата за кешування?

Як кеш зростає під час кожного діалогу?

1 година і 5 хвилин плутанини

Три звички, які охоплюють 95% користувачів

Не зупиняйтесь надовго

При переключенні завдань, почніть знову

У чаті Claude величезні документи краще додавати до Projects

Які дії можуть тихо порушувати кеш?

Моя безкоштовна панель токенів

Підсумок