Як інженери Anthropic справді зберігають токени
Автор оригіналу: Nate Herk
Переклад: Peggy, BlockBeats

Редакторський коментар: Багато користувачів Claude Code відчувають, що токени споживаються занадто швидко, і довгі сесії легко витрачають ліміт. Але з точки зору інженерів Anthropic, справжнім фактором витрат є не кількість написаного коду, а чи використовує система повторно вже оброблений контекст.

Основна ідея цієї статті — як за допомогою механізму кешування можна зекономити токени. Автор за тиждень використав кеш для повторного використання понад 300 мільйонів токенів, а щоденний обсяг кешу досяг 91 мільйона. Оскільки вартість кешованих токенів становить лише 10% від вартості звичайних вхідних токенів, це означає, що 91 мільйон кешованих токенів фактично розраховуються як 9 мільйонів звичайних токенів. Claude Code здається більш «довговічним» не тому, що модель працює безкоштовно, а тому, що велика кількість повторюваних контекстів успішно використовується повторно.

Ключ до кешування запитів — «не переривати кеш». Claude Code кешує системні підказки, визначення інструментів, CLAUDE.md, правила проекту та історію діалогу шарами; якщо префікс наступного запиту залишається незмінним, Claude може безпосередньо отримувати дані з кешу, а не обробляти весь контекст знову. Anthropic також моніторить коефіцієнт повторного використання кешу запитів, оскільки це впливає не лише на ліміти користувачів, а й безпосередньо на витрати на обслуговування моделі та її ефективність.

Для звичайних користувачів не потрібно розуміти всі нижчі деталі — достатньо дотримуватися кількох ключових звичок: не залишайте сеанс бездіяльним більше ніж на 1 годину; правильно передавайте сеанс при переключенні завдань; уникайте частого переключення моделей; велику документацію краще додавати до Projects, а не постійно копіювати в діалог.

Ця стаття більше про те, як використовувати Claude Code з інженерною логікою: розглядайте контекст як управління активами, постійно повторно використовуйте кеш і мінімізуйте повторні обчислення у довгих сесіях.

Нижче наведено оригінал:

Цього тижня я заощадив 300 мільйонів токенів, щодня — 91 мільйон, за тиждень — більше 300 мільйонів.

Я не змінював жодних налаштувань. Це просто кешування запиту, яке нормально працює у фоновому режимі.

Але коли я справді зрозумів, що таке кеш і як уникнути «переривання» кешу, мої сеанси при тому самому ліміті використання тривали довше. Тож ось 80/20 путівник з кешуванням prompt у Claude Code — без глибоких деталей на рівні API.

Коротко

Вартість кешування токенів становить лише 10% від вартості звичайних вхідних токенів. 91 мільйон кешованих токенів фактично сплачуються як 9 мільйонів токенів.

Час дії кешу для підписки Claude Code — 1 година; за замовчуванням для API — 5 хвилин; для суб-агентів — завжди 5 хвилин.

Кеш поділено на три рівні: системний, проектний та діалоговий.

Переключення моделі під час сесії порушує кеш, включаючи режим «opus plan».

Як саме розраховується оплата за кешування?

Вартість кожного кешованого токена становить 10% від вартості звичайного вхідного токена.

Тоже саме, коли мій інтерфейс показує, що 91 мільйон токенів було оброблено з кешу, фактична оплата становить приблизно лише 9 мільйонів токенів. Саме тому під час тривалого використання Claude Code відчувається, що сесія майже «безкоштовно» продовжується порівняно з випадком без кешу.

На панелі інструментів є два числа, на які варто звернути увагу:

Cache create: одноразова вартість, що виникає під час запису контенту до кешу. Вона почне діяти на наступному діалозі.
Читання з кешу: Token, використані з кешу Claude, наприклад, ваші CLAUDE.md, визначення інструментів, попередні повідомлення тощо. Вартість у 10 разів нижча, ніж обробка як нового вхідного даного.

Якщо ваше число Cache read високе, це означає, що ви ефективно використовуєте кеш; якщо це число низьке, це означає, що ви платите знову за той самий набір контексту.

Тарік з Anthropic сказав одне речення, яке мене дуже вразило: «Ми фактично моніторимо частоту спрацьовування кешу запитів, і якщо вона занадто низька, запускається сповіщення, а навіть оголошується аварія рівня SEV.»

Він також написав чудову X статтю. Коли частота спрацьовування кешу висока, відбувається одночасно чотири речі: Claude Code відчувається швидшим, витрати на сервіси Anthropic зменшуються, ваш ліміт підписки здається більш стійким, а довгі сесії кодування стають більш реалістичними.

Але якщо точність дуже низька, всі будуть втрачати.

Отже, мотивація обох сторін збігається: Anthropic хоче, щоб ваша частота потрапляння в кеш була вищою, і ви самі також бажаєте вищої частоти потрапляння. Єдине, що справді може заважати — це деякі здаються незначними, але тихо скидають кеш звички.

Як кеш зростає під час кожної діалогової сесії?

Кеш залежить від співпадіння префіксів, тобто «співпадіння префіксів».

Не потрібно заглиблюватися у надто технічні деталі — вам достатньо зрозуміти одну річ: якщо вміст до певної позиції повністю збігається з вже закешированим, Claude може повторно використовувати ці закешировані токени.

Нова сесія, яка розгортається приблизно так:

Згідно з документацією Claude Code, новий сеанс зазвичай працює так:

Перша діалогова сесія: кеш відсутній. Системні підказки, контекст вашого проекту (наприклад, CLAUDE.md, memory, правила) та ваше перше повідомлення будуть знову оброблені та записані до кешу.

Друга сесія діалогу: усі матеріали з першої сесії тепер кешовані. Claude має обробляти лише вашу нову відповідь та наступне повідомлення. Вартість цієї сесії буде значно нижчою.

Третій діалог: логіка та сама. Попередні діалоги все ще зберігаються у кеші, потрібно обробити лише останній діалог.

Кеш може бути розділений на три рівні:

З посту Thariq у X:

Системний рівень (System layer): включає базові команди, визначення інструментів (read, write, bash, grep, glob) та стиль виводу. Цей рівень кешується глобально.

Рівень проекту (Project layer): включає CLAUDE.md, memory, правила проекту. Цей рівень кешується за проектом.

Рівень діалогу (Conversation): включає відповіді та повідомлення, які збільшуються з кожною ітерацією діалогу.

Якщо в ході сесії будь-що змінюється на рівні системи чи проекту, усе потрібно знову закеширувати з початку. Це най«вартісніша» операція. Уявіть: ви вже дійшли до 16-го повідомлення, і раптово змінюється системний промпт або сесія припиняється на годину — тоді всі токени з першого повідомлення потрібно обробити знову.

1 година і 5 хвилин плутанини

Це найбільш заплутане місце.

Підписка Claude Code: за замовчуванням TTL — 1 година.

Claude API: за замовчуванням TTL — 5 хвилин. Ви можете заплатити більше, щоб підняти його до 1 години.
Субагент за будь-яким планом: завжди 5 хвилин.

Веб-чат Claude.ai: офіційно не зафіксовано. Можливо, так само, як і у підписковій версії, але я ще не підтвердив.

Кілька місяців тому багато людей скаржилися, що ліміти підписки Claude витрачаються занадто швидко. Тоді хтось вважав, що Anthropic таємно зменшила TTL з 1 години до 5 хвилин, не повідомивши користувачів. Але це не так — TTL Claude Code залишається 1 годиною.

Проблема в тому, що документація Claude Code та API розділені, а це дві зовсім різні речі, що призводить до багатьох непорозумінь.

Якщо ви запускаєте велику кількість підагентів або використовуєте API безпосередньо, це число у 5 хвилин має значення. Але для 95% користувачів Claude Code справді важливим є лише цей 1-годинний вікно.

Три звички, які охоплюють 95% користувачів

Нижче наведено ті частини, які, на мою думку, справді корисні у повсякденному використанні.

Не зупиняйтеся надовго

Якщо ви були неактивні більше години, попередній вміст майже повністю вибув з кешу. Ваше наступне повідомлення знову створить кеш. У такому випадку замість спроби відновити вже «остиглу» стару сесію, краще зробити чіткий перехід і розпочати нову сесію — це зазвичай менш витратно.

При переключенні завдань — просто почніть знову

/compact або /clear і так руйнують кеш, тому краще скористатися цим моментом, щоб справді скинути його.

Я створив навичку передачі сесії, щоб замінити /compact. Вона підсумовує, що ми вже зробили, які рішення залишилися невирішеними, які файли найважливіші та з чого слід продовжити далі. Потім я виконую /clear, вставляю цей підсумок — і можу продовжити роботу, ніби перерва взагалі не відбувалася.

Команда compact іноді працює дуже повільно. А цей навичка handoff зазвичай завершується за хвилину.

У чаті Claude величезні файли краще додавати до Projects

На Claude.ai не існує дуже детального офіційного опису механізму кешування, але Projects, очевидно, використовують інший підхід до оптимізації порівняно зі звичайними діалоговими потоками. Тому, якщо ви хочете вставити великий документ, краще помістити його в Project, ніж просто вставляти його безпосередньо в діалог.

Які дії можуть тихо порушувати кеш?

Декілька речей можуть повністю скинути кеш без явного попередження.

Зміна моделі: через залежність кешу від співпадіння префіксів, кожна модель має власний кеш. При зміні моделі наступний запит знову завантажить повну історію без співпадінь у кеші.

Режим «Opus plan»: ця настройка використовує Opus на етапі планування та Sonnet на етапі виконання. Я раніше рекомендував його у кількох відео про оптимізацію токенів, і є причина. Але важливо розуміти, що кожна зміна плану — це суттєво зміна моделі, що означає перебудову кешу. У довгостроковій перспективі це все ще допомагає продовжити ліміт сесії, але вам слід розуміти, що відбувається на нижчому рівні.

Редагування CLAUDE.md у середині сесії можливе: ця зміна не вступить в силу одразу, а застосується лише після наступного перезапуску. Тому поточний кеш, що працює, не впливається.

Моя безкоштовна панель токенів

Знімки екрана, які я показував раніше, взяті з панелі токена.

https://github.com/nateherkai/token-dashboard

Це дуже простий репозиторій GitHub. Ви надаєте посилання Claude Code, і він розгортає його локально на localhost, після чого він читає ваші попередні сесії, а не починає з нуля. Ви одразу бачите дані щоденної кількості input, output, створення кешу та читання кешу.

Однак варто звернути увагу: цей інформаційний щит обчислює дані токенів на локальному пристрої. Якщо ви переключитеся з настільного комп’ютера на ноутбук, цифри не будуть повністю збігатися. Кожен пристрій має власний набір статистичних даних.

Підсумок

Кешування запитів — це річ, яку можна глибоко дослідити. Стаття Thariq розкриває це повніше, і якщо ви хочете побачити повну картину, варто її прочитати.

Але вам не потрібно повністю розуміти всі деталі, щоб отримати користь. Вам достатньо знати найважливіші 80/20: кешовані токени дешевші в 10 разів, ніж звичайні токени; TTL Claude Code — 1 година; переключення моделі знищує кеш; чіткий перехід між завданнями, як правило, вигідніший, ніж продовжувати використання старого сеансу після його «закінчення».

[Посилання на оригінал]

Натисніть, щоб дізнатися про вакансії BlockBeats

Вступайте до офіційного спільноти律动 BlockBeats:

Telegram-канал з підпискою: https://t.me/theblockbeats

Telegram-чат: https://t.me/BlockBeats_App

Офіційний аккаунт Twitter: https://twitter.com/BlockBeatsAsia