Anthropic Mühendisleri Nasıl Gerçekten Tokenler Tasarruf Ediyor
Yazar: Nate Herk
Peggy, BlockBeats

Editör Notu: Claude Code kullanan birçok kişi, token tüketiminin çok hızlı olduğunu ve uzun oturumların kolayca limiti tükettiğini hisseder. Ancak Anthropic mühendislerinin bakış açısından, maliyeti gerçekten etkileyen, yazdığınız kod miktarı değil, sistemin daha önce işlenmiş bağlamı sürekli olarak yeniden kullanıp kullanmadığıdır.

Bu makalenin temel noktası, önbellekleme mekanizmasıyla Token tasarrufu sağlamaktır. Yazar, bir hafta içinde 300 milyondan fazla Token’ı önbelleklemiş ve günlük önbelleklenen Token miktarı 91 milyona ulaşmıştır. Önbelleklenen Token’ların maliyeti, normal giriş Token’larının %10’u olduğundan, 91 milyon önbelleklenen Token, yaklaşık 9 milyon normal Token’a eşdeğerdir. Claude Code’un uzun oturumlarının daha “dayanıklı” görünmesinin nedeni, modelin ücretsiz çalışması değil, büyük miktarda tekrarlayan bağlamın başarıyla yeniden kullanılmasıdır.

Önbellekleme anahtarı, "önbelleği kesmemek"tir. Claude Code, sistem ipuçlarını, araç tanımlarını, CLAUDE.md'yi, proje kurallarını ve geçmiş diyalogları katmanlı olarak önbelleğe alır; sonraki isteklerin öneki aynı kalırsa, Claude tam bağlamı yeniden işlemek yerine önbelleği doğrudan okur. Anthropic, önbellek yeniden kullanım oranını izler çünkü bu sadece kullanıcı kotasını değil, aynı zamanda model hizmet maliyetini ve çalışma verimliliğini de doğrudan etkiler.

Normal kullanıcılar için tüm alt katman detaylarını anlamak gerekli değildir; yalnızca birkaç temel alışkanlığı öğrenmeniz yeterlidir: Oturumları 1 saatten fazla boş bırakmayın; görev değiştirirken oturum devirini yapın; modeli sık sık değiştirme; büyük belgeleri tekrar tekrar sohbete yapıştırmak yerine Projects'e yerleştirin.

Bu makale, bir token tasarrufu becerisi anlatmaktan ziyade, Claude Code'un daha mühendislik odaklı bir kullanım yöntemini sunar: bağlamı varlık yönetimi gibi ele alın, önbelleği sürekli yeniden kullanın ve uzun oturumlarda tekrarlayan hesaplamaları azaltın.

Aşağıda orijinal metin yer almaktadır:

Bu hafta 300 milyon token tasarruf ettim, günlük 91 milyon, haftada 300 milyonun üzerinde.

Herhangi bir ayar değiştirmedim. Bu, arka planda prompt önbelleğinin normal şekilde çalışmasıdır.

Ancak önbelleğin ne olduğunu ve önbelleği “bozmamayı” gerçekten anladığımdan beri, aynı kullanım limiti altında oturumlarım daha uzun sürüyor. Bu nedenle, API seviyesindeki derin detaylara girmeden, Claude Code önbellekleme için 80/20 giriş rehberini burada sunuyoruz.

TL;DR

Önbelleğe alınan Token maliyeti, normal giriş Token'larının %10'u kadardır. 91 milyon önbelleğe alınan Token, yaklaşık 9 milyon Token maliyetine karşılık gelmektedir.

Claude Code abonelik sürümünün önbellek TTL'si 1 saattir; API varsayılan olarak 5 dakikadır; Alt aracıcılar her zaman 5 dakikadır.

Önbellek üç katmandan oluşur: sistem katmanı, proje katmanı ve diyalog katmanı.

Sohbet sırasında modeli değiştirmek, önbelleği ve «opus plan» modunu açmayı bozar.

Önbellekleme nasıl ücretlendirilir?

Her önbelleğe alınan Token, normal giriş Token'larının %10 maliyetine sahiptir.

Bu nedenle, panomda bir günde 91 milyon Token'ın önbelleğe alınması gösterildiğinde, gerçek faturalama yaklaşık 9 milyon Token işlemine denk gelir. Bu, önbellek kullanılmadığı durumla karşılaştırıldığında, Claude Code'u uzun süre kullandığınızda oturumların neredeyse «ücretsiz» şekilde uzadığını hissettirmenin nedenidir.

Panoda dikkat edilmesi gereken iki sayı var:

Önbelleğe yazma: İçeriği önbelleğe yazarken oluşan tek seferlik maliyet. Bu, bir sonraki diyalogda etkinleşecektir.
Önbellek okuma: Claude, önbellekten yeniden kullanılan tokendir; örneğin CLAUDE.md, araç tanımları veya daha önceki mesajlar gibi. Yeni bir giriş olarak işlenmesine kıyasla maliyeti 10 kat daha düşüktür.

Cache okuma sayınız yüksekse, önbelleği etkili bir şekilde kullanıyorsunuz demektir; bu sayı düşükse, aynı bağlam için tekrar tekrar ödeme yapıyorsunuz demektir.

Anthropic'ın Thariq'i, "Aslında prompt önbelleği vuruş oranını izliyoruz; oran çok düşükse, uyarı tetiklenir hatta SEV seviyesinde bir olay ilan edilir." diyerek bana büyük bir iz bırakmıştır.

O, X makalesi de yazdı. Önbellek vurma oranı yüksek olduğunda, dört şey aynı anda gerçekleşir: Claude Code daha hızlı hissedilir, Anthropic'in hizmet maliyetleri düşer, abonelik limitiniz daha uzun sürer gibi görünür ve uzun kodlama oturumları daha gerçekçi hale gelir.

Ancak başarı oranı çok düşükse, herkes zarar görecektir.

Yani, her iki tarafın teşvikleri aslında aynıdır: Anthropic, önbellek vuruş oranınızın daha yüksek olmasını ister, siz de daha yüksek bir vuruş oranını istersiniz. Gerçekten geriye doğru çeken, görünüşte önemsiz gibi gelse de önbelleği gizlice sıfırlayan bazı alışkanlıklardır.

Önbellek, her bir diyalog döngüsünde nasıl artar?

Önbellek, ön ek eşleşmesine, yani «ön ek eşleşmesi»ye dayanır.

Aşırı teknik detaylara girmenize gerek yok; sadece bir noktayı anlayın: Bir konumdan önceki içerik, önbelleğe alınmış içerikle tamamen aynıysa, Claude bu önbelleğe alınmış belirteçleri yeniden kullanabilir.

Tamamen yeni bir oturum, şu şekilde gelişiyor:

Claude Code belgelerine göre, yeni bir oturum genellikle şu şekilde çalışır:

İlk sohbet: Henüz hiçbir önbellek yok. Sistem talimatları, projenizin bağlamı (örneğin CLAUDE.md, bellek, kurallar) ve ilk mesajınız yeniden işlenecek ve önbelleğe yazılacaktır.

İkinci sohbet: İlk sohbetteki tüm içerik artık önbelleğe alınmıştır. Claude yalnızca yeni yanıtınızı ve bir sonraki mesajınızı işleyecektir. Bu turun maliyeti çok daha düşük olacaktır.

Üçüncü konuşma: Mantık aynı. Önceki konuşmalar hâlâ önbellekte kalır, yalnızca en son etkileşim yeniden işlenmelidir.

Önbellek kendisi üç katmana ayrılabilir:

Thariq'ten X makalesi:

Sistem katmanı (System layer): Temel komutları, araç tanımlarını (read, write, bash, grep, glob) ve çıktı stilini içerir. Bu katman genel önbellekte tutulur.

Proje katmanı (Project layer): CLAUDE.md, bellek, proje kurallarını içerir. Bu katman proje bazında önbelleğe alınır.

Konuşma katmanı (Conversation): Her bir konuşma döngüsüyle birlikte yanıtlar ve mesajlar artar.

Sesli sohbet sırasında sistem veya proje düzeyinde herhangi bir değişiklik olursa, tüm içerik yeniden tamamen önbelleğe alınmalıdır. Bu, en «pahalı» işlemdir. 16. mesajına kadar konuştuğunuzu düşünün; birdenbire sistem talimatı değiştirildi veya bir saat boyunca durdu. Bu durumda, 1. mesajdan itibaren tüm Token'lar yeniden işlenmelidir.

1 saat ve 5 dakikalık karışıklık

Bu, en çok yanlış anlaşılabilen noktadır.

Claude Code abonelik sürümü: Varsayılan TTL 1 saat.

Claude API: Varsayılan TTL 5 dakikadır. Daha yüksek bir maliyetle bunu 1 saate çıkarabilirsiniz.
Herhangi bir plan altındaki Alt Ajans: her zaman 5 dakika.

Claude.ai web sohbeti: Resmi olarak kaydedilmemiştir. Abonelik sürümüyle aynı olabilir, ancak henüz doğrulamadım.

Birkaç ay önce birçok kullanıcı, Claude abonelik limitlerinin çok hızlı tükendiğini şikayet ediyordu. O dönemde bazıları Anthropic'ın TTL'yi 1 saatten 5 dakikaya düşürdüğünü ve kullanıcıları bilgilendirmeden bunu yaptığını sanıyordu. Ancak gerçek şu ki, Claude Code'un TTL'si hâlâ 1 saattir.

Sorun, Claude Code ve API belgelerinin ayrı ayrı sunulmasıdır ve bunlar tamamen farklı şeyler olduğu için birçok karışıklık yaratmıştır.

Alt görev akışlarını yoğun bir şekilde çalıştıranlar veya doğrudan API kullananlar için 5 dakika sayısı önemlidir. Ancak Claude Code kullanıcılarının %95'i için gerçekten dikkat etmeniz gereken, yalnızca 1 saatlik penceredir.

Kullanıcıların %95'ini kapsayan üç alışkanlık

Aşağıdakiler, günlük kullanımım için gerçekten faydalı olan kısımlar.

Çok uzun duraklamayın

Bir saatten fazla boşta kaldıysanız, önceki içerikler genellikle önbellekten süresi dolmuştur. Bir sonraki mesajınız önbelleği yeniden oluşturacaktır. Bu durumda, zaten “soğumuş” bir eski oturumu sürdürmek yerine, net bir geçiş yapmak ve yeni bir oturum başlatmak genellikle daha düşük maliyetlidir.

Görevi değiştirirken doğrudan yeniden başlatın

/compact veya /clear zaten önbelleği bozacağından, bu noktada gerçekten bir sıfırlama yapmak daha iyidir.

Kendi oturum devir becerimi oluşturdum, /compact yerine kullanmak için. Bu, tamamladığımız şeyleri, hangi kararların ertelendiğini, hangi dosyaların en önemli olduğunu ve sonraki adımların nereden başlaması gerektiğini özetler. Ardından /clear komutunu çalıştırır ve bu özetleri yapıştırırım, böylece hiçbir şey kesilmemiş gibi ilerleyebilirim.

compact komutu bazen yavaş çalışır. Bu handoff becerisi ise genellikle bir dakikadan kısa sürede tamamlanır.

Claude sohbetinde, büyük belgeleri尽可能 Projects içine yerleştirin.

Claude.ai'de önbellek mekanizması hakkında ayrıntılı bir resmi açıklama bulunmamaktadır, ancak Projeler açıkça normal diyalog akışlarından farklı bir optimizasyon yöntemi kullanmaktadır. Bu nedenle büyük belgeleri yapıştırmak istiyorsanız, bunları doğrudan diyaloga eklemek yerine Projeye eklemek daha iyidir.

Önbelleği gizlice bozan işlemler nelerdir?

Önbelleği tamamen sıfırlayacak birkaç şey, açık bir uyarı olmadan gerçekleşebilir.

Modeli değiştirin: Önbellek önek eşlemesine bağlıdır ve her modelin kendi önbelleği vardır. Model değiştirildiğinde, bir sonraki istek tam geçmişin önbellek vuruşu olmadan yeniden okunmasını sağlar.

«Opus plan» modu: Bu ayar, planlama aşamasında Opus'u, yürütme aşamasında ise Sonnet'i kullanır. Daha önce bazı token optimizasyonu videolarında bunu önerdim ve bunun bir nedeni vardı. Ancak her plan değişikliğinin temelde bir model değişikliği olduğu ve bu nedenle önbelleğin yeniden oluşturulması gerektiği anlaşılmalıdır. Uzun vadede hala oturum kotasını uzatmaya yardımcı olsa da, arka planda ne olduğunu bilmelisiniz.

Sohbet sırasında CLAUDE.md dosyasını düzenlemek mümkündür: Bu değişiklik hemen uygulanmaz, bir sonraki yeniden başlatma sırasında etkinleşir. Bu nedenle, şu anda çalışan önbellek etkilenmez.

Ücretsiz Token Gösterge Panelim

Önceden gösterdiğim ekran görüntüsü, bir token panosundan alınmıştır.

https://github.com/nateherkai/token-dashboard

Bu oldukça basit bir GitHub deposudur. Bağlantıyı Claude Code'a verin, lokal localhost üzerinde dağıtımı tamamlasın, böylece boş bir durumdan başlamak yerine geçmiş tüm oturum kayıtlarınızı okur. Hemen her günün input, output, cache create ve cache read verilerini görebilirsiniz.

Ancak dikkat edilmesi gereken bir nokta var: Bu panonun yerel cihazdaki Token verilerini saydığıdır. Masaüstü bilgisayardan dizüstü bilgisayara geçerseniz, sayılar tamamen aynı olmayacaktır. Her cihazın kendi istatistik görünümü vardır.

Özet

Prompt önbellekleme, derinlemesine incelenebilecek bir konudur. Thariq'in makalesi buradan daha kapsamlı bir şekilde anlatıyor, tam resmi görmek istiyorsanız okumaya değer.

Ancak tüm detayları tamamen anlamadan da fayda sağlayabilirsiniz. Sadece en kritik 80/20 kuralını öğrenmeniz yeterli: Önbelleklenen Token'lar, normal Token'lara göre 10 kat daha ucuzdur; Claude Code'un TTL'si 1 saattir; Model değiştirmek önbelleği bozar; Görevler arasında net bir geçiş yapmak, eski bir oturumun "sona ermesini" bekleyip ardından zorla devam ettirmekten daha karlıdır.

[原文链接]

Dinamik BlockBeats'ta açılan pozisyonları öğrenmek için tıklayın

Lüket BlockBeats resmi topluluğuna katılın:

Telegram abone grubu: https://t.me/theblockbeats

Telegram sohbet grubu: https://t.me/BlockBeats_App

Twitter resmi hesabı: https://twitter.com/BlockBeatsAsia