Insinyur Anthropic Berbagi Tips Cache Claude Code untuk Menghemat 300 Juta Token Setiap Minggu

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Seorang insinyur Anthropic membagikan berita on-chain tentang mengoptimalkan Claude Code dengan prompt caching, menghemat lebih dari 300 juta token per minggu. Pengguna menghemat 91 juta token per hari, dengan token yang di-cache hanya biaya 10% dari input biasa. Panduan ini menyoroti menghindari gangguan cache, seperti perubahan model atau sesi menganggur. Tips utama meliputi penggunaan Proyek untuk dokumen besar dan pengelolaan serah terima sesi. Pencatatan token baru mungkin mendapat manfaat dari strategi efisiensi ini.

Catatan editor: Banyak pengguna Claude Code merasa bahwa konsumsi Token terlalu cepat, dan sesi panjang mudah menghabiskan kuota. Namun, dari perspektif insinyur Anthropic, yang benar-benar memengaruhi biaya seringkali bukan seberapa banyak kode yang Anda tulis, melainkan apakah sistem secara konsisten memanfaatkan kembali konteks yang telah diproses sebelumnya.

Inti dari artikel ini adalah bagaimana menggunakan mekanisme cache untuk menghemat Token. Dalam satu minggu, penulis berhasil mengulang penggunaan lebih dari 300 juta Token melalui cache, dengan jumlah cache harian mencapai 91 juta. Karena biaya Token cache hanya 10% dari biaya Token input biasa, ini berarti 91 juta Token cache sebenarnya dikenai biaya setara dengan sekitar 9 juta Token biasa. Percakapan panjang Claude Code tampak lebih "tahan lama" bukan karena model bekerja secara gratis, tetapi karena konteks berulang yang besar berhasil diulang penggunaannya.

Kunci dari caching prompt adalah «jangan mengganggu cache». Claude Code akan menyimpan sistem prompt, definisi alat, CLAUDE.md, aturan proyek, dan riwayat percakapan dalam cache bertingkat; selama awalan permintaan berikutnya tetap konsisten, Claude dapat langsung membaca cache tanpa harus memproses ulang seluruh konteks. Anthropic juga memantau tingkat pemanfaatan cache prompt secara internal, karena hal ini tidak hanya memengaruhi kuota pengguna, tetapi juga secara langsung berkaitan dengan biaya layanan model dan efisiensi operasional.

Untuk pengguna biasa, tidak perlu memahami semua detail dasar, cukup kuasai beberapa kebiasaan kunci: jangan biarkan sesi kosong lebih dari 1 jam; lakukan session handoff saat beralih tugas; hindari sering berganti model; masukkan dokumen besar ke dalam Projects, bukan terus-menerus menempelkannya ke dalam sesi.

Artikel ini lebih merupakan panduan penggunaan Claude Code dengan pendekatan yang lebih mendekati pemikiran insinyur: menganggap konteks sebagai manajemen aset, memanfaatkan cache secara berkelanjutan, dan mengurangi perhitungan berulang dalam sesi panjang.

Berikut adalah teks aslinya:

Saya menghemat 300 juta token minggu ini, 91 juta dalam satu hari, lebih dari 300 juta dalam seminggu.

Claude Code

Saya tidak mengubah pengaturan apa pun. Ini hanyalah cache prompt yang berfungsi normal di latar belakang.

Namun, setelah saya benar-benar memahami apa itu cache dan bagaimana menghindari memutus cache, sesi saya dapat berlangsung lebih lama dengan kuota penggunaan yang sama. Jadi, berikut ini panduan pemula 80/20 untuk caching prompt Claude Code, tanpa membahas detail mendalam pada tingkat API.

TL;DR

Biaya cache Token hanya 10% dari biaya Token input biasa. 91 juta cache Token, biaya aktualnya setara dengan sekitar 9 juta Token.

TTL cache untuk versi berlangganan Claude Code adalah 1 jam; API secara default adalah 5 menit; Sub-agent selalu 5 menit.

Cache dibagi menjadi tiga lapisan: lapisan sistem, lapisan proyek, lapisan percakapan.

Mengganti model di tengah sesi akan merusak cache, termasuk mode yang diaktifkan «opus plan».

Bagaimana cara menghitung biaya cache?

Setiap Token yang di-cache memiliki biaya 10% dari Token input biasa.

Claude Code

Jadi, ketika dashboard saya menunjukkan bahwa 91 juta Token memenuhi cache pada suatu hari, biaya aktualnya kira-kira setara dengan pemrosesan 9 juta Token. Inilah mengapa, dibandingkan tanpa cache, penggunaan Claude Code dalam jangka panjang terasa seperti memperpanjang sesi hampir secara 「gratis」.

Ada dua angka di dasbor yang perlu diperhatikan:

Cache create: Biaya satu kali yang timbul saat menulis konten ke cache. Ini akan mulai berfungsi pada percakapan berikutnya.
Cache read: Token yang digunakan ulang dari cache oleh Claude, seperti CLAUDE.md Anda, definisi alat, pesan sebelumnya, dll. Biayanya 10 kali lebih murah dibandingkan memprosesnya kembali sebagai input.

Claude Code

Jika angka Cache read Anda tinggi, berarti Anda memanfaatkan cache secara efektif; jika angka ini rendah, berarti Anda terus membayar untuk konteks yang sama berulang-ulang.

Thariq dari Anthropic mengatakan satu kalimat yang sangat mengesankan saya: "Kami benar-benar memantau tingkat keberhasilan prompt cache, dan jika tingkat keberhasilannya terlalu rendah, akan memicu alarm, bahkan menyatakan insiden tingkat SEV."

Dia juga menulis artikel X yang sangat baik. Ketika tingkat cache hit tinggi, empat hal terjadi secara bersamaan: Claude Code terasa lebih cepat, biaya layanan Anthropic turun, kuota langganan Anda terasa lebih tahan lama, dan sesi coding jangka panjang menjadi lebih realistis.

Tetapi jika tingkat keberhasilan sangat rendah, semua orang akan dirugikan.

Claude Code

Jadi, insentif kedua belah pihak sebenarnya sama: Anthropic ingin tingkat cache hit Anda lebih tinggi, dan Anda juga ingin tingkat cache hit lebih tinggi. Yang benar-benar akan menghambat hanyalah beberapa kebiasaan kecil yang tampaknya tidak penting tetapi secara diam-diam mereset cache.

Bagaimana cache tumbuh di setiap sesi percakapan?

Cache bergantung pada prefix matching, yaitu 'pencocokan awalan'.

Jangan terjebak dalam detail teknis yang terlalu dalam, Anda hanya perlu memahami satu hal: selama konten sebelum posisi tertentu sama persis dengan konten yang telah di-cache, Claude dapat memanfaatkan kembali Token cache tersebut.

Sebuah sesi baru, kira-kira berjalan seperti ini:

Claude Code

Menurut dokumentasi Claude Code, sesi baru biasanya berjalan seperti ini:

Sesi pertama: Belum ada cache. Petunjuk sistem, konteks proyek Anda (misalnya CLAUDE.md, memory, aturan), serta pesan pertama Anda akan diproses ulang dan ditulis ke cache.

Sesi kedua: Semua konten dari sesi pertama sekarang telah di-cache. Claude hanya perlu memproses balasan baru Anda dan pesan berikutnya. Biaya sesi ini akan jauh lebih rendah.

Sesi ketiga: Logika sama. Percakapan sebelumnya tetap tersimpan di cache, hanya sesi terbaru yang perlu diproses ulang.

Cache itu sendiri dapat dibagi menjadi tiga lapisan:

Claude Code

Dari artikel X Thariq:

Lapisan sistem (System layer): mencakup instruksi dasar, definisi alat (read, write, bash, grep, glob), dan gaya output. Lapisan ini di-cache secara global.

Lapisan proyek (Project layer): mencakup CLAUDE.md, memory, aturan proyek. Lapisan ini di-cache berdasarkan proyek.

Lapisan percakapan (Conversation): mencakup balasan dan pesan, yang terus bertambah seiring setiap putaran percakapan.

Jika ada perubahan apa pun pada tingkat sistem atau tingkat proyek di tengah sesi, seluruh konten harus di-cache ulang dari awal. Ini adalah operasi paling «mahal». Bayangkan: Anda sudah sampai pada pesan ke-16, tiba-tiba prompt sistem diubah, atau sesi terhenti selama satu jam, maka semua Token sejak pesan pertama harus diproses ulang.

Kebingungan 1 jam dan 5 menit

Ini adalah bagian yang paling mudah disalahpahami.

Langganan Claude Code: TTL default adalah 1 jam.

Claude API: TTL default adalah 5 menit. Anda dapat membayar biaya lebih tinggi untuk meningkatkannya menjadi 1 jam.
Sub-agent di bawah rencana apa pun: selalu 5 menit.

Chat web Claude.ai: Tidak ada catatan resmi. Mungkin sama seperti versi berlangganan, tetapi saya belum mengonfirmasi.

Beberapa bulan lalu, banyak orang mengeluh bahwa kuota langganan Claude habis terlalu cepat. Saat itu, ada yang mengira Anthropic diam-diam menurunkan TTL dari 1 jam menjadi 5 menit tanpa memberi tahu pengguna. Namun, kenyataannya tidak demikian, TTL Claude Code tetap 1 jam.

Masalahnya adalah dokumentasi Claude Code dan API dipisahkan, padahal keduanya benar-benar berbeda, sehingga menimbulkan banyak kebingungan.

Jika Anda menjalankan alur kerja Sub-agent dalam jumlah besar, atau menggunakan API secara langsung, maka angka 5 menit ini penting. Namun bagi 95% pengguna Claude Code, yang benar-benar perlu diperhatikan hanyalah jendela 1 jam.

Tiga kebiasaan yang mencakup 95% pengguna

Berikut ini adalah bagian-bagian yang menurut saya benar-benar berguna dalam penggunaan sehari-hari.

Jangan berhenti terlalu lama

Jika Anda telah tidak aktif lebih dari satu jam, konten sebelumnya kemungkinan besar sudah kedaluwarsa di cache. Pesan berikutnya Anda akan membangun ulang cache. Dalam situasi ini, alih-alih melanjutkan sesi lama yang sudah "dingin", lebih baik lakukan serah terima yang jelas dan mulai sesi baru, yang biasanya lebih hemat biaya.

Saat beralih tugas, mulai ulang secara langsung

/compact atau /clear memang akan merusak cache, jadi lebih baik gunakan titik ini untuk benar-benar mereset sekali saja.

Saya membuat keterampilan session handoff sendiri untuk menggantikan /compact. Ini akan merangkum apa yang sudah kami selesaikan, keputusan apa yang masih belum diputuskan, dokumen mana yang paling penting, dan di mana seharusnya kami melanjutkan selanjutnya. Kemudian saya menjalankan /clear, menempelkan ringkasan ini, dan bisa melanjutkan seolah-olah tidak ada gangguan sama sekali.

Perintah compact terkadang juga berjalan lambat. Sementara keterampilan handoff ini biasanya selesai dalam waktu kurang dari satu menit.

Di obrolan Claude, masukkan dokumen besar ke dalam Projects

Mechanisme cache di Claude.ai tidak memiliki penjelasan resmi yang sangat rinci, tetapi Projects jelas menggunakan pendekatan optimasi yang berbeda dibandingkan thread percakapan biasa. Jadi, jika Anda ingin menempelkan dokumen besar, sebaiknya letakkan mereka ke dalam Project, bukan langsung dimasukkan ke dalam percakapan.

Apa saja operasi yang secara diam-diam merusak cache?

Beberapa hal dapat mereset seluruh cache tanpa pemberitahuan yang jelas.

Ganti model: Karena cache bergantung pada pencocokan awalan, dan setiap model memiliki cache sendiri. Setiap kali mengganti model, permintaan berikutnya akan membaca seluruh riwayat ulang tanpa adanya cache yang terpenuhi.

Mode "Opus plan": Pengaturan ini menggunakan Opus selama tahap perencanaan dan Sonnet selama tahap eksekusi. Saya sebelumnya merekomendasikannya dalam beberapa video optimasi token, dan ada alasannya. Namun, perlu dipahami bahwa setiap peralihan plan pada dasarnya adalah pergantian model, yang berarti cache harus dibangun ulang. Dalam jangka panjang, ini tetap membantu memperpanjang kuota sesi, tetapi Anda perlu memahami apa yang sebenarnya terjadi di lapisan bawah.

Sunting CLAUDE.md di tengah sesi diperbolehkan: perubahan ini tidak akan langsung berlaku, tetapi akan diterapkan pada restart berikutnya. Oleh karena itu, cache yang sedang berjalan tidak akan terpengaruh.

Dasbor Token Gratis Saya

Skrin yang saya tampilkan sebelumnya berasal dari sebuah dashboard token.

Claude Code

Ini adalah repositori GitHub yang sangat sederhana. Anda memberikan tautan ke Claude Code, lalu ia melakukan deploy di localhost lokal, dan ia akan membaca seluruh riwayat sesi Anda sebelumnya, bukan mulai dari nol. Anda langsung dapat melihat data input, output, cache create, dan cache read harian.

Namun, ada satu hal yang perlu diperhatikan: dashboard ini menghitung data Token pada perangkat lokal Anda. Jika Anda beralih dari desktop ke laptop, angkanya tidak akan sepenuhnya sama. Setiap perangkat memiliki tampilan statistiknya sendiri.

Summary

Prompt caching adalah sesuatu yang bisa diteliti lebih dalam. Artikel Thariq membahasnya lebih lengkap daripada di sini; jika Anda ingin melihat gambaran lengkapnya, layak untuk dibaca.

Tetapi Anda tidak perlu memahami semua detail secara lengkap untuk mendapatkan manfaat darinya. Anda hanya perlu menguasai 80/20 paling penting: Token cache harganya 10 kali lebih murah daripada token biasa; TTL Claude Code adalah 1 jam; beralih model akan merusak cache; melakukan transisi yang jelas di antara tugas-tugas biasanya lebih menguntungkan daripada terus menggunakan sesi lama hingga “kedaluwarsa”.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.