Token AI Meledak: 500J, 1,3J, dan 18R dalam Satu Malam

Membakar tagihan senilai $500 juta dalam 1 bulan!

Baru-baru ini, dunia teknologi dikejutkan oleh kesalahan besar. Menurut Axios, sebuah perusahaan ternyata menghabiskan hingga 5 miliar dolar AS dalam waktu satu bulan saja di Claude!

Alasannya lucu sekaligus menyedihkan: manajemen lupa menetapkan batas kuota penggunaan saat memberikan izin akses Claude kepada karyawan.

GitHub

Sebenarnya, bukan hanya satu perusahaan saja yang mengalami kebangkrutan akibat tagihan AI.

Pada April tahun ini, seorang pengguna Google Cloud menerima tagihan sebesar $18.000 dalam semalam karena kunci API yang tersisa di layanan publik disalahgunakan, padahal anggaran akunnya awalnya hanya $7.

GitHub

Nama pengguna sial ini adalah Jesse Davies, seorang konsultan AI asal Australia dan pendiri Agentic Labs. Ia memasang dua lapis perlindungan untuk akun Google Cloud-nya: peringatan anggaran sebesar 10 dolar Australia (sekitar 7 dolar AS) dan batas pengeluaran tetap sebesar 1.400 dolar AS.

Menurut Tom's Hardware, penyerang menemukan layanan Cloud Run yang ia rilis beberapa bulan lalu dari AI Studio, mengirim lebih dari 60.000 permintaan, dan kedua lapisan perlindungan gagal menghentikannya: perhitungan tagihan mengalami keterlambatan, sehingga ketika sistem menyadari, jumlahnya telah melonjak menjadi $18.000.

Pada pertengahan Mei, pendiri proyek open-source OpenClaw, Peter Steinberger, memposting tangkapan layar di X: selama 30 hari, tagihan OpenAI API mencapai $1,3 juta.

GitHub

Timnya hanya terdiri dari tiga orang, tetapi mereka mengendalikan 100 agen Codex yang berjalan secara paralel: membakar 60,3 miliar token dalam 30 hari dan menghasilkan 7,6 juta permintaan. Untungnya, USD 1,3 juta bukan dikeluarkan dari kantongnya sendiri.

Steinberger bergabung dengan OpenAI pada Februari tahun ini, dan $1,3 juta ini dianggap sebagai eksperimen internal:

Menguji sejauh mana pemrograman AI bisa berjalan tanpa mempertimbangkan biaya token. Ia menambahkan, ini adalah hasil dari «Fast Mode» Codex, yang jika dimatikan akan sekitar $300.000.

Sebelumnya, CTO Uber, Praveen Neppalli Naga, juga mengakui kepada The Information bahwa perusahaan telah menghabiskan seluruh anggaran Claude Code tahunan pada bulan April, dan COO mereka juga secara terbuka menyatakan bahwa biaya AI semakin sulit untuk dibenarkan.

500 juta, 1,3 juta, 18 ribu, meskipun jumlahnya berbeda beberapa orde, semuanya menunjukkan fakta yang sama:

Di era agen, kunci yang tak terkendali, pasukan agen yang bekerja 24/7, akun yang lupa menetapkan batas atas: satu saja dari ini bisa membuat tagihan Token Anda melonjak dalam semalam.

Mengapa tagihan AI mengalami liquidasi?

Jawabannya terutama tersembunyi dalam perubahan cara penagihan.

Sejak April tahun ini, model berlangganan bulanan OpenAI beralih ke sistem berdasarkan penggunaan Token.

Pada 2 April, penagihan Codex berubah dari berdasarkan estimasi pesan menjadi berdasarkan penggunaan Token: Token input, cache input, dan output dihitung terpisah. Pada 23 April, aturan ini diperluas ke semua paket Enterprise, Edu, Health, dan Gov: diskonto tak terlihat dalam biaya bulanan dihapus.

GitHub juga mengikuti langkah ini, baru saja mengumumkan: Semua paket Copilot akan beralih ke sistem pembayaran berdasarkan penggunaan mulai 1 Juni 2026. Logika permintaan lama dibatalkan dan diganti dengan kuota AI, yang dibayar berdasarkan konsumsi aktual Token masukan, Token keluaran, dan Token cache, sesuai tarif API setiap model.

GitHub

GitHub secara resmi menjelaskan alasan di balik tindakan ini:

Sekarang, pengguna menghabiskan uang yang sama untuk percakapan cepat dan tugas pemrograman mandiri yang berlangsung beberapa jam. GitHub telah membayar biaya untuk pengguna yang menjalankan tugas berat, tetapi model ini tidak lagi berkelanjutan.

Sebelum munculnya agen AI, biaya obrolan dan pelengkapan hampir sama, sehingga biaya langganan bulanan masih terjangkau.

Setelah munculnya agen cerdas, satu tugas dapat berjalan terus-menerus selama beberapa jam dan mengubah seluruh kode basis, perbedaan biaya antara pengguna berat dan pengguna ringan dapat mencapai beberapa orde besar. Sistem langganan bulanan langsung runtuh di hadapan perbedaan ini.

Setelah pesan itu keluar, Reddit dan X langsung heboh.

Seorang pengembang dengan ID JBusu membagikan tangkapan layar tagihannya, secara terbuka menyebut harga baru itu "hanya lelucon". Biaya sebelumnya sebesar $28,12 per bulan kini harus dibayar $746,01 menurut sistem baru; ia telah memutuskan untuk membatalkan langganannya, "Dengan harga ini, saya lebih baik menyewa server cloud sendiri."

GitHub

Pengguna lain menampilkan tangkapan layar yang lebih ekstrem, di mana biaya melonjak dari 50 dolar menjadi 3.000 dolar; ia mengatakan tidak menyangka harga begitu tidak masuk akal, "Masih ada yang terus berlangganan?"

GitHub

Namun, beberapa pengguna lama Copilot keluar untuk membantah: tagihan ekstrem ini sebagian besar dihasilkan oleh vibe-coder yang tidak menganggap serius pembakaran Token, dan belum tentu mewakili penggunaan normal.

Seorang pengguna lama berkomentar: "Saya menggunakannya sepanjang hari, hampir tidak pernah melebihi kuota akhir bulan, sulit percaya ini perbedaan tingkat kompleksitas pekerjaan." Yang lain lebih langsung: "Memang ada yang ingin pengembangan mode YOLO otomatis penuh, membiarkan AI berjalan sembarangan. Penghapusan pemborosan semacam ini justru menguntungkan orang lain."

Ada satu hal yang harus jelas: GitHub tidak menghapus biaya bulanan, harga langganan dasar tidak berubah. Yang benar-benar berubah adalah penggunaan tambahan, tugas agen, dan pemanggilan model yang lebih mahal, mulai sekarang masuk ke sistem pembayaran berdasarkan penggunaan.

Pengguna agen berat yang mengandalkan Copilot untuk menjalankan tugas rantai panjang adalah yang paling terdampak.

Peringkat yang dirusak oleh orang dalam

Biaya bulanan gagal terpenuhi, di satu sisi platform mengubah aturan penagihan, di sisi lain, pengguna AI juga sedang berusaha habis-habisan menghabiskan biaya.

Pada Mei, Business Insider melaporkan bahwa Amazon menarik daftar peringkat penggunaan AI internal bernama KiroRank.

Laporan tersebut mengutip pihak yang mengetahui bahwa daftar ini secara diam-diam mendorong cara kerja yang aneh: sebagian karyawan untuk naik beberapa peringkat di daftar, melakukan pemborosan Token yang tidak menyelesaikan masalah nyata, semata-mata demi peringkat.

GitHub

Setelah insiden ini terungkap, Senior Vice President Amazon, Dave Treadwell, langsung berbicara kepada seluruh karyawan: "Jangan menggunakan AI hanya karena ingin menggunakannya. Gunakanlah untuk memecahkan masalah pelanggan, memecahkan masalah bisnis, dan berinovasi."

Meskipun agak konyol, ini tidak mengejutkan. Ketika "membakar Token" bisa masuk daftar, karyawan pasti akan membakar Token.

Silicon Valley memberikan nama khusus untuk fenomena ini: Tokenmaxxing, menganggap konsumsi sebagai produktivitas.

Laporan Axios juga menyebutkan bahwa seorang CTO menemukan karyawan menggunakan model AI untuk memeriksa cuaca dan menulis email sehari-hari, hal-hal sederhana yang menggunakan model canggih paling mahal, sehingga tagihan bisa meningkat tanpa disadari.

KiroRank bukan sistem penilaian resmi Amazon, melainkan alat tidak resmi yang dibuat oleh karyawan sendiri. Namun, alat ini dengan jelas mengungkapkan hukum manajemen klasik: ketika KPI salah ditetapkan, orang akan menggunakan cara paling cerdas untuk mengeksploitasi celah.

Menganggap "berapa banyak yang digunakan" sama dengan "seberapa baik yang dilakukan"—inilah akar sistematis dari pemborosan AI dalam putaran ini.

Orang yang menghitung token sudah mendapatkan keuntungan

Di sisi lain kecemasan tagihan token, ada yang diam-diam menjadikannya bisnis.

Jalan pertama: Beri makan AI dengan konteks.

Glean adalah perusahaan milik Arvind sendiri. Ia mengembangkan asisten AI untuk perusahaan: menyatukan pengetahuan yang tersebar di seluruh perusahaan, sehingga AI karyawan dapat langsung mengakses konteksnya tanpa perlu mencari-cari di mana-mana. AI menjadi lebih efisien, sehingga penggunaan Token pun berkurang.

Mekanisme ini membuat pendapatan tahunan Glean tumbuh tiga kali lipat dalam 15 bulan, melewati angka $300 juta, dengan klien seperti Databricks, Reddit, dan Samsung.

Jalan kedua: Bagi tugas ke model yang tepat.

Perusahaan rintisan routing model, Factory AI, melakukan hal ini: secara otomatis mengarahkan setiap tugas ke model yang paling tepat, tugas sederhana menggunakan model hemat biaya, tugas kompleks menggunakan model high-end. Arvind juga pernah mengatakan: jika routing dilakukan dengan benar, bisa menghemat hingga 10 kali lipat.

Kedua jalan ini menuju tujuan yang sama: biarkan AI bekerja, tapi jangan biarkan ia boros.

Penelitian di kalangan akademis juga sedang meletakkan dasar untuk peralihan ini.

GitHub

https://arxiv.org/pdf/2604.22750

Sebuah makalah arXiv tahun 2026, pertama kali secara sistematis menguraikan bagaimana tugas pengkodean agen benar-benar menghabiskan uang.

Kesimpulan satu: Konsumsi Token untuk tugas agen dapat mencapai ribuan kali lipat dari inferensi kode dan percakapan kode biasa, dengan penyebab utama kenaikan biaya adalah Token input.

Kesimpulan dua: Menjalankan tugas yang sama beberapa kali dapat menghasilkan perbedaan konsumsi Token hingga 30 kali lipat.

Kesimpulan ketiga: Konsumsi token yang lebih tinggi tidak secara otomatis menghasilkan akurasi yang lebih tinggi. Akurasi sering mencapai puncaknya pada biaya menengah—menghabiskan lebih banyak uang lagi justru membuat efeknya jadi jenuh.

Paper tersebut juga menemukan bahwa model-state-of-the-art bahkan tidak mampu memprediksi berapa banyak Token yang akan mereka habiskan, dan secara umum meremehkan biaya sebenarnya.

Kamu mengira semakin banyak uang yang dikeluarkan, semakin banyak pula yang bisa dilakukan. Padahal, uang sudah habis, pekerjaannya belum tentu lebih baik, dan anggaran masih saja tidak akurat.

Ketika tagihan AI mulai melebihi biaya tenaga kerja

Ini adalah pertama kalinya dalam ingatan saya, biaya teknis mulai sejajar dengan biaya tenaga kerja.

Pada 29 Mei, CEO Glean, Arvind Jain, mengatakan demikian dalam wawancara dengan jurnalis CNBC, Deirdre Bosa.

GitHub

Observasi dari Bryan Catanzaro, Wakil Presiden Deep Learning di NVIDIA, juga memperkuat hal ini.

Dia menyebutkan dalam wawancara dengan Axios: Bagi timnya, biaya komputasi telah jauh melebihi gaji karyawan.

Fenomena serupa sedang muncul di berbagai perusahaan: dari Glean yang fokus pada AI perusahaan, hingga NVIDIA yang menjual daya komputasi AI, hingga Uber yang menggunakan AI, semua sedang meninjau ulang angka-angka ini.

Menurut Arvind, secara historis, teknologi hanyalah sebagian kecil dari biaya keseluruhan perusahaan, tetapi sekarang biaya AI telah menyamai gaji karyawan, dan anggaran AI tahunan banyak perusahaan biasanya habis dalam satu hingga dua bulan.

GitHub

Dalam setahun terakhir, tingkat penggunaan AI menjadi indikator yang dipuja: semakin banyak digunakan, semakin maju; membakar Token berarti merangkul masa depan. Sekarang, banyak perusahaan mulai merefleksikan kalimat sederhana ini: Apa yang sebenarnya didapat dari Token-token yang dibakar itu?

Jendela waktu untuk penggunaan bulanan gratis telah ditutup tepat saat ini.

Selanjutnya, para pengembang dihadapkan pada pertanyaan ini: bagaimana mengelola anggaran dengan cermat agar setiap Token memberikan nilai maksimal.

Pemenang sejati di masa depan, tanpa diragukan lagi, akan menjadi yang pertama belajar menghitung token.

Referensi:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

Artikel ini berasal dari akun WeChat "Sinzhiyuan", penulis: ASI Revelation