Aliyun Meluncurkan Implicit Caching untuk Qwen3.7-Max, Mengurangi Biaya Input hingga 80%

Menurut pemantauan Beating, tim Qwen Alibaba mengumumkan bahwa cache implisit otomatis telah diaktifkan secara default untuk model unggulan mereka, Qwen3.7-Max, di platform BaiLian Alibaba Cloud. Pengembang dapat langsung menikmati pengurangan biaya cache tanpa perlu mengubah kode atau menentukan parameter tambahan. Dalam mekanisme penagihan baru ini, sistem secara otomatis mengenali dan mengekstrak prefiks konteks berulang dalam permintaan. Ketika cache terjadi, biaya token input untuk bagian yang cocok hanya dikenakan 20% dari harga satuan asli, sehingga langsung menghilangkan 80% biaya input. Cache implisit secara langsung menargetkan pengeluaran besar dalam skenario teks panjang dan agen cerdas. Qwen3.7-Max dengan jendela konteks 1 juta token memerlukan pembacaan berulang dan frekuensi tinggi terhadap basis kode atau dokumen pengetahuan besar saat menjalankan tugas tingkat lanjut seperti pengkodean otomatis. Seorang pengembang yang menguji Qwen3.7 melaporkan bahwa hanya dalam waktu kurang dari satu jam untuk membangun demo web Tank War, ia telah menghabiskan hampir 1 juta token. Jika agen cerdas dibiarkan menjalankan tinjauan kode dan iterasi berulang secara otomatis di latar belakang, penggunaan harian dapat dengan mudah mencapai ratusan juta token. Persaingan harga cache dari pesaing merupakan pemicu langsung lainnya yang mendorong penurunan harga Alibaba. Sebelumnya, DeepSeek V4-Pro menarik banyak pengembang dengan harga cache yang sangat rendah. Setelah mengumumkan penurunan harga permanen pada akhir Mei, biaya cache hit DeepSeek V4-Pro diturunkan menjadi hanya $0,003625 per juta token (sekitar Rp0,025), setara dengan penghapusan langsung 99,17% dari biaya input standar. Banyak pengembang, dengan bantuan alat khusus seperti Reasonix, mendorong tingkat cache hit sesi tunggal hingga batas maksimal 99%, sehingga tagihan operasional agen sesi panjang hampir nol. Menghadapi tekanan persaingan, Qwen3.7-Max tidak hanya meluncurkan cache implisit tanpa konfigurasi apa pun, tetapi juga mempertahankan mode cache eksplisit yang memerlukan deklarasi manual flag cache_control. Dibandingkan cache otomatis, cache eksplisit memiliki determinasi hit yang lebih tinggi, dengan biaya hit sebesar 10% (sepuluh persen) dari harga input standar, namun pada pembuatan cache pertama kali dikenakan biaya premium 125%, dan masa berlaku blok cache hanya 5 menit (waktu berlaku akan direset ulang setiap kali terjadi hit).