Aliyun Meluncurkan Implicit Caching untuk Qwen3.7-Max, Mengurangi Biaya Input hingga 80%

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Aliyun memperkenalkan caching implisit untuk Qwen3.7-Max, mengurangi biaya input hingga 80%. Pembaruan ini sudah aktif di BaiLian, tanpa perlu perubahan kode. Hit caching sekarang biayanya 20% dari token input, ideal untuk alur kerja teks panjang dan agen. Daftar token baru mungkin mendapat manfaat dari peningkatan efisiensi ini. Model ini juga mendukung caching eksplisit sebesar 10%, tetapi memerlukan pengaturan manual. Berita harga kripto sering menyoroti inovasi yang didorong oleh penghematan biaya ini.

Menurut pemantauan Beating, tim Qwen Alibaba mengumumkan bahwa cache implisit otomatis telah diaktifkan secara default untuk model unggulan mereka, Qwen3.7-Max, di platform BaiLian Alibaba Cloud. Pengembang dapat langsung menikmati pengurangan biaya cache tanpa perlu mengubah kode atau menentukan parameter tambahan. Dalam mekanisme penagihan baru ini, sistem secara otomatis mengenali dan mengekstrak prefiks konteks berulang dalam permintaan. Ketika cache terjadi, biaya token input untuk bagian yang cocok hanya dikenakan 20% dari harga satuan asli, sehingga langsung menghilangkan 80% biaya input. Cache implisit secara langsung menargetkan pengeluaran besar dalam skenario teks panjang dan agen cerdas. Qwen3.7-Max dengan jendela konteks 1 juta token memerlukan pembacaan berulang dan frekuensi tinggi terhadap basis kode atau dokumen pengetahuan besar saat menjalankan tugas tingkat lanjut seperti pengkodean otomatis. Seorang pengembang yang menguji Qwen3.7 melaporkan bahwa hanya dalam waktu kurang dari satu jam untuk membangun demo web Tank War, ia telah menghabiskan hampir 1 juta token. Jika agen cerdas dibiarkan menjalankan tinjauan kode dan iterasi berulang secara otomatis di latar belakang, penggunaan harian dapat dengan mudah mencapai ratusan juta token. Persaingan harga cache dari pesaing merupakan pemicu langsung lainnya yang mendorong penurunan harga Alibaba. Sebelumnya, DeepSeek V4-Pro menarik banyak pengembang dengan harga cache yang sangat rendah. Setelah mengumumkan penurunan harga permanen pada akhir Mei, biaya cache hit DeepSeek V4-Pro diturunkan menjadi hanya $0,003625 per juta token (sekitar Rp0,025), setara dengan penghapusan langsung 99,17% dari biaya input standar. Banyak pengembang, dengan bantuan alat khusus seperti Reasonix, mendorong tingkat cache hit sesi tunggal hingga batas maksimal 99%, sehingga tagihan operasional agen sesi panjang hampir nol. Menghadapi tekanan persaingan, Qwen3.7-Max tidak hanya meluncurkan cache implisit tanpa konfigurasi apa pun, tetapi juga mempertahankan mode cache eksplisit yang memerlukan deklarasi manual flag cache_control. Dibandingkan cache otomatis, cache eksplisit memiliki determinasi hit yang lebih tinggi, dengan biaya hit sebesar 10% (sepuluh persen) dari harga input standar, namun pada pembuatan cache pertama kali dikenakan biaya premium 125%, dan masa berlaku blok cache hanya 5 menit (waktu berlaku akan direset ulang setiap kali terjadi hit).

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.