Aliyun melancarkan caching tersirat untuk Qwen3.7-Max, mengurangkan kos input sehingga 80%

Berdasarkan pemantauan Beating, pasukan Qwen Alibaba mengumumkan bahawa cache tersirat automatik telah diaktifkan secara lalai untuk model unggulan mereka, Qwen3.7-Max, di platform Bailian Alibaba Cloud. Pembangun tidak perlu mengubah kod atau menentukan parameter tambahan untuk menikmati pengurangan kos cache. Dalam mekanisme penagihan baharu, sistem akan mengenal pasti dan mengekstrak awalan konteks berulang dalam permintaan. Apabila cache berjaya dipanggil, kos token input untuk bahagian yang berjaya dipanggil hanya dikenakan pada 20% daripada harga asal, secara langsung menghapuskan 80% kos input. Cache tersirat ini secara langsung menangani kos besar dalam skenario teks panjang dan agen cerdas. Qwen3.7-Max dengan jendela konteks 1 juta token memerlukan pembacaan berulang dan kerap terhadap perpustakaan kod atau dokumen pengetahuan yang besar semasa menjalankan tugas tingkat tinggi seperti pengkodean autonomi. Seorang pembangun yang menguji Qwen3.7 melaporkan bahawa hanya dengan membina demo laman web Tank War dalam masa kurang daripada satu jam, penggunaan token telah mencapai hampir 1 juta. Jika agen cerdas dibiarkan menjalankan semakan kod dan iterasi berulang secara autonomi di latar belakang, penggunaan harian boleh dengan mudah mencapai ratusan juta token. Perang harga cache oleh pesaing merupakan pendorong langsung lain yang menyebabkan penurunan harga oleh Alibaba. Sebelum ini, DeepSeek V4-Pro menarik ramai pembangun dengan harga cache yang sangat rendah. Selepas mengumumkan penurunan harga kekal pada akhir Mei, kos cache berjaya DeepSeek V4-Pro diturunkan kepada hanya US$0.003625 setiap juta token (kira-kira RM0.025), setara dengan penghapusan 99.17% kos input berbanding harga asal. Ramai pembangun, bersama alat khas seperti Reasonix, mampu meningkatkan kadar kejayaan cache hingga 99% dalam sesi panjang, menjadikan bil operasi agen sesi panjang hampir sifar. Menghadapi tekanan persaingan, Qwen3.7-Max tidak hanya melancarkan cache tersirat tanpa sebarang konfigurasi, tetapi juga mengekalkan mod cache eksplisit yang memerlukan pengisytiharan manual tanda cache_control. Berbanding cache automatik, cache eksplisit mempunyai kepastian kejayaan yang lebih tinggi, dengan kos kejayaan serendah 10% (sepuluh peratus) daripada harga input asal. Namun, pada penciptaan pertama cache, dikenakan premium 125%, dan tempoh hayat blok cache hanya 5 minit (masa akan dikira semula setiap kali berlaku kejayaan).