Berdasarkan pemantauan Beating, pasukan Qwen Alibaba mengumumkan bahawa cache tersirat automatik telah diaktifkan secara lalai untuk model unggulan mereka, Qwen3.7-Max, di platform Bailian Alibaba Cloud. Pembangun tidak perlu mengubah kod atau menentukan parameter tambahan untuk menikmati pengurangan kos cache. Dalam mekanisme penagihan baharu, sistem akan mengenal pasti dan mengekstrak awalan konteks berulang dalam permintaan. Apabila cache berjaya dipanggil, kos token input untuk bahagian yang berjaya dipanggil hanya dikenakan pada 20% daripada harga asal, secara langsung menghapuskan 80% kos input. Cache tersirat ini secara langsung menangani kos besar dalam skenario teks panjang dan agen cerdas. Qwen3.7-Max dengan jendela konteks 1 juta token memerlukan pembacaan berulang dan kerap terhadap perpustakaan kod atau dokumen pengetahuan yang besar semasa menjalankan tugas tingkat tinggi seperti pengkodean autonomi. Seorang pembangun yang menguji Qwen3.7 melaporkan bahawa hanya dengan membina demo laman web Tank War dalam masa kurang daripada satu jam, penggunaan token telah mencapai hampir 1 juta. Jika agen cerdas dibiarkan menjalankan semakan kod dan iterasi berulang secara autonomi di latar belakang, penggunaan harian boleh dengan mudah mencapai ratusan juta token. Perang harga cache oleh pesaing merupakan pendorong langsung lain yang menyebabkan penurunan harga oleh Alibaba. Sebelum ini, DeepSeek V4-Pro menarik ramai pembangun dengan harga cache yang sangat rendah. Selepas mengumumkan penurunan harga kekal pada akhir Mei, kos cache berjaya DeepSeek V4-Pro diturunkan kepada hanya US$0.003625 setiap juta token (kira-kira RM0.025), setara dengan penghapusan 99.17% kos input berbanding harga asal. Ramai pembangun, bersama alat khas seperti Reasonix, mampu meningkatkan kadar kejayaan cache hingga 99% dalam sesi panjang, menjadikan bil operasi agen sesi panjang hampir sifar. Menghadapi tekanan persaingan, Qwen3.7-Max tidak hanya melancarkan cache tersirat tanpa sebarang konfigurasi, tetapi juga mengekalkan mod cache eksplisit yang memerlukan pengisytiharan manual tanda cache_control. Berbanding cache automatik, cache eksplisit mempunyai kepastian kejayaan yang lebih tinggi, dengan kos kejayaan serendah 10% (sepuluh peratus) daripada harga input asal. Namun, pada penciptaan pertama cache, dikenakan premium 125%, dan tempoh hayat blok cache hanya 5 minit (masa akan dikira semula setiap kali berlaku kejayaan).
Aliyun melancarkan caching tersirat untuk Qwen3.7-Max, mengurangkan kos input sehingga 80%
MarsBitKongsi






Aliyun memperkenalkan cache tersirat untuk Qwen3.7-Max, mengurangkan kos input sehingga 80%. Kemas kini ini telah dilancarkan di BaiLian, tanpa perlu perubahan kod. Kesan cache kini berkos 20% daripada token input, sesuai untuk aliran teks panjang dan agen. Senarai token baharu mungkin mendapat manfaat daripada peningkatan kecekapan ini. Model ini juga menyokong cache tersurat pada 10%, tetapi memerlukan pengaturan manual. Berita harga kripto sering menonjolkan inovasi berdasarkan kos seperti ini.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.