阿里雲為 Qwen3.7-Max 推出隱式快取，可將輸入成本降低高達 80%

根據動察 Beating 監測，阿里 Qwen 團隊宣布在阿里雲百煉平台為旗下旗艦模型 Qwen3.7-Max 默認啟用自動隱式快取。開發者無需修改代碼或額外指定參數，即可直接享受快取降本效果。在全新的計費機制下，系統會自動識別並提取請求中的重複上下文前綴。一旦發生快取命中，命中部分的輸入 token 費用僅按原單價的 20% 收取，直接免除八成輸入成本。隱式快取直接針對長文本與 Agent 智能體場景下的巨額開銷。擁有 100 萬 tokens 長上下文視窗的 Qwen3.7-Max 在運行自主編碼等高階任務時，需頻繁、重複讀取龐大的程式碼庫或知識文檔。一名開發者測試 Qwen3.7 後反饋，僅花不到一小時構建坦克大戰網頁 demo，就消耗了接近 100 萬 tokens。若放手讓智能體在後台自主執行程式碼審查與迴圈迭代，單日用量能輕鬆衝上數億 tokens。同行在快取定價上的內捲，是促成阿里降價的另一個直接誘因。此前，DeepSeek V4-Pro 憑藉極低的快取命中價格吸引了大量開發者。在五月底宣布轉為永久降價後，DeepSeek V4-Pro 的快取命中計費被壓至每百萬 tokens 僅 0.003625 美元（約合人民幣 0.025 元），相當於在標準輸入價格基礎上直接免除 99.17% 的成本。大量開發者配合 Reasonix 等專屬工具，將單次會話的快取命中率最高推至 99% 這一極限，使得長會話智能體的運行帳單幾近為零。面對競爭壓力，Qwen3.7-Max 不僅上線了無需任何配置的隱式快取，還保留了需要手動聲明 cache_control 標識的顯式快取模式。相比於自動快取，顯式快取的命中確定性更高，命中費用低至標準輸入單價的 10%（一折），但首次建立快取時需支付 125% 的溢價，且快取塊僅有 5 分鐘的生命週期（每次發生命中可重新計時）。