Aliyun ra mắt bộ nhớ đệm ngầm cho Qwen3.7-Max, giảm chi phí đầu vào lên đến 80%

Theo giám sát của Beating, nhóm Qwen của Alibaba đã công bố bật tính năng bộ nhớ đệm ẩn tự động mặc định cho mô hình chủ lực Qwen3.7-Max trên nền tảng BaiLian của Alibaba Cloud. Các nhà phát triển có thể tận dụng bộ nhớ đệm để giảm chi phí mà không cần sửa mã hoặc chỉ định thêm tham số. Dưới cơ chế tính phí mới, hệ thống sẽ tự động nhận diện và trích xuất các tiền tố ngữ cảnh lặp lại trong yêu cầu. Khi xảy ra bộ nhớ đệm trúng, chi phí cho các token đầu vào thuộc phần trúng chỉ tính bằng 20% mức giá gốc, giúp loại bỏ trực tiếp 80% chi phí đầu vào. Bộ nhớ đệm ẩn đặc biệt nhắm vào các chi phí khổng lồ trong các kịch bản văn bản dài và agent thông minh. Qwen3.7-Max với cửa sổ ngữ cảnh lên đến 1 triệu token khi thực hiện các tác vụ cao cấp như mã hóa tự chủ cần đọc lặp đi lặp lại thường xuyên các thư viện mã hoặc tài liệu kiến thức quy mô lớn. Một nhà phát triển thử nghiệm Qwen3.7 cho biết, chỉ mất chưa đầy một giờ để xây dựng demo trang web trò chơi Tank Battle đã tiêu tốn gần 1 triệu token. Nếu để agent tự động thực hiện kiểm tra mã và lặp lại liên tục ở nền, lượng sử dụng trong một ngày có thể dễ dàng đạt hàng trăm triệu token. Áp lực cạnh tranh về giá bộ nhớ đệm từ các đối thủ cũng là yếu tố trực tiếp thúc đẩy Alibaba giảm giá. Trước đó, DeepSeek V4-Pro đã thu hút đông đảo nhà phát triển nhờ mức giá bộ nhớ đệm trúng cực thấp. Sau khi công bố giảm giá vĩnh viễn vào cuối tháng Năm, chi phí bộ nhớ đệm trúng của DeepSeek V4-Pro đã được hạ xuống chỉ còn 0,003625 USD mỗi triệu token (tương đương khoảng 0,025 nhân dân tệ), tương đương với việc loại bỏ trực tiếp 99,17% chi phí so với giá đầu vào tiêu chuẩn. Nhiều nhà phát triển kết hợp với các công cụ chuyên dụng như Reasonix đã đẩy tỷ lệ trúng bộ nhớ đệm trong một phiên làm việc lên tới mức cực đại 99%, khiến hóa đơn vận hành agent trong các phiên dài gần như bằng không. Trước áp lực cạnh tranh, Qwen3.7-Max không chỉ triển khai bộ nhớ đệm ẩn không cần cấu hình, mà vẫn giữ lại chế độ bộ nhớ đệm rõ ràng yêu cầu khai báo thủ công nhãn cache_control. So với bộ nhớ đệm tự động, bộ nhớ đệm rõ ràng có độ xác thực trúng cao hơn, với chi phí trúng chỉ bằng 10% (một折) mức giá đầu vào tiêu chuẩn, nhưng khi tạo bộ nhớ đệm lần đầu tiên phải trả thêm phụ phí 125%, và thời gian sống của khối bộ nhớ đệm chỉ là 5 phút (mỗi lần trúng sẽ được gia hạn lại thời gian).