Aliyun lança armazenamento em cache implícito para o Qwen3.7-Max, reduzindo os custos de entrada em até 80%

De acordo com o monitoramento da Beating, a equipe Qwen da Alibaba anunciou a ativação padrão do cache implícito automático para o modelo principal Qwen3.7-Max na plataforma Bailian da Alibaba Cloud. Desenvolvedores podem aproveitar diretamente a redução de custos do cache sem modificar código ou especificar parâmetros adicionais. Sob o novo mecanismo de cobrança, o sistema identifica e extrai automaticamente prefixos de contexto repetidos nas requisições. Quando ocorre um acerto de cache, os tokens de entrada correspondentes à parte acertada são cobrados apenas a 20% do preço unitário original, eliminando diretamente 80% do custo de entrada. O cache implícito visa diretamente os altos custos em cenários de textos longos e agentes inteligentes. O Qwen3.7-Max, com uma janela de contexto de 1 milhão de tokens, precisa ler repetidamente grandes bibliotecas de código ou documentos de conhecimento ao executar tarefas avançadas, como codificação autônoma. Um desenvolvedor que testou o Qwen3.7 relatou que, ao construir um demo web de "Tank Battle" em menos de uma hora, consumiu quase 1 milhão de tokens. Se deixar agentes inteligentes executarem automaticamente revisões de código e iterações em segundo plano, o uso diário pode facilmente atingir centenas de milhões de tokens. A concorrência agressiva em preços de cache entre concorrentes foi outro fator direto que levou à redução de preços da Alibaba. Anteriormente, o DeepSeek V4-Pro atraiu um grande número de desenvolvedores graças ao preço extremamente baixo para acertos de cache. Após anunciar uma redução permanente em maio, o custo de acerto de cache do DeepSeek V4-Pro foi reduzido para apenas US$ 0,003625 por milhão de tokens (aproximadamente R$ 0,025), equivalente a uma eliminação direta de 99,17% do custo em relação ao preço padrão de entrada. Muitos desenvolvedores, utilizando ferramentas especializadas como Reasonix, elevaram a taxa de acerto de cache por sessão até o limite máximo de 99%, fazendo com que as faturas de execução de agentes em sessões longas se aproximem de zero. Diante da pressão competitiva, o Qwen3.7-Max não apenas lançou o cache implícito sem necessidade de configuração, mas também manteve o modo explícito de cache, que exige a declaração manual do indicador cache_control. Em comparação com o cache automático, o cache explícito oferece maior certeza de acerto, com custo reduzido a apenas 10% (10% do preço padrão), mas exige um prêmio de 125% na criação inicial do cache, e cada bloco de cache possui uma vida útil de apenas 5 minutos (tempo reiniciado a cada acerto).