Aliyun lança armazenamento em cache implícito para o Qwen3.7-Max, reduzindo os custos de entrada em até 80%

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Aliyun introduz cache implícito para o Qwen3.7-Max, reduzindo os custos de entrada em até 80%. A atualização já está ativa no BaiLian, sem necessidade de alterações no código. Os acertos de cache agora custam 20% dos tokens de entrada, ideais para fluxos de trabalho com textos longos e agentes. Novas listagens de tokens podem se beneficiar desse impulso de eficiência. O modelo também suporta cache explícito a 10%, mas requer configuração manual. Notícias sobre preços de criptomoedas frequentemente destacam inovações impulsionadas por redução de custos.

De acordo com o monitoramento da Beating, a equipe Qwen da Alibaba anunciou a ativação padrão do cache implícito automático para o modelo principal Qwen3.7-Max na plataforma Bailian da Alibaba Cloud. Desenvolvedores podem aproveitar diretamente a redução de custos do cache sem modificar código ou especificar parâmetros adicionais. Sob o novo mecanismo de cobrança, o sistema identifica e extrai automaticamente prefixos de contexto repetidos nas requisições. Quando ocorre um acerto de cache, os tokens de entrada correspondentes à parte acertada são cobrados apenas a 20% do preço unitário original, eliminando diretamente 80% do custo de entrada. O cache implícito visa diretamente os altos custos em cenários de textos longos e agentes inteligentes. O Qwen3.7-Max, com uma janela de contexto de 1 milhão de tokens, precisa ler repetidamente grandes bibliotecas de código ou documentos de conhecimento ao executar tarefas avançadas, como codificação autônoma. Um desenvolvedor que testou o Qwen3.7 relatou que, ao construir um demo web de "Tank Battle" em menos de uma hora, consumiu quase 1 milhão de tokens. Se deixar agentes inteligentes executarem automaticamente revisões de código e iterações em segundo plano, o uso diário pode facilmente atingir centenas de milhões de tokens. A concorrência agressiva em preços de cache entre concorrentes foi outro fator direto que levou à redução de preços da Alibaba. Anteriormente, o DeepSeek V4-Pro atraiu um grande número de desenvolvedores graças ao preço extremamente baixo para acertos de cache. Após anunciar uma redução permanente em maio, o custo de acerto de cache do DeepSeek V4-Pro foi reduzido para apenas US$ 0,003625 por milhão de tokens (aproximadamente R$ 0,025), equivalente a uma eliminação direta de 99,17% do custo em relação ao preço padrão de entrada. Muitos desenvolvedores, utilizando ferramentas especializadas como Reasonix, elevaram a taxa de acerto de cache por sessão até o limite máximo de 99%, fazendo com que as faturas de execução de agentes em sessões longas se aproximem de zero. Diante da pressão competitiva, o Qwen3.7-Max não apenas lançou o cache implícito sem necessidade de configuração, mas também manteve o modo explícito de cache, que exige a declaração manual do indicador cache_control. Em comparação com o cache automático, o cache explícito oferece maior certeza de acerto, com custo reduzido a apenas 10% (10% do preço padrão), mas exige um prêmio de 125% na criação inicial do cache, e cada bloco de cache possui uma vida útil de apenas 5 minutos (tempo reiniciado a cada acerto).

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.