Selon les données de Beating Monitoring, l'équipe Qwen d'Alibaba a annoncé l'activation par défaut du cache implicite automatique pour son modèle phare Qwen3.7-Max sur la plateforme Bailian d'Alibaba Cloud. Les développeurs peuvent profiter directement du réduction des coûts grâce au cache sans modifier leur code ni spécifier de paramètres supplémentaires. Dans le nouveau mécanisme de facturation, le système identifie et extrait automatiquement les préfixes de contexte répétés dans les requêtes. Lorsqu'un cache est atteint, les frais pour les tokens d'entrée correspondant à la partie hit ne représentent plus que 20 % du prix unitaire original, réduisant ainsi directement les coûts d'entrée de 80 %. Ce cache implicite cible spécifiquement les coûts élevés générés dans les scénarios de longs textes et d'agents intelligents. Le Qwen3.7-Max, doté d'une fenêtre de contexte de 1 million de tokens, doit lire fréquemment et répétitivement de vastes bibliothèques de code ou documents de connaissances lors de l'exécution de tâches avancées telles que la programmation autonome. Un développeur ayant testé Qwen3.7 a rapporté qu'il avait consommé près d'un million de tokens en moins d'une heure pour construire une démo web de jeu de tank. Si l'on laisse un agent intelligent exécuter en arrière-plan des revues de code et des itérations répétées, la consommation quotidienne peut facilement atteindre des centaines de millions de tokens. La concurrence accrue en matière de tarification du cache a été un autre facteur direct poussant Alibaba à réduire ses prix. Précédemment, DeepSeek V4-Pro avait attiré un grand nombre de développeurs grâce à ses prix extrêmement bas pour les hits de cache. Après avoir annoncé une baisse permanente fin mai, les frais pour les hits de cache de DeepSeek V4-Pro ont été ramenés à 0,003625 $ par million de tokens (environ 0,025 yuans chinois), soit une réduction directe de 99,17 % par rapport au prix standard d'entrée. De nombreux développeurs, en combinant cet outil avec des outils dédiés comme Reasonix, ont poussé le taux de hit du cache jusqu'à un maximum de 99 % par session, réduisant ainsi les factures d'exécution des agents en session longue à presque zéro. Face à cette pression concurrentielle, Qwen3.7-Max ne se contente pas d'introduire un cache implicite sans aucune configuration, mais conserve également un mode de cache explicite nécessitant la déclaration manuelle de l'indicateur cache_control. Contrairement au cache automatique, le cache explicite offre une détermination plus élevée des hits, avec des frais réduits à seulement 10 % du prix unitaire standard (un dixième), mais nécessite un surcoût de 125 % lors de la création initiale du cache, et le bloc de cache n'a qu'une durée de vie de cinq minutes (chaque hit réinitialise le compte à rebours).
Aliyun lance le cache implicite pour Qwen3.7-Max, réduisant les coûts d'entrée jusqu'à 80 %
MarsBitPartager






Aliyun introduit un cache implicite pour Qwen3.7-Max, réduisant les coûts d'entrée jusqu'à 80 %. La mise à jour est en ligne sur BaiLian, sans nécessiter de modification du code. Les hits de cache coûtent désormais 20 % des jetons d'entrée, idéal pour les workflows de texte long et d'agents. Les nouvelles listings de jetons peuvent bénéficier de cette amélioration d'efficacité. Le modèle prend également en charge le cache explicite à 10 %, mais nécessite une configuration manuelle. Les actualités sur les prix des crypto-monnaies mettent souvent en avant de telles innovations axées sur la réduction des coûts.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.