Согласно данным Beating Monitoring, команда Qwen от Alibaba объявила о включении автоматического неявного кэширования по умолчанию для своей флагманской модели Qwen3.7-Max на платформе Alibaba Cloud Bailian. Разработчикам не требуется изменять код или задавать дополнительные параметры — кэширование для снижения затрат доступно сразу. В рамках новой системы ценообразования система автоматически распознаёт и извлекает повторяющиеся префиксы контекста в запросах. При попадании в кэш стоимость входных токенов, совпадающих с кэшированными данными, снижается до 20% от стандартной цены, что позволяет сэкономить до 80% затрат на ввод. Неявное кэширование напрямую нацелено на снижение огромных расходов в сценариях работы с длинными текстами и агентами. Модель Qwen3.7-Max с контекстным окном в 1 миллион токенов при выполнении сложных задач, таких как автономное кодирование, часто повторно считывает большие кодовые базы или документы знаний. Один разработчик, протестировав Qwen3.7, сообщил, что за менее чем час он создал веб-демо-версию игры «Танки», потратив почти 1 миллион токенов. Если позволить агенту самостоятельно выполнять проверку кода и циклические итерации на фоне, ежедневный объём может легко достигать сотен миллионов токенов. Конкуренция в ценообразовании на кэширование со стороны других компаний стала прямым стимулом для снижения цен Alibaba. Ранее DeepSeek V4-Pro привлёк множество разработчиков благодаря крайне низкой цене за попадание в кэш. После объявления о постоянном снижении цен в конце мая цена за попадание в кэш DeepSeek V4-Pro была снижена до 0,003625 доллара США за миллион токенов (около 0,025 юаня), что соответствует снижению стоимости на 99,17% по сравнению со стандартной ценой ввода. Многие разработчики, используя специализированные инструменты, такие как Reasonix, достигли максимальной частоты попаданий в кэш до 99%, что позволило свести счёт за работу агентов с длинными сессиями почти к нулю. В ответ на конкурентное давление Qwen3.7-Max не только внедрил неявное кэширование без какой-либо настройки, но и сохранил явный режим кэширования, требующий ручного указания метки cache_control. По сравнению с автоматическим кэшированием, явное кэширование обеспечивает более высокую точность попаданий, а стоимость попадания снижена до 10% от стандартной цены ввода (одна десятая). Однако при первоначальном создании кэша взимается надбавка в 125%, а срок жизни кэш-блока составляет всего 5 минут (с каждым попаданием время сбрасывается).
Aliyun запускает скрытое кэширование для Qwen3.7-Max, снижая стоимость ввода до 80%
MarsBitПоделиться






Aliyun внедряет неявное кэширование для Qwen3.7-Max, сокращая стоимость ввода до 80%. Обновление уже доступно на BaiLian, изменения в коде не требуются. Стоимость попаданий в кэш теперь составляет 20% от токенов ввода, что идеально подходит для длинных текстов и рабочих процессов агентов. Новые списания токенов могут воспользоваться этим повышением эффективности. Модель также поддерживает явное кэширование за 10%, но требует ручной настройки. Новости о ценах на криптовалюты часто подчеркивают такие инновации, связанные с снижением затрат.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.