DeepSeek V4 демонстрирует стабильную производительность на отечественных ИИ-чипах

Статья | Мастерская мировых моделей

DeepSeek V4 снова потряс всю Китай.

Размер параметров, длина контекста, баллы по эталонам… эти технические показатели уже неоднократно сравнивались в различных публикациях.

Но если остановиться только на поверхностных данных, то упускается самая стратегически значимая суть этого выпуска.

В течение последних трех лет китайские крупные модели постоянно оказывались в неловкой ситуации: для обучения и вывода использовались чипы NVIDIA, а отечественные чипы считались лишь резервным вариантом.

Как только NVIDIA прекратит поставки, весь китайский модельный круг будет в тревоге.

Но сегодня DeepSeek V4 доказал своим потенциалом:

Передовая крупная модель с триллионами параметров также может стабильно и эффективно работать на отечественных вычислительных ресурсах.

Значение этого события выходит за рамки самих технических показателей модели.

Прорыв локализации

Чтобы по-настоящему понять сложность этой адаптации к отечественным технологиям, нужно сначала разобраться в империи чипов NVIDIA.

NVIDIA владеет не только чипами, но и полностью замкнутой экосистемой:

На аппаратном уровне имеется семейство GPU-чипов, а также высокоскоростная сеть для взаимосвязи чипов с использованием NVLink и NVSwitch;

На программном уровне CUDA — это AI-операционная система, которую NVIDIA тщательно разрабатывала в течение десятилетий.

Он представляет собой высокооптимизированный завод, в котором вся цепочка — от самых базовых операторов (основных единиц вычислений модели) до параллельных вычислений, управления памятью и распределённой связи — полностью адаптирована под GPU NVIDIA.

Другими словами, NVIDIA продает не только двигатели, но и прокладывает дороги, строит заправки, обслуживает сервисные центры и настраивает навигационные системы.

Почти все ведущие мировые крупные модели развиваются в этой экосистеме.

Переключение на отечественные вычислительные мощности сталкивается с совершенно иной ситуацией.

Различия в аппаратной архитектуре, способах взаимодействия, уровне зрелости программного стека и то, что экосистема инструментов все еще активно догоняет.

DeepSeek хочет адаптироваться под китайские чипы — это не просто замена двигателя, а переход с высокоскоростной автострады на горную дорогу, которая всё ещё находится в стадии строительства.

Небольшая ошибка может привести к дрожанию, потере мощности или даже полной остановке всего транспортного средства.

На этот раз DeepSeek V4 не ограничился дальнейшей оптимизацией только по пути CUDA, а начал одновременно адаптироваться к программному стеку отечественных вычислительных ресурсов.

Согласно открытой информации, V4 уже достиг прорыва на основе отечественных чипов для вывода, глубоко оптимизирован для чипа Huawei Ascend 950 и стабильно работает на чипах Cambricon в день выпуска модели, обеспечивая настоящую совместимость с Day 0.

Это означает, что передовые модели теперь начинают обладать возможностью внедрения в отечественную чиповую систему.

Как DeepSeek V4 этого добился?

Первый шаг происходит на уровне архитектуры модели.

V4 не выбрал вариант заставить отечественные чипы справляться с контекстом в 1 М, а сначала сделал саму модель более экономичной.

Ключевыми дизайн-решениями в официальном техническом отчете являются гибридный механизм внимания CSA + HCA и оптимизации длинного контекста, такие как сжатие KV Cache.

Проще говоря, традиционные длинные контекстные рассуждения заставляют модель при каждом ответе на вопрос раскрывать всю библиотеку целиком, что быстро исчерпывает видеопамять, пропускную способность и вычислительные ресурсы.

Подход V4 заключается в том, чтобы сначала повторно индексировать, сжимать и фильтровать материалы из библиотеки, отправляя только самые ключевые данные в вычислительную цепочку.

Таким образом, контекст объемом 1M больше не зависит исключительно от аппаратной мощности, а сначала сокращает вычислительную и видеопамятную нагрузку с помощью алгоритмов.

This is crucial for domestic chips.

Если модель по-прежнему сильно зависит от пропускной способности видеопамяти и зрелых библиотек CUDA, даже если отечественные чипы могут запускать её, им будет сложно делать это дешево и стабильно.

V4 сначала снижает нагрузку на вывод, что по сути уменьшает нагрузку на отечественные вычислительные мощности.

Второй шаг происходит на уровне архитектуры MoE и слоя активационных параметров.

Хотя общее количество параметров V4-Pro достигает 1,6 триллиона, при каждом выводе активируется около 49 миллиардов параметров; общее количество параметров V4-Flash составляет 284 миллиарда, при каждом выводе активируется около 13 миллиардов параметров.

Это означает, что он не извлекает и не вычисляет все параметры при каждом вызове, а действует как крупная команда экспертов: задача поступает — вызывается только соответствующий эксперт.

Это также важно для отечественных чипов.

Это снижает вычислительную нагрузку, которую необходимо нести при каждом выводе, и делает длинные контексты и сценарии с агентами более легко воспринимаемыми для карт вывода.

Третий шаг — адаптация операторов и ядер.

Самое сильное место экосистемы CUDA — это то, что множество низкоуровневых вычислений уже тщательно отработаны NVIDIA, и многие высокопроизводительные вычисления можно использовать напрямую.

Значение V4 заключается в том, что часть ключевых вычислений извлекается из черного ящика NVIDIA и превращается в более переносимые и адаптируемые пользовательские вычислительные пути.

Проще говоря, V4 — это как разобрать самые важные детали двигателя, чтобы такие компании, как Huawei Ascend и Cambricon, могли настроить их под свою архитектуру чипов.

Четвертый шаг — это инференс-фреймворк и сервисный слой.

Если адаптация отечественных чипов ограничивается только «запуском демо», то промышленное значение этого невелико. Настоящее внимание стоит уделить тому, сможет ли он войти в систему услуг, доступных для использования и оплаты.

По результатам внутреннего тестирования на Ascend 950PR скорость вывода V4 значительно повысилась по сравнению с предыдущими версиями, а энергопотребление также заметно снизилось; производительность одной карты в определенных сценариях низкой точности превышает в два раза производительность специальной версии NVIDIA H20.

Официальный представитель DeepSeek отметил, что текущая версия V4-Pro ограничена высокопроизводительными вычислительными ресурсами и имеет ограниченную пропускную способность; ожидается, что после массового выхода суперузлов Ascend 950 во второй половине года цена значительно снизится.

Это означает, что с серийным производством отечественного оборудования, такого как Ascend, пропускная способность и соотношение цены и качества V4 в будущем将进一步 оптимизированы.

Однако стоит отметить, что V4 полностью не заменил GPU и CUDA от NVIDIA. Обучение моделей может по-прежнему зависеть от NVIDIA, но вывод уже может постепенно локализоваться в Китае.

Это на самом деле очень реальный бизнес-путь.

Обучение — это поэтапные затраты: один раз обучить, один раз настроить, один раз итерировать. Вывод — это постоянные расходы: ежедневно миллионы, миллиарды пользователей обращаются к системе, и каждый запрос требует вычислительных ресурсов.

Основные расходы компаний, разрабатывающих модели, в долгосрочной перспективе всё больше будут смещаться в сторону инференса. Тот, кто сможет более дешево и стабильно справляться с потребностями в инференсе, получит реальное преимущество в промышленных применениях.

DeepSeek V4 впервые предоставил путь для развертывания вывода передовых китайских моделей, не основанный на CUDA от NVIDIA по умолчанию.

Этот шаг уже достаточно значим.

Влияние V4 на промышленное применение

Если вопрос о совместимости отечественных чипов — это можно ли запустить, то вопрос о цене — это другой, более реальный вопрос:

Могут ли компании себе это позволить?

Раньше самым сильным местом DeepSeek было то, что он мог снизить стоимость, близкую к возможностям передовых моделей, до крайне низкого уровня.

Так было в эпоху V3 и R1, так же и в V4.

Отличие в том, что на этот раз он не ведет ценовую войну в обычном контекстном окне, а продолжает снижать цены при условии контекста 1M и возможностях агента.

Согласно официальной цене DeepSeek:

Вход с попаданием в кэш V4-Flash: 0,2 юаня за миллион токенов, вход без попадания в кэш: 1 юань за миллион токенов, выход: 2 юаня за миллион токенов;

Для V4-Pro стоимость ввода при попадании в кэш составляет 1 юань за миллион токенов, при промахе кэша — 12 юаней за миллион токенов, стоимость вывода — 24 юаня за миллион токенов.

Поместите его в контекст аналогичных отечественных моделей:

По сравнению с Alibaba Qwen3.6-Plus в диапазоне 256K–1M, стоимость вывода V4-Pro составляет примерно половину, а V4-Flash — еще ниже.

По сравнению с серией Xiaomi MiMo Pro в диапазоне 256K–1M, V4-Flash и V4-Pro значительно дешевле.

Контекст Kimi K2.6 составляет 256K, в то время как у V4-Pro контекст длиннее, а цена ниже; V4-Flash снижает стоимость частых вызовов до другого уровня.

This has great significance for enterprise applications.

Поскольку контекст объемом 1M означает, что модель может за один раз прочитать весь репозиторий кода, толстый пакет договоров, несколько сотен страниц проспекта, длительные протоколы встреч или историческое состояние, накопленное агентом при последовательном выполнении задач.

Раньше многие корпоративные приложения застревали на этом этапе: у модели достаточно возможностей, но недостаточно контекста; контекста достаточно, но цена слишком высока; цена приемлема, но возможности модели недостаточно стабильны.

Например, предприятие создает агента для инвестиционных исследований, чтобы модель одновременно анализировала годовые отчеты компаний, телеконференции по финансовым результатам, отчеты по отрасли, новости о конкурентах и внутренние протоколы.

Когда контекст составляет только 128K или 256K, система часто должна постоянно разбивать, извлекать и суммировать информацию, в результате чего данные теряются при многократном сжатии.

Контекст в 1M позволяет модели сохранять больше исходного материала, снижая вероятность пропусков и обрывов.

Например, агент кода.

Это не просто написание нескольких строк кода за раз, а чтение репозитория, понимание зависимостей, изменение файлов, запуск тестов и устранение ошибок на основе сообщений об ошибках. Этот процесс многократно расходует токены.

Если каждый шаг стоит дорого, агент может выполнять только демонстрации, но если токены достаточно дешевы, он может перейти к реальному процессу разработки.

Это также промышленная ценность V4.

Он未必是最强模型，但可能成为企业最高频的模型。

DeepSeek снова превратил ИИ из эксклюзивной игрушки немногих крупных компаний в инструмент производительности, который можно масштабно внедрить во множество отраслей.

Настоящая ценность V4

Когда 1M контекста выходит на промышленный уровень по крайне низкой цене, настоящий вес DeepSeek V4 проявляется полностью.

Всё это построено на основе ещё несовершенной отечественной вычислительной мощности.

面对国产芯片生态的系统性差距，DeepSeek团队没有选择等生态成熟再上线。

Они неоднократно откладывали сроки выпуска, потратив месяцы на глубокую совместную настройку с партнерами, такими как Huawei — инженерная сложность этого проекта намного превышает представления внешнего мира.

Поэтому достижение V4, позволившее достичь практически уровня ведущих закрытых моделей в выводе и возможностях агента на отечественных вычислительных ресурсах, особенно сложно.

V4 сама по себе доказывает, что даже при наличии временных различий в аппаратной экосистеме китайская команда может достичь конкурентоспособной производительности за счет экстремальных инженерных усилий и совместных инноваций в области программного и аппаратного обеспечения.

Of course, there is still a gap to full maturity.

Инструментальная цепочка платформы Ascend, стабильность сверхкрупных кластеров и глубокая оптимизация для большего числа вертикальных сценариев требуют дальнейших совместных усилий всех участников отрасли.

Но успех V4 проложил путь, который можно использовать в качестве ориентира для последующих моделей.

Это стало мощным стимулом для обеспечения автономии и контроля всей цепочки поставок ИИ.

В условиях текущей неопределенности внешней среды эта стойкость, способная преодолевать ограничения, заслуживает большего уважения, чем простые параметрические показатели.

Не поддавайтесь славе, не бойтесь клеветы, следуйте путем и будьте искренни с самими собой.

Это предложение от официального источника DeepSeek — лучшее пояснение к нему.