DeepSeek V4 и Meituan LongCat 2.0 преодолевают барьер в триллион параметров

Китайские ИИ-компании начинают пробивать собственные траектории.

В начале этого года зарубежные технологические круги уделяли большое внимание китайским вычислительным мощностям.

В январе Маск на подкасте заявил, что Китай «значительно превзойдет остальной мир» в вычислительной мощности ИИ. В феврале генеральный директор OpenAI Оттман сказал, что технологический прогресс Китая в области искусственного интеллекта «поразителен». Генеральный директор NVIDIA Хуан Жэньсюнь неоднократно публично заявлял: «Ограничение технологий ИИ в Китае только ускорит его собственную разработку».

2025 год можно назвать годом концентрации предложения на стороне поставщиков. Китайские GPU, такие как Moore Threads и Muxi股份, последовательно выходят на рынок капитала, углубляя промышленную базу китайских крупных моделей. В 2026 году изменения передаются вниз по цепочке поставок: в конце апреля были выпущены новые версии нескольких китайских крупных моделей.

20 апреля «Луна в тени» выпустила модель Kimi K2.6, специализирующуюся на написании длинного кода; 24 апреля была выпущена DeepSeek V4; вслед за этим была открыта предварительная версия LongCat-2.0 от Meituan — обе модели имеют общий объем параметров более триллиона и поддерживают сверхдлинный контекст до 1M.

Стоит отметить, что DeepSeek V4 успешно мигрировал и адаптировался с платформы NVIDIA на платформу Huawei Ascend; а Large Model LongCat2.0 от Meituan — это трёхтриллионный параметрический модель, полностью обучаемый и выводимый на отечественных вычислительных ресурсах, использующий от 50 000 до 60 000 отечественных вычислительных чипов.

Долгое время китайские специалисты в области ИИ придерживались стратегии использования уже существующих зрелых решений. Сейчас китайские ИИ-компании начинают пробивать собственные пути.

Прокладывать дороги в дикой природе

Как выполнить сложную задачу?

Ответ научного фантаста Артура Кларка: «Единственный способ — сделать невозможное отправной точкой для движения вперед».

DeepSeek V4 с момента первоначального анонса до окончательного выпуска несколько раз менял сроки. Внешние наблюдатели предполагают, что одной из причин стало необходимость переноса основного кода с CUDA от NVIDIA.

Экосистема CUDA, отшлифованная в течение десятилетий, представляет собой мощную и полнофункциональную платформу для разработки. Экосистема отечественных вычислительных ресурсов находится на начальной стадии формирования. Процесс миграции кода означает, что команде разработчиков необходимо выполнить значительную работу по рефакторингу нижележащих фреймворков.

В итоге DeepSeek справился с этим: через два дня после выпуска V4 JPMorgan в отчете отметил, что V4 успешно адаптирована под чипы Huawei Ascend, подтвердив жизнеспособность отечественных вычислительных мощностей для передовых задач ИИ-вывода; кроме того, DeepSeek значительно снизила стоимость вывода за счет инноваций в архитектуре смешанного внимания и других базовых технологий.

DeepSeek использует подход технических энтузиастов для снижения затрат и повышения эффективности, выполнив жесткую миграцию, переписав половину объема работы крупной модели. В тот же день открыт для тестирования LongCat-2.0-Preview от Meituan, который работает непосредственно на отечественных вычислительных ресурсах.

На инженерном уровне, какие трудности существуют у отечественных вычислительных мощностей? Взглянем на пример LongCat-2.0-Preview.

Первая трудность — физического характера. Объем и пропускная способность видеопамяти отечественных аппаратных платформ отличаются от характеристик чипов NVIDIA. При обучении и развертывании моделей с триллионами параметров команда Meituan столкнулась со значительными инженерными вызовами, требующими большего внимания к настройке стратегий параллелизма и оптимизации видеопамяти.

Вторая сложность — это зрелость программной экосистемы. Для обеспечения точной воспроизводимости на всех этапах обучения с учетом особенностей отечественных чипов команде необходимо переписать и оптимизировать ключевые операторы, а также разработать собственные полностью детерминированные операторы.

Третья сложность — это стабильность кластера с десятками тысяч чипов. На сверхмасштабном кластере, использующем 50 000–60 000 отечественных вычислительных чипов, аппаратные сбои неизбежны. Для этого команда создала полноценную систему отказоустойчивости и автоматического восстановления.

Наконец, с учетом особенностей отечественного оборудования команда провела целенаправленную оптимизацию обучающей платформы и архитектуры модели, преодолев ограничения адаптации универсальных платформ и повысив вычислительную производительность.

Алгоритмическая оптимизация DeepSeek снизила порог входа для вычислительных ресурсов и снизила стоимость модели; инженерная практика Meituan подтвердила жизнеспособность китайских чипов. Эти исследования также способствовали накоплению инженерных возможностей и опыта для экосистемы китайских чипов.

Лян Вэньфэн когда-то сказал: «Мы не стремились стать сардиной, просто случайно ею стали», и теперь «эффект сардины» уже проявился, и DeepSeek не одинок.

От единичной точки к системе

Тан Даошэн из Tencent Cloud однажды дал такое сравнение: «Большие модели — это двигатель, а пользователи — водители». Пользователи легко замечают производительность двигателя, но отличные водители понимают, что топливо и шасси также важны.

Развитие вычислительных мощностей в Китае зависит от синхронного прогресса всей цепочки поставок. Ключевые компании на каждом этапе постоянно устраняют слабые стороны.

На производственной стороне открытые данные показывают, что объем производства чипов в Китае постоянно растет, однако структура является «гиревой»: на зрелые технологические процессы выше 28 нм приходится абсолютное большинство, а мощности по передовым технологическим процессам 14 нм и ниже остаются дефицитными.

В условиях отсутствия литографических установок EUV компании SMIC и Hua Hong Semiconductor активно разрабатывают такие технологии, как многократное экспонирование, стремясь найти баланс в пределах физических ограничений. Согласно многочисленным сообщениям, выход годной продукции на технологическом узле N+2 (эквивалент 7 нм) SMIC уже превысил 80%, что означает преодоление порога коммерческого массового производства.

На стороне вычислительной мощности китайские чипы все еще уступают NVIDIA по производительности на один чип. Практика продуктов, таких как Huawei Ascend 910C, показывает, что за счет достижения максимального линейного ускорения кластера можно успешно обучать модели огромного масштаба.

Тот, кто овладеет экосистемой, овладеет миром. Одной из ключевых причин глубокого конкурентного преимущества NVIDIA CUDA является формирование универсального стандарта совместимости программного и аппаратного обеспечения.

Отраслевые специалисты также осознают это. Например, Cambricon выпустила базовую программную платформу, совместимую с основными фреймворками, снижая барьеры для миграции разработчиков. Открытая система, инициированная Институтом искусственного интеллекта Zhiyuan, создала единый нижний интерфейс, позволяющий верхним моделям работать на различных китайских чипах.

Крупные китайские интернет-компании также предпринимают много действий: стратегия двойного пути Baidu и инвестиции в размере сотен миллиардов юаней от ByteDance направлены на поиск более эффективных решений для инфраструктуры вычислительных мощностей.

Согласно публичным данным, за последние несколько лет Meituan как минимум инвестировала в 21 компанию, работающую в областях полупроводников/интеллектуального оборудования и универсальных крупных моделей. Среди них — компании, занимающиеся чипами и вычислительной мощностью, такие как Moore Threads и Muxi Semiconductor, а также Aixinyuanzhi в сфере видеочипов, а также такие предприятия, как Guangzhou Zhongshan и Dongfang Suangxin, работающие в сегментах, таких как новые материалы.

На фоне постоянного отслеживания технологических тенденций, индустриальный капитал также выступает инвестором и соучастником в развитии вычислительных мощностей, постепенно формируя положительный цикл.

От цифрового мира к реальным заданиям

Сейчас искусственный интеллект находится на важном переломном моменте третьей волны: крупные модели способствуют переходу от слабого ИИ к общему ИИ, а еще важнее — переводят роботов из эпохи 1.0 специализированных роботов в эпоху 2.0 универсального встроенного интеллекта.

Слова Ван Чжуньюаня, директора Пекинского института искусственного интеллекта Зхиюань, подчеркивают, что ключевая область применения возможностей ИИ — физический мир.

С одной стороны, множество отечественных производителей стремятся заставить крупные модели в облаке «прочитать тысячи книг», повышая интеллект и логическую строгость моделей. С другой стороны, необходимо заставить крупные модели «пройти тысячи миль» — например, большая модель Вэньсинь внедрена в систему принятия решений автономного вождения; промышленное решение по контролю качества с использованием большой модели Хуньюнь уже применяется на нескольких производственных линиях.

Услуги доставки еды, локальных услуг и путешествий Meituan образуют самую сложную сеть выполнения задач в повседневной жизни. Здесь представлены миллионы реальных сценариев: от скорости приготовления блюд на кухне ресторанов до маршрутов курьеров в ливень и до фразы пользователя поздно ночью: «хочу есть горячий горшок».

Ван Синь четко заявил, что приложение Meituan должно быть в первую очередь модернизировано в «приложение, основанное на ИИ». Это означает, что цель обучения LongCat — не только отвечать на вопрос «где вкусное жареное мясо», но и «найти этот ресторан, выбрать лучший купон на групповую покупку, а затем забронировать два столика на пятницу вечером в 7 часов».

Это означает, что эффективность выполнения задач имеет особое значение, а также объясняет, почему Meituan уделяет особое внимание созданию AI-основы для физического мира.

От повышения параметров до реализации вычислительной мощности, отечественные крупные модели проходят переход от «пригодных для использования» к «удобным в применении».

Этот путь не имеет shortcuts. В будущем, когда алгоритмы, вычислительные мощности, капитал и сценарии будут продолжать вызывать химическую реакцию, история китайского ИИ перейдет со страницы «точечного прорыва» на страницу «системной эволюции».

Эта статья взята из официального аккаунта WeChat «Lan Dong Business», автор: Ю Вэйлинь