Заметки изнутри китайских лабораторий ИИ
Автор оригинала: Nathan Lambert
Компиляция: Peggy, BlockBeats

Редакционная заметка: Китайские лаборатории ИИ становятся все более значимой силой в глобальной конкуренции крупных моделей. Их преимущество заключается не только в большом количестве талантов, сильной инженерной базе и быстрой итерации, но и в реалистичной организационной модели: меньше говорить о концепциях, больше создавать модели; меньше акцентировать внимание на индивидуальных звездах, больше на командном исполнении; меньше полагаться на внешние сервисы, больше стремиться к самостоятельному владению ключевыми технологическими стеками.

Автор статьи Натан Ламберт, посетив ведущие китайские лаборатории ИИ, обнаружил, что китайская экосистема ИИ не совсем такая же, как американская. США больше внимания уделяют оригинальным парадигмам, капиталовложениям и личному влиянию ведущих ученых; Китай же лучше справляется с быстрым догоняющим развитием в существующих направлениях, используя открытый код, инженерную оптимизацию и значительный вклад молодых исследователей для быстрого вывода возможностей моделей на передний край.

Самое важное — не то, превзошла ли Китайская ИИ-индустрия американскую, а то, что формируются два разных пути развития: США больше похожи на передовую гонку, движимую капиталом и звездными лабораториями, тогда как Китай скорее представляет собой отраслевую гонку, продвигаемую инженерными возможностями, открытой экосистемой и осознанием технологической автономии.

Это означает, что будущая конкуренция в области ИИ будет не только за места в рейтингах моделей, но и за организационные способности, экосистему разработчиков и промышленную исполнительную мощь. Настоящие изменения в китайском ИИ заключаются в том, что он больше не просто копирует Силиконовую долину, а участвует в глобальных передовых разработках своим собственным способом.

Следующий текст:

Сидя в новом высокоскоростном поезде из Ханчжоу в Шанхай, я смотрю в окно и вижу четко выраженные хребты гор, на которых разбросаны ветровые турбины, создающие силуэты на фоне заката. Горы служат фоном, а перед глазами — обширные поля и чередующиеся друг с другом высотные здания.

Я вернулся из Китая с большим смирением. Попасть в такое чужое место и встретить столь тёплый приём — это было очень тёплое и по-человечески тёплое переживание. Мне посчастливилось встретиться с многими людьми из экосистемы ИИ, которых я раньше знал только на расстоянии; они встретили меня с яркими улыбками и энтузиазмом, напомнив мне, что моя работа и вся экосистема ИИ в целом носят глобальный характер.

Менталитет китайских исследователей

Китайские компании, разрабатывающие языковые модели, могут быть очень хорошо подходящими «быстрыми последователями» этой технологии. Они основаны на давних традициях китайской образовательной и трудовой культуры, а также используют несколько иной подход к созданию технологических компаний по сравнению с западными.

Если рассматривать только результаты — самые новые и крупные модели, а также рабочие процессы на основе агентов, которые они поддерживают, — и факторы вложений, такие как выдающиеся ученые, масштабные данные и ускоренные вычислительные ресурсы, то китайские и американские лаборатории выглядят в целом схожими. Настоящие долгосрочные различия проявляются в том, как эти элементы организованы и формируются.

Я всегда считал, что одной из причин, по которым китайские лаборатории так хорошо справляются с догонянием и удержанием позиций на переднем крае, является их культурная совместимость с этой задачей. Однако до тех пор, пока я не пообщался напрямую с людьми, я не чувствовал себя достаточно уверенно, чтобы приписать эту интуицию какому-либо значительному влиянию. После общения со многими выдающимися, скромными и открытыми учеными из ведущих китайских лабораторий мои представления стали гораздо яснее.

Сегодня создание лучшей большой языковой модели во многом зависит от тщательной работы на всех уровнях технологического стека: от данных до архитектурных деталей и реализации алгоритмов усиленного обучения. Каждый этап модели может принести некоторое улучшение, и объединение этих улучшений — сложный процесс. В ходе этого процесса работа некоторых очень талантливых людей может быть отложена, чтобы обеспечить максимальную эффективность модели в многокритериальной оптимизации.

Американские исследователи, очевидно, также отлично справляются с решением проблем отдельных компонентов, но в Америке существует более выраженная культура «защищать свои интересы». Как ученому, когда вы активно добиваетесь внимания к своей работе, вы, как правило, достигаете большего успеха; современная культура также продвигает новый путь к славе — стать «ведущим ученым в области ИИ». Это вызывает прямой конфликт.

Широко распространены слухи, что организация Llama развалилась под политическим давлением после того, как эти интересы были встроены в иерархическую структуру. Я также слышал от других лабораторий, что иногда необходимо «успокоить» ведущего исследователя, чтобы он перестал жаловаться, что его идеи не были включены в финальную модель. Независимо от того, насколько это правдиво, смысл ясен: самосознание и стремление к карьерному росту действительно мешают созданию наилучших моделей. Даже небольшая культурная разница в направлении между США и Китаем может оказать значимое влияние на конечный результат.

Часть этих различий связана с тем, кто именно в Китае разрабатывает эти модели. Во всех лабораториях очевидна следующая реальность: значительная доля ключевых участников — это студенты, обучающиеся в настоящее время. Эти лаборатории довольно молоды, что напоминает нам о том, как мы организованы в Ai2: студенты рассматриваются как коллеги и непосредственно включаются в команды по разработке крупных языковых моделей.

Это сильно отличается от ведущих лабораторий в США. В США такие компании, как OpenAI, Anthropic и Cursor, вообще не предлагают стажировки. Другие компании, такие как Google, формально предлагают стажировки, связанные с Gemini, но многие опасаются, что их стажировка окажется изолированной от настоящей ключевой работы.

В целом, эти незначительные культурные различия могут повысить способность модели к построению следующим образом: для улучшения конечной модели люди охотнее занимаются менее привлекательной работой; новички, только начинающие участвовать в создании ИИ, могут быть не подвержены влиянию предыдущих циклов ажиотажа вокруг ИИ и поэтому быстрее адаптируются к современным методам; на самом деле, один из китайских ученых, с которым я общался, прямо указал на это как на преимущество: более низкий уровень самосознания делает организационную структуру в некоторой степени более масштабируемой, поскольку люди меньше стремятся «обмануть систему»; огромное количество талантов отлично подходит для решения задач, где уже есть доказательства концепции в других местах, и т.д.

Это лучше соответствует текущей тенденции развития языковых моделей и противоречит известному стереотипу: часто считается, что китайские исследователи реже создают более креативные, новаторские научные работы «от нуля до единицы».

Во время нескольких более академических посещений лабораторий в ходе этой поездки многие руководители отметили, что они развивают более амбициозную исследовательскую культуру. В то же время некоторые технические руководители, с которыми мы общались, сомневаются, что такое переосмысление научного подхода возможно в краткосрочной перспективе, поскольку оно требует переработки образовательной и стимулирующей систем, а такие изменения слишком масштабны, чтобы произойти при текущем экономическом равновесии.

Эта культура, похоже, готовит целую волну студентов и инженеров, отлично владеющих «игрой в построение крупных языковых моделей». Конечно, их количество также чрезвычайно велико.

Эти студенты рассказали мне, что в Китае также происходит аналогичный отток талантов, как в США: многие, кто ранее планировал карьеру в академической сфере, теперь намерены остаться в промышленности. Самой интересной фразой стала заявление исследователя, который изначально хотел стать профессором, потому что хотел быть ближе к образовательной системе; однако он затем добавил, что образование уже решено с помощью больших языковых моделей — «Зачем студентам теперь приходить ко мне на разговоры!»

Студенты, входящие в область больших языковых моделей с новым взглядом, имеют это преимущество. За последние несколько лет мы наблюдали постоянные изменения ключевых парадигм больших языковых моделей: от масштабирования MoE до масштабирования обучения с подкреплением и поддержки агентов. Для успешного выполнения любого из этих направлений требуется чрезвычайно быстрое усвоение огромного объема контекстной информации — как из более широкой научной литературы, так и из внутренних технологических стеков компании.

Студенты привыкли заниматься подобным и готовы с скромностью отложить в сторону все предположения о том, что должно работать. Они погружаются в это, вкладывая всю свою жизнь, лишь бы получить возможность улучшить модель.

Эти студенты также удивительно прямолинейны и не впадают в философские отвлечения, которые могут отвлечь ученых. Когда я спрашивал их о восприятии экономического влияния модели или долгосрочных социальных рисках, китайских исследователей с комплексными взглядами, желающих влиять на эти вопросы, оказалось значительно меньше. Они считают своей задачей создание наилучших моделей.

Эта разница тонкая и легко отрицается. Но она наиболее ощутима, когда вы долго разговариваете с элегантным, умным исследователем, который может ясно выражать мысли на английском языке: когда вы задаете более философские вопросы об ИИ, эти базовые вопросы висят в воздухе, и на лице собеседника появляется простое недоумение. Для них это ошибка категории.

Даже один исследователь сослался на известное утверждение Дан Ванга: в отличие от США, где доминируют юристы, Китай управляется инженерами. При обсуждении этих вопросов он использовал эту аналогию, чтобы подчеркнуть их стремление к созданию. В Китае нет системного пути, который мог бы воспитать звездную популярность китайских ученых, подобно суперпопулярным подкастам вроде Dwarkesh или Lex.

Я пытался заставить китайских ученых прокомментировать будущую экономическую неопределенность, вызванную ИИ, вопросы, выходящие за рамки простых способностей AGI, или этические споры о том, как должны вести себя модели; в конечном итоге все эти вопросы позволили мне увидеть их воспитание и образование (отредактировано 1). Они чрезвычайно сосредоточены на своей работе, но выросли в системе, которая не поощряет обсуждение и выражение того, как должно организовываться общество и как оно должно меняться.

Когда вы отступаете и смотрите шире, особенно на Пекин, у меня возникает ощущение, что он похож на залив: лаборатория с высокой конкуренцией, где следующая инновация может находиться всего в нескольких минутах ходьбы или поездки на такси. После приземления я заехал в кампус Alibaba в Пекине по пути в отель. В течение следующих 36 часов мы посетили Zhipu AI, Moonshot AI, Цинхуа-университет, Meituan, Xiaomi и 01.ai.

В Китае удобно пользоваться DiDi. Если вы выбираете автомобиль класса XL, вам часто выделяют электрический минивэн с массажными сиденьями. Мы спросили исследователей о борьбе за таланты, и они сказали, что это очень похоже на то, что мы переживали в США. Смена места работы исследователями — это нормально, и люди выбирают, куда идти, в основном исходя из того, где сейчас лучшая атмосфера.

В Китае сообщество больших языковых моделей воспринимается скорее как экосистема, а не как племена, враждующие друг с другом. Во многих закрытых разговорах я слышал почти исключительно уважение к коллегам. Все китайские лаборатории испытывают опасения перед ByteDance и ее популярной моделью Doubao, поскольку это единственная передовая закрытая лаборатория в Китае. В то же время все лаборатории глубоко уважают DeepSeek, считая ее лабораторией с наибольшим научным вкусом на уровне реализации. В США, когда вы ведете закрытые беседы с членами лабораторий, искры часто начинают лететь сразу.

Самым впечатляющим для меня в скромности китайских исследователей является то, что они часто пожимают плечами и говорят, что это не их проблема, даже на коммерческом уровне. В США, кажется, каждый одержим различными отраслевыми тенденциями на экосистемном уровне — от продавцов данных до вычислительных мощностей и финансирования.

Отличия и сходства китайской индустрии ИИ и западных лабораторий

Сегодня создание ИИ-модели стало таким интересным, потому что это уже не просто сбор группы выдающихся исследователей в одном здании для совместной работы над инженерным чудом. Раньше это действительно было так, но для поддержания ИИ-бизнеса крупные языковые модели превращаются в гибрид: они включают в себя создание, развертывание, финансирование и продвижение внедрения этого творения.

Крупнейшие ИИ-компании существуют в сложной экосистеме. Эти экосистемы обеспечивают финансирование, вычислительные мощности, данные и другие ресурсы для постоянного продвижения передовых технологий.

В западной экосистеме способы интеграции различных ресурсов, необходимых для создания и поддержания крупных языковых моделей, уже относительно хорошо концептуализированы и визуализированы. Anthropic и OpenAI являются типичными примерами. Таким образом, если мы сможем выявить существенные различия в подходах к этим вопросам китайских лабораторий, это поможет понять, на каких значимых различиях могут сосредоточиться различные компании в будущем. Конечно, эти будущие сценарии также будут сильно влиять финансирование и/или ограничения вычислительных мощностей.

Я свел основные выводы на «промышленном уровне ИИ», полученные в ходе общения с этими лабораториями, следующим образом:

Во-первых, внутри страны уже появились ранние признаки спроса на ИИ.
Существует широко обсуждаемая гипотеза, согласно которой китайский рынок ИИ будет меньше, поскольку китайские компании обычно не хотят платить за программное обеспечение, и поэтому никогда не смогут создать достаточно крупный рынок вывода для поддержки лабораторий.

Но это суждение применимо только к расходам на программное обеспечение, соответствующие экосистеме SaaS. Экосистема SaaS в Китае исторически была небольшой. С другой стороны, Китай, очевидно, по-прежнему имеет огромный рынок облачных услуг.

Один из ключевых и пока неотвеченных вопросов: будут ли расходы китайских компаний на ИИ скорее похожи на рынок SaaS — то есть небольшого масштаба — или на рынок облачных услуг — то есть фундаментальные расходы. Этот вопрос обсуждается даже внутри китайских лабораторий. В целом, я чувствую, что ИИ все больше приближается к рынку облачных услуг, и никто по-настоящему не беспокоится о том, что рынок, сформированный новыми инструментами, не сможет расти.

Во-вторых, большинство разработчиков сильно подвержены влиянию Claude.
Несмотря на то, что Claude формально заблокирован в Китае, большинство китайских разработчиков ИИ безумно увлечены Claude и тем, как он изменил способ создания ими программного обеспечения. То, что Китай ранее не был склонен покупать программное обеспечение, не означает, что я считаю, что в Китае не произойдет огромного роста спроса на вычисления.

Китайские технические специалисты очень практичны, скромны и мотивированы. Это впечатление у меня сильнее, чем любая историческая привычка «не платить за программное обеспечение».

Некоторые китайские исследователи упоминают, что используют собственные инструменты для построения, такие как командные строки Kimi или GLM, но все они отмечают использование Claude. Неожиданно мало кто упоминает Codex, хотя Codex явно быстро набирает популярность в Заливе.

В-третьих, китайские компании обладают установкой на владение технологиями.
Китайская культура сочетается с мощным экономическим двигателем, порождая некоторые непредсказуемые результаты. Одним из самых ярких впечатлений, которые у меня остались, является огромное количество моделей ИИ, отражающих практичный баланс, существующий среди многих технологических компаний здесь. Единого плана не существует.

Эта отрасль определяется уважением к ByteDance и Alibaba. Они считаются крупными устоявшимися игроками, которые благодаря своим мощным ресурсам одержат победу на многих рынках. DeepSeek — это уважаемый технологический лидер, но далеко не лидер рынка. Они задают направление, но не обладают структурой для экономической победы на рынке.

Это оставляет такие компании, как Meituan или Ant Group. Западные наблюдатели могут удивиться, почему и они также разрабатывают эти модели. На самом деле, они очевидно рассматривают крупные языковые модели как сердцевину будущих технологических продуктов и поэтому нуждаются в надежной базе.

Когда они дообучаются на мощной универсальной модели, обратная связь от открытого сообщества делает их технологический стек более надежным, в то время как они могут сохранять внутренние версии дообученных моделей для своих продуктов. «Открытость в приоритете» в этой индустрии в значительной степени определяется прагматизмом: это помогает моделям получать качественную обратную связь, вносить вклад в открытое сообщество и поддерживать их собственную миссию.

В четвертых, государственная поддержка существует, но ее масштаб неизвестен.
Люди часто утверждают, что китайское правительство активно помогает открыть конкурс больших языковых моделей. Но это относительно децентрализованная система правительства, состоящая из многих уровней, и на каждом уровне нет четкого руководства, определяющего, что именно следует делать.

Разные районы Пекина конкурируют друг с другом, стремясь привлечь технологические компании для открытия офисов в своих районах. «Помощь», предоставляемая этим компаниям, почти наверняка включает устранение бюрократических препон, таких как упрощение процедур получения лицензий. Но насколько далеко может зайти такая помощь? Могут ли различные уровни правительства помочь привлечь квалифицированных кадров? Могут ли они помочь в контрабанде чипов?

В течение всего визита действительно было много упоминаний о интересе или помощи со стороны правительства, но соответствующая информация далеко недостаточна, чтобы я мог сообщить детали утверждительно или сформировать уверенную мировоззренческую позицию относительно того, как правительство может изменить траекторию развития ИИ в Китае.

Кроме того, совершенно нет признаков того, что высшее руководство Китайской Народной Республики влияет на какие-либо технические решения модели.

Пятое, отрасль данных значительно менее развита, чем на Западе.
Ранее мы слышали, что Anthropic или OpenAI тратят более 10 миллионов долларов на одну среду, а ежегодные совокупные расходы на продвижение передовых технологий усиленного обучения достигают сотен миллионов долларов. Поэтому нас интересует, покупают ли китайские лаборатории те же среды у американских компаний или существует зеркальная внутренняя экосистема, которая их поддерживает.

Ответ не означает полного отсутствия индустрии данных, а скорее указывает на то, что, согласно их опыту, качество индустрии данных относительно низкое, поэтому часто лучшим решением является создание собственной среды или данных. Исследователи сами тратят большое количество времени на создание сред для обучения с подкреплением, тогда как крупные компании, такие как ByteDance и Alibaba, могут иметь внутренние команды по аннотации данных для поддержки этого процесса. Все это подтверждает упомянутый ранее подход «создавать, а не покупать».

В шестых, спрос на дополнительные чипы NVIDIA очень высок.
Вычислительные мощности NVIDIA являются золотым стандартом для обучения, и прогресс каждого ограничен отсутствием дополнительных вычислительных мощностей. При достаточном предложении они, очевидно, будут покупать. Другие ускорители, включая, помимо прочего, Huawei, получили положительные отзывы в области вывода. Бесчисленные лаборатории могут использовать чипы Huawei.

Эти пункты описывают совершенно иную экосистему ИИ. Попытка быстро применить модель работы западных лабораторий к китайским коллегам часто приводит к ошибке категорий. Ключевой вопрос заключается в том, будут ли эти разные экосистемы порождать модели с существенными различиями или китайские модели всегда будут интерпретироваться как аналоги передовых американских моделей, которые были на 3–9 месяцев раньше.

Заключение: Глобальное равновесие

Перед этой поездкой я слишком мало знал о Китае; а когда уезжал, почувствовал, что только начал учиться. Китай — это не место, которое можно описать правилами или рецептами, а место с совершенно иными механизмами и химическими реакциями. Его культура настолько древняя и глубокая, что до сих пор полностью переплетена с тем, как внутри страны строятся технологии. Мне еще многое предстоит узнать.

Многие элементы нынешней американской системы власти используют свое существующее восприятие Китая в качестве ключевого психологического инструмента при принятии решений. После официальных и неофициальных личных встреч с почти всеми ведущими лабораториями ИИ в Китае я обнаружил, что у Китая есть множество качеств и инстинктов, которые трудно смоделировать западным подходом к принятию решений.

Даже если я прямо спрошу эти лаборатории, почему они публикуют свои самые мощные модели открыто, мне все равно сложно полностью связать «менталитет собственности» и «искреннюю поддержку экосистемы».

Здесь лаборатория очень практична и не является абсолютным сторонником открытого исходного кода — не каждая созданная ими модель публикуется открыто. Однако у них глубокая цель поддерживать разработчиков, экосистему и использовать открытость как способ лучше понять свои собственные модели.

Почти каждая крупная китайская технологическая компания разрабатывает собственную универсальную крупную языковую модель. Мы уже видели, что платформенные компании, такие как Meituan, и крупные потребительские технологические компании, такие как Xiaomi, выпустили модели с открытыми весами. Аналогичные компании в США обычно просто покупают услуги.

Эти компании создают крупные языковые модели не для того, чтобы заявить о себе на фоне популярных новинок, а из-за глубокой и фундаментальной потребности: контролировать собственный технологический стек и развивать самую важную технологию сегодняшнего дня. Когда я поднимаю глаза от ноутбука, я всегда вижу на горизонте кучи кранов — это явно соответствует более широкой китайской культуре строительства и строительной энергии.

Китайские исследователи обладают человечностью, харизмой и искренним теплом, что вызывает ощущение близости. На личном уровне那种 жесткие геополитические дискуссии, к которым мы привыкли в США, совершенно не проникли в них. Мир может иметь больше такого простого позитива. Как член сообщества ИИ, я теперь больше беспокоюсь о том, что между участниками и группами появляются разрывы вокруг ярлыков национальности.

Если бы я сказал, что не хочу, чтобы американские лаборатории стали явными лидерами на каждом этапе стека ИИ, я бы лгал. Особенно в области открытых моделей, в которую я вложил много времени, я американец, и это честное предпочтение.

В то же время я надеюсь, что открытая экосистема сама по себе будет процветать по всему миру, поскольку это может создать для мира более безопасный, доступный и полезный ИИ. Проблема сейчас в том, будут ли американские лаборатории предпринимать шаги, чтобы занять эту лидирующую позицию.

Когда я заканчивал эту статью, продолжали распространяться слухи о том, как административные распоряжения влияют на открытые модели. Это может еще больше осложнить взаимодействие между американским лидерством и глобальной экосистемой — что не добавляет мне уверенности.

Благодарю всех замечательных людей, с которыми мне посчастливилось пообщаться в Moonshot, Zhipu, Meituan, Xiaomi, Tongyi Qianwen, Ant Lingguang, 01.ai и других организациях. Каждый был настолько теплым и щедро потратил свое время. По мере того как мои идеи будут оформляться, я продолжу делиться своими наблюдениями о Китае — как в более широком культурном контексте, так и в самой области ИИ.

Очевидно, эти знания напрямую связаны с историей, которая разворачивается в области передовых достижений ИИ.

[Оригинальная ссылка]

Нажмите, чтобы узнать о вакансиях BlockBeats

Добро пожаловать в официальное сообщество律动 BlockBeats:

Телеграм-канал с подпиской: https://t.me/theblockbeats

Телеграм-чат: https://t.me/BlockBeats_App

Официальный аккаунт Twitter: https://twitter.com/BlockBeatsAsia

Китайские лаборатории ИИ завоевывают глобальное влияние благодаря инженерии и открытому исходному коду

Менталитет китайских исследователей

Отличия и сходства китайской индустрии ИИ и западных лабораторий

Заключение: Глобальное равновесие