Примітки зсередини китайських лабораторій ШІ
Автор оригіналу: Nathan Lambert
Переклад: Пеггі, BlockBeats

Редакційна примітка: китайські лабораторії штучного інтелекту стають все більш незаперечною силою у глобальній боротьбі за великі моделі. Їхні переваги полягають не лише у величезній кількості фахівців, сильній інженерній базі та швидкому циклі оновлень, а й у дуже практичному підході до організації: менше розмов про концепції, більше створення моделей; менше акценту на індивідуальних зірках, більше на командній реалізації; менше залежності від зовнішніх сервісів, більше прагнення володіти власною технологічною стекою.

Автор цієї статті Натан Ламберт, відвідавши кілька провідних китайських лабораторій з ШІ, виявив, що китайська екосистема ШІ не повністю збігається з американською. США більше зосереджені на оригінальних парадигмах, капітальних інвестиціях та особистому впливі провідних вчених; Китай ж краще впорався з швидким наздоганянням у вже існуючих напрямках завдяки відкритому коду, інженерній оптимізації та великій кількості молодих дослідників, що дозволило швидко вивести можливості моделей на передовий рівень.

Найважливішим є не те, чи перевершив Китай США в галузі ШІ, а те, що формується два різні шляхи розвитку: США схожі на передову гонку, яку рухають капітал і зіркові лабораторії, тоді як Китай більше схожий на промислову гонку, яку сприяють інженерні здібності, відкрита екосистема та свідомість технологічної самодостатності.

Це означає, що майбутня конкуренція в галузі ШІ буде не лише боротьбою за рейтинг моделей, а й боротьбою за організаційні здібності, екосистему розробників та промислову виконавчу здатність. Справжні зміни в китайському ШІ полягають у тому, що він більше не просто копіює Сіліконову долину, а бере участь у глобальних передових досягненнях власними засобами.

Нижче наведено оригінал:

Сидя у вікна нового швидкісного потяга, що йде з Ханчжоу до Шанхаю, я дивлюся назовні і бачу чітко виражені гребені гір, на яких розташовані вітрові турбіни, що утворюють силуети на тлі заходу сонця. Гори служать фоном, а перед очима — величезні поля, переплетені з групами хмарочосів.

Я повернувся з Китаю з великою скромністю. Бути в такому незнайомому місці і отримати настільки теплий прийом — це дуже теплий і людяний досвід. Мені пощастило зустріти багатьох людей з екосистеми ШІ, яких я раніше знав лише здалеку; вони зустріли мене з яскравими посмішками і ентузіазмом, що знову нагадало мені, що моя робота та вся екосистема ШІ є глобальними.

Настрій китайських дослідників

Китайські компанії, що розробляють мовні моделі, можуть бути дуже добре підходящими «швидкими слідувачами» цієї технології. Вони ґрунтуються на довготривалих традиціях китайської освіти та робочої культури, а також мають трохи відмінний підхід до створення технологічних компаній порівняно зі Західом.

Якщо звернути увагу лише на вихід — найновіші та найбільші моделі та робочі процеси, що підтримуються цими моделями — і на вхідні фактори, такі як видатні вчені, масштабні дані та прискорені обчислювальні ресурси, то китайські та американські лабораторії виглядають майже однаково. Справжні довгострокові відмінності виникають у тому, як ці фактори організовані та формуються.

Я завжди вважав, що однією з причин, чому китайські лабораторії чудово впоруються зі завданням наздогнати й залишатися на передовій, є те, що їхня культура дуже добре відповідає цьому завданню. Але до тих пір, поки я не спілкувався безпосередньо з людьми, я вважав, що не маю права приписувати цю інтуїцію якомусь важливому впливу. Після розмов з багатьма видатними, скромними й відкритими вченими з провідних китайських лабораторій мої думки стали набагато яснішими.

Сьогодні створення найкращої великої мовної моделі в значній мірі залежить від докладної роботи протягом усього технічного стеку: від даних до архітектурних деталей та реалізації алгоритмів підсиленого навчання. Кожен етап моделі може принести певне покращення, а поєднання цих покращень — це складний процес. У цьому процесі робота деяких дуже розумних людей може бути відкладена, щоб досягти максимального результату для загальної моделі в багатоцільовій оптимізації.

Американські дослідники, звичайно, також чудово впораються з проблемами окремих компонентів, але в США існує більш сильна культура «говорити за себе». Як науковець, коли ви активно боретеся за увагу до своєї роботи, ви, як правило, досягаєте більшого успіху; сучасна культура також сприяє новому шляху до слави — стати «лідером у галузі штучного інтелекту». Це призводить до прямих конфліктів.

Поширюється чутка, що організація Llama розпалася після того, як ці інтереси були вбудовані в ієрархічну структуру через політичний тиск. Я також чув від інших лабораторій, що іноді потрібно «заспокоїти» провідного дослідника, щоб він припинив скаржитися, що його ідеї не були включені до фінальної моделі. Незалежно від того, наскільки це повністю правдиво, сенс зрозумілий: самосвідомість і бажання кар’єрного зростання дійсно заважають створенню найкращих моделей. Навіть така мала культурна різниця між США та Китаєм може мати значний вплив на кінцевий результат.

Частина цих відмінностей пов’язана з тим, хто саме створює ці моделі в Китаї. У всіх лабораторіях існує досить очевидна реальність: серед ключових учасників велика частка — це студенти, які ще навчаються. Ці лабораторії досить молоді, що нагадує нам наш підхід до організації в Ai2: студентів сприймають як рівних колег і безпосередньо включають до команд з великих мовних моделей.

Це дуже відрізняється від провідних лабораторій США. У США компанії, такі як OpenAI, Anthropic, Cursor, взагалі не надають інтернів. Інші компанії, такі як Google, формально пропонують інтернship, пов’язані з Gemini, але багато хто стурбований, чи не буде їхній інтернship ізолюватися від справжньої ядерної роботи.

Загалом, ці невеликі культурні відмінності можуть підвищити здатність моделей до побудови: для покращення кінцевої моделі люди більше готові виконувати менш відомі завдання; початківці, які вперше беруть участь у створенні ШІ, можуть не бути впливаними попередніми циклами хайпу навколо ШІ, тому швидше адаптуються до сучасних методів; насправді, один із китайських вчених, з яким я розмовляв, чітко вважав це перевагою: нижчий рівень самосвідомості робить організаційну структуру трохи легшою для масштабування, оскільки люди менше намагаються «шахрайськи маніпулювати системою»; велика кількість фахівців ідеально підходять для вирішення задач, де вже існують підтвердження концепції в інших місцях тощо.

Це більше сприяє розвитку здатностей сучасних мовних моделей і суперечить відомому стереотипу: люди часто вважають, що китайські дослідники менше здійснюють творчих, інноваційних досліджень «від 0 до 1», які відкривають нові напрямки.

Під час кількох більш академічних відвідин лабораторій у цьому турі багато керівників зазначили, що вони виховують більш амбітну дослідницьку культуру. Разом із тим, деякі технічні керівники, з якими ми розмовляли, сумніваються, чи можливо досягти такого перетворення наукових підходів у короткостроковій перспективі, оскільки це вимагає переосмислення освітньої та мотиваційної систем, що є надто великою зміною, щоб відбутися за поточного економічного рівноваги.

Ця культура, схоже, навчає великої кількості студентів і інженерів, які дуже добре володіють «грою з побудовою великих мовних моделей». Звичайно, їх кількість також надзвичайно велика.

Ці студенти сказали мені, що в Китаї теж відбувається подібний відтік кадрів, як у США: багато тих, хто раніше розглядав академічну кар’єру, зараз планують залишитися в індустрії. Найцікавішим було твердження дослідника, який спочатку хотів стати професором, бо хотів бути ближче до освітньої системи; але потім він додав, що освіту вже вирішили великі мовні моделі — «Навіщо студентам тепер приходити до мене на розмову!»

Студенти входять у сферу великих мовних моделей зі свіжим поглядом — це перевага. За останні кілька років ми бачили постійну зміну ключових парадигм великих мовних моделей: від масштабування MoE до масштабування підсиленого навчання та підтримки агентів. Щоб добре виконати будь-що з цього, потрібно дуже швидко засвоїти великий обсяг контекстної інформації — як з ширшої літератури, так і з технічного стеку компанії.

Студенти звикли до таких речей і готові з скромністю відкинути всі передумови про те, «що має працювати». Вони повністю занурюються в це, вкладаючи своє життя, щоб отримати можливість покращити модель.

Ці студенти також дуже прямо і без філософських розмов, які можуть відволікати вчених. Коли я запитував їх про ставлення до економічного впливу моделей чи довгострокових соціальних ризиків, китайських дослідників із складними поглядами, які бажають впливати на ці питання, було явно менше. Вони вважають, що їхня роль — створювати найкращі моделі.

Ця різниця дуже тонка і легко заперечується. Але її найкраще відчуваєш, коли довго розмовляєш із елегантним, розумним дослідником, який вміє чітко висловлюватися англійською: коли ти задаєш питання про більш філософські аспекти ШІ, ці базові питання висіють у повітрі, а людина виявляє просте здивування. Для них це помилка категорії.

Навіть один дослідник посилався на відому оцінку Дан Вана: на відміну від США, які керуються юристами, Китай керує інженерами. Під час обговорення цих питань він використовував цю аналогію, щоб підкреслити бажання будувати. У Китаї немає системного шляху, який би, як суперпопулярні подкасти Dwarkesh або Lex, формував зірковий вплив китайських вчених.

Я намагався залучити китайських вчених до коментарів щодо майбутньої економічної невизначеності, спричиненої ШІ, питань, що виходять за межі простих здібностей AGI, або етичних дискусій щодо того, як повинні поводитися моделі; усі ці питання в кінцевому підсумку дозволили мені побачити їхнє виховання та освіту (редаговано). Вони надзвичайно зосереджені на своїй роботі, але виростали в системі, яка не сприяє обговоренню та висловлюванню того, як має організовуватися суспільство та як воно має змінюватися.

Коли подивитися здалеку, особливо на Пекін, він мені здається схожим на Бей-Арію: конкурентоспроможна лабораторія, яка може бути за кілька хвилин ходьби або поїздки на таксі. Після прибуття в аеропорт я заїхав до пекінського кампусу Alibaba. Наступні 36 годин ми відвідали Zhipu AI, Moonshot AI, Цинхуа-університет, Meituan, Xiaomi та 01.ai.

У Китаї зручно користуватися Didi. Якщо ви вибираєте автомобіль класу XL, вас часто розміщують у електричному міні-вантажівці з масажними кріслами. Ми запитали дослідників про боротьбу за таланти, і вони сказали, що це дуже схоже на те, що ми пережили в США. Зміна місця роботи дослідниками — це нормально, і люди вибирають, куди йти, залежно від того, де зараз найкраща атмосфера.

У Китаї спільнота великих мовних моделей відчувається більше як екосистема, ніж набір племен, що воюють між собою. У багатьох непублічних діалогах я майже завжди чула повагу до колег. Усі китайські лабораторії дуже стурбовані ByteDance та її популярною моделлю Doubao, оскільки це єдина передова закрита лабораторія в Китаї. Разом з тим, усі лабораторії дуже поважають DeepSeek, вважаючи її лабораторією з найвищим дослідницьким смаком на рівні виконання. У США, коли ви спілкуєтеся з членами лабораторій у непублічному форматі, іскри часто швидко розлітаються.

Найбільше мене вразила скромність китайських дослідників: вони часто піднімають плечима і кажуть, що це не їхня справа. У США, здається, кожен захоплений різними індустріальними трендами на екосистемному рівні — від продавців даних, до обчислювальних потужностей і фінансування.

Відмінності та подібності китайської індустрії ШІ та західних лабораторій

Сьогодні створення моделі ШІ цікаве не лише тому, що це більше не просто збірка видатних дослідників в одному будинку для спільного створення інженерного чуда. Раніше це дійсно було так, але для підтримки бізнесу ШІ великі мовні моделі перетворюються на гібрид: вони включають розробку, розгортання, фінансування та просування цього творіння серед користувачів.

Лідуючі AI-компанії існують у складних екосистемах. Ці екосистеми надають фінансування, обчислювальну потужність, дані та інші ресурси, щоб постійно просувати межі вперед.

У західній екосистемі способи інтеграції різних компонентів, необхідних для створення та підтримки великих мовних моделей, вже відносно добре концептуалізовані та відображені. Anthropic та OpenAI є типовими прикладами. Отже, якщо ми зможемо виявити, що китайські лабораторії мають суттєво відмінний підхід до цих питань, це дозволить побачити, на які значущі відмінності можуть зробити ставку різні компанії у майбутньому. Звичайно, ці майбутні також будуть сильно впливати фінансування та/або обмеження обчислювальних ресурсів.

Ось основні висновки на «промисловому рівні штучного інтелекту», отримані після спілкування з цими лабораторіями:

По-перше, у внутрішньому ринку AI вже з’явилися ранні ознаки попиту.
Існує широко обговорювана гіпотеза, що китайський ринок ШІ буде меншим, оскільки китайські компанії зазвичай не хочуть платити за програмне забезпечення, тому ніколи не зможуть створити достатньо великий ринок висновків, щоб підтримати лабораторії.

Але це твердження стосується лише витрат на програмне забезпечення, що відповідають екосистемі SaaS. Екосистема SaaS в Китаї завжди була невеликою. З іншого боку, Китай, звичайно, все ще має величезний ринок хмарних сервісів.

Одним із ключових і ще невідповіданих питань є: чи будуть витрати китайських компаній на ШІ більш схожими на ринок SaaS — тобто меншими за масштабом — чи на ринок хмарних обчислень — тобто фундаментальними витратами. Це питання обговорюється навіть всередині китайських лабораторій. Загалом, на мою думку, ШІ все більше наближається до ринку хмарних обчислень, і ніхто справді не стурбований тим, що ринок, сформований навколо нових інструментів, не зможе зростати.

Друге, більшість розробників глибоко впливаються Claude.
Хоча Claude формально заборонений у Китаї, більшість китайських розробників ШІ дуже захоплені Claude та тим, як він змінив спосіб створення програмного забезпечення. Те, що Китай раніше не був схильний купувати програмне забезпечення, не означає, що я вважаю, що в Китаї не відбудеться величезний стрибок у попиті на висновки.

Китайські техніки дуже практичні, скромні та мотивовані. Це враження сильніше, ніж будь-яка історична звичка «не купувати програмне забезпечення безкоштовно».

Деякі китайські дослідники згадують, що використовують власні інструменти для побудови, наприклад, командний інтерфейс Kimi або GLM, але всі згадують, що використовують Claude. Дивно, що майже ніхто не згадує Codex, хоча Codex у Бей-Арії очевидно швидко набирає популярність.

Третє, китайські компанії мають налаштування щодо володіння технологіями.
Китайська культура поєднується з економічним двигуном, що потужно працює, і породжує деякі важко передбачувані наслідки. Одним із моїх глибоких вражень є величезна кількість AI-моделей, які відображають практичну рівновагу, яку багато технологічних компаній тут реалізують у реальному житті. Загального плану не існує.

Ця галузь визначається повагою до ByteDance та Alibaba. Вони вважаються величезними існуючими гравцями, які зможуть виграти багато ринків завдяки своїм потужним ресурсам. DeepSeek — це поважний технологічний лідер, але далеко не лідер ринку. Вони визначають напрямок, але не мають структури для економічного перемоги на ринку.

Це залишає такі компанії, як Meituan або Ant Group. Західні спостерігачі можуть здивуватися, чому вони також розробляють ці моделі. Але насправді вони очевидно вважають великі мовні моделі ядром майбутніх технологічних продуктів, тому їм потрібна потужна основа.

Коли вони доналаштовують потужну універсальну модель, зворотний зв’язок від відкритого ком’юніті робить їхній технічний стек міцнішим, одночасно дозволяючи їм зберігати внутрішні версії доналаштованих моделей для власних продуктів. «Відкритість перш за все» у цій галузі в значній мірі визначається прагматизмом: це допомагає моделям отримувати сильний зворотний зв’язок, підтримувати відкрите ком’юніті та сприяти їхній власній місії.

Четверте, підтримка уряду існує, але її масштаб невідомий.
Люди часто стверджують, що китайський уряд активно допомагає відкрити змагання з великих мовних моделей. Але це відносно децентралізована система уряду, що складається з багатьох рівнів, і кожен рівень не має чіткого посібника з операцій, який визначає, що саме він повинен робити.

Різні райони Пекіну конкурують між собою, намагаючись привабити технологічні компанії розмістити свої офіси саме там. «Допомога», що надається цим компаніям, майже напевно включає спрощення бюрократичних процедур, таких як видалення ліцензій. Але наскільки далеко може зайти така допомога? Чи можуть різні рівні уряду допомогти привабити таланти? Чи можуть вони допомогти контрабандою чіпів?

Під час всього візиту було згадано багато про інтерес або допомогу уряду, але цієї інформації далеко не достатньо, щоб я міг повідомити деталі у вигляді тверджень, або сформувати впевнену світоглядну позицію щодо того, як уряд зможе змінити траєкторію розвитку штучного інтелекту в Китаї.

Також абсолютно немає жодних ознак того, що найвищий керівництво Китаю впливає на будь-які технічні рішення моделі.

П’яте, індустрія даних значно менш розвинена, ніж у західних країнах.
Раніше ми чули, що Anthropic або OpenAI витрачають понад 10 мільйонів доларів США на одну середовище, а щорічні загальні витрати на просування меж підсиленого навчання досягають сотень мільйонів доларів США. Тому нас цікавить, чи купують китайські лабораторії такі ж середовища у американських компаній, чи існує дзеркальний внутрішній екосистемний екосистема, яка їх підтримує.

Відповідь не означає повного відсутності індустрії даних, а полягає в тому, що, згідно з їхнім досвідом, якість індустрії даних відносно низька, тому часто кращим рішенням є створення власного середовища або даних. Дослідники самі витрачають багато часу на створення середовищ для навчання підсилювального навчання, тоді як більші компанії, такі як ByteDance та Alibaba, можуть мати власні команди з анотації даних для підтримки цього процесу. Все це підтверджує згадану раніше позицію «створювати замість купувати».

Шосте, величезний попит на більше чіпів NVIDIA.
Потужність NVIDIA є золотим стандартом для навчання, і прогрес кожного обмежений відсутністю більшої потужності. Якби постачання було достатнім, вони, звичайно, купували б їх. Інші прискорювачі, включаючи, серед інших, Huawei, отримали позитивні відгуки щодо висновків. Безліч лабораторій можуть використовувати чіпи Huawei.

Ці пункти описують дуже іншу екосистему ШІ. Спроби швидко застосувати спосіб роботи західних лабораторій до китайських колег часто призводять до помилок категорій. Ключове питання полягає в тому, чи будуть ці різні екосистеми генерувати суттєво відмінні типи моделей, чи китайські моделі завжди будуть інтерпретуватися як аналоги передових американських моделей, що були за 3–9 місяців до цього.

Висновок: Глобальна рівновага

Перед цією подорожжю я занадто мало знав про Китай; а коли відправлявся, відчув, що лише почав вчитися. Китай — це не місце, яке можна описати за допомогою правил чи рецептів, а місце з дуже відмінними механізмами та хімічними реакціями. Його культура настільки давня, настільки глибока і все ще повністю переплетена зі способом, яким у країні будують технології. Мені ще багато що потрібно дізнатися.

Багато компонентів поточного американського владного механізму використовують своє існуюче уявлення про Китай як ключовий психологічний інструмент при прийнятті рішень. Після того як я провів формальні та неформальні особисті зустрічі майже з усіма провідними лабораторіями ШІ в Китаї, я зрозумів, що в Китаї є багато якостей і інстинктів, які важко моделювати за допомогою західного підходу до прийняття рішень.

Навіть якщо я безпосередньо запитую ці лабораторії, чому вони публікують свої найпотужніші моделі, мені все ще важко повністю з’єднати «ментальність власності» і «щире підтримування екосистеми».

Ця лабораторія дуже практична і не є абсолютним прихильником відкритого коду — не кожна модель, яку вони розробляють, публікується відкрито. Але вони мають глибоку мету підтримувати розробників, екосистему та використовувати відкритість як спосіб краще зрозуміти власні моделі.

Майже кожна велика китайська технологічна компанія розробляє власну універсальну велику мовну модель. Ми вже бачили, що платформенні сервіси, такі як Meituan, та великі споживчі технологічні компанії, такі як Xiaomi, випустили моделі з відкритими вагами. Аналогічні компанії в США зазвичай просто купують сервіси.

Ці компанії розробляють великі мовні моделі не для того, щоб здобути увагу у популярних новинках, а з глибокою та фундаментальною метою: контролювати власний технологічний стек і розвивати найважливіші на сьогодні технології. Коли я піднімаю погляд з ноутбука, я завжди бачу на горизонті групи кранів — це явно відповідає більш широкій китайській культурі будівництва та будівельній енергії.

Китайські дослідники викликають відчуття близькості завдяки своїй людяності, харизмі та щирій теплоті. На особистому рівні та та жорстока геополітична дискусія, до якої ми звикли в США, зовсім не проникла до них. Цей світ може мати більше такої простої позитивності. Як член спільноти штучного інтелекту, зараз я більше хвилююся про те, що між членами та групами, навколо національних ярликів, з’являються розколи.

Я би брехав, якби сказав, що не хочу, щоб американські лабораторії стали очевидними лідерами в кожній частині стеку штучного інтелекту. Особливо в галузі відкритих моделей, де я вкладаю багато часу — я американець, і це чесна симпатія.

Тим часом я бажаю, щоб відкрита екосистема сама по собі процвітала по всьому світу, оскільки це може створити для світу більш безпечну, доступну та корисну ШІ. А поточна проблема полягає в тому, чи вжитимуть дій американські лабораторії, щоб зайняти цю лідерську позицію.

Поки я писав цю статтю, поширювалися ще більше чуток про те, як адміністративні накази впливають на відкриті моделі. Це може ще більше ускладнити співпрацю між американським лідерством і глобальною екосистемою — що не робить мене більш впевненим.

Дякую всім відмінним людям, з якими мені пощастило спілкуватися в Moonshot, Zhipu, Meituan, Xiaomi, Tongyi Qianwen, Ant Lingguang, 01.ai та інших організаціях. Кожен був надзвичайно захоплений і щедро віддавав свій час. Поки мої ідеї набирають форми, я продовжуватиму ділитися спостереженнями щодо Китаю — як у ширшому культурному контексті, так і в самій галузі ШІ.

Звичайно, ці знання безпосередньо пов’язані з історією, що розгортається в передових розробках ШІ.

[Посилання на оригінал]

Натисніть, щоб дізнатися про вакансії BlockBeats

Вступайте до офіційного спільноти律动 BlockBeats:

Телеграм-канал з підпискою: https://t.me/theblockbeats

Telegram-чат: https://t.me/BlockBeats_App

Офіційний аккаунт Twitter: https://twitter.com/BlockBeatsAsia

Китайські AI-лабораторії здобувають глобальний вплив завдяки інженерії та відкритому коді

Настрій китайських дослідників

Відмінності та подібності китайської індустрії ШІ та західних лабораторій

Висновок: Глобальна рівновага