DeepSeek V4 та Meituan LongCat 2.0 подолали бар’єр трильйона параметрів

Вітчизняні AI-підприємства починають намагатися прокласти власну траєкторію.

На початку цього року зарубіжний технологічний світ звертав увагу на проблеми обчислювальних потужностей у Китаї.

У січні Маск у подкасті заявив, що Китай у сфері AI-обчислювальних потужностей «значно перевищить інші регіони світу». У лютому генеральний директор OpenAI Оттіман сказав, що технічний прогрес Китаю в галузі штучного інтелекту «надзвичайно швидкий». Генеральний директор NVIDIA Хуан Ренсюнь неодноразово публічно заявляв: «Обмеження китайських AI-технологій лише прискорюють їхнє власне розроблення».

2025 рік можна назвати роком консолідації пропозиційного сегменту. Китайські GPU, такі як Moore Threads та Muxi Semiconductor, послідовно з’явилися на ринках капіталу, що додало міцності промисловій базі китайських великих моделей. У 2026 році зміни поширилися вниз по ланцюжку поставок: наприкінці квітня було запущено нові версії кількох китайських великих моделей.

20 квітня Moonshot випустила модель Kimi K2.6, що спеціалізується на написанні довгих кодів; 24 квітня була опублікована DeepSeek V4; після цього Meituan LongCat-2.0-Preview відкрила тестування, обидві моделі мають загальну кількість параметрів понад трильйон і підтримують наддовгий контекст до 1M.

Варто зазначити, що DeepSeek V4 успішно мігрував та адаптувався з екосистеми NVIDIA на платформу Huawei Ascend; а LongCat2.0 Meituan — це велика мовна модель з трильйоном параметрів, яка повністю базується на вітчизняних обчислювальних ресурсах і використовує 50 000–60 000 вітчизняних обчислювальних чіпів.

Протягом тривалого часу китайські фахівці з ІІ використовували загальну стратегію — використовувати вже існуючі зрілі рішення. Зараз китайські компанії з ІІ починають намагатися прокласти власні шляхи.

Будівництво доріг у дикій природі

Як ви можете виконати складне завдання?

Відповідь науково-фантастичного письменника Артура Кларка: «Єдиний спосіб — зробити неможливе початковою точкою руху вперед».

DeepSeek V4 з початкового планування до остаточного випуску багато разів змінював терміни. Зовнішній середовище загалом припускає, що однією з причин є необхідність перенесення основного коду з CUDA від NVIDIA.

Екосистема CUDA, після декількох десятиліть удосконалення, стала потужною та добре оснащеною платформою для розробки. Екосистема вітчизняних обчислювальних ресурсів ще перебуває на початковій стадії формування. Процес міграції коду означає, що команди розробників повинні виконати великий обсяг робіт з перебудови нижчих рівнів фреймворків.

Нарешті DeepSeek досяг цього: через два дні після випуску V4, JPMorgan у звіті зазначив, що V4 успішно адаптовано до чіпів Huawei Ascend, що підтвердило можливість використання китайських обчислювальних ресурсів для передових AI-висновків; крім того, DeepSeek за допомогою інновацій у базовій архітектурі, зокрема гібридної уваги, значно знизив витрати на висновки.

DeepSeek за допомогою підходу, характерного для технічних ентузіастів, зменшив витрати та підвищив ефективність, виконавши жорстку міграцію, переписавши половину роботи великої моделі. Того ж дня відкрито для тестування LongCat-2.0-Preview від Meituan, який працює безпосередньо на китайських обчислювальних ресурсах.

Які технічні складності існують на рівні інженерії щодо китайських обчислювальних потужностей? Розглянемо на прикладі LongCat-2.0-Preview.

Перша складність — фізичного характеру. Об’єм та пропускна здатність відеопам’яті китайських апаратних платформ відрізняються від чіпів NVIDIA; під час навчання та розгортання моделей з трильйоном параметрів команда Meituan зіткнулася зі значними інженерними викликами, потребуючи більше зусиль для налаштування стратегій паралелізації та оптимізації відеопам’яті.

Друга складність — ступінь зрілості програмного екосистеми; щоб забезпечити точну та відтворювану тренування з урахуванням особливостей китайських чіпів, команді потрібно переписати та оптимізувати основні оператори та розробити власні повністю детерміновані оператори.

Третє труднощі — це стабільність кластерів із десятками тисяч карток, на надвеликих кластерах із 50–60 тисячі вітчизняних обчислювальних карток відмови обладнання неминучі. Для цього команда розробила повну систему відновлення та автономного відновлення.

Нарешті, враховуючи особливості вітчизняного обладнання, команда провела цілеспрямоване проектування тренувальної рамки та структури моделі, що подолало обмеження адаптації загальних рамок і підвищило обчислювальну продуктивність.

Алгоритмічна оптимізація DeepSeek знизила вимоги до обчислювальних ресурсів і суттєво знизила ціну моделей; інженерна практика Meituan підтвердила доцільність використання китайських чіпів. Ці дослідження також заслугою внесли вклад у розвиток інженерних здібностей та досвіду для екосистеми китайських чіпів.

Лян Вэньфэн колись сказав: «Ми не намагалися стати сомом, просто випадково ним стали», і зараз «ефект сома» вже проявився, і DeepSeek не діє самотньо.

Від однієї точки до системи

Тан Дашен з Tencent Cloud колись сказав таку метафору: «Великі моделі — це двигун, а користувач — водій». Користувачі легко помічають продуктивність двигуна, але чудовий водій розуміє, що паливо і шасі також важливі.

Розвиток китайських обчислювальних потужностей залежить від синхронного прогресу всього ланцюга поставок. Ключові підприємства кожного етапу безперервно усуняють слабкі місця.

На виробничому етапі відкриті дані свідчать, що виробництво чіпів у Китаї постійно зростає, але має «гирьову» структуру: зрілі технологічні процеси вище 28 нм домінують, а потужності для передових технологічних процесів 14 нм і нижче залишаються дефіцитними.

Зіштовхнувшись із відсутністю екстремальної ультрафіолетової літографічної машини, компанії, такі як SMIC і Hua Hong Semiconductor, розробляють технології багаторазового експонування, намагаючись знайти баланс у межах фізичних обмежень. За даними численних звітів, вихід добрих чипів на технології N+2 SMIC (еквівалент 7 нм) вже перевищив 80%, що означає подолання порогу комерційного масового виробництва.

На стороні обчислювальної потужності китайські чіпи все ще поступаються NVIDIA за обчислювальною потужністю на одній карті. Практика продуктів, таких як Huawei Ascend 910C, показує, що шляхом досягнення максимального лінійного прискорення кластера можна успішно навчати дуже великі моделі.

Той, хто володіє екосистемою, володіє світом. Однією з основних причин глибокого «захисного рову», створеного NVIDIA CUDA, є формування універсального стандарту сумісності програмного та апаратного забезпечення.

Це також усвідомлюють фахівці галузі. Наприклад, Cambricon запровадила базову програмну платформу, сумісну з основними фреймворками, що знижує бар’єри для міграції розробників. Відкрита система, розроблена під керівництвом Інституту штучного інтелекту Zhiyuan, створила єдиний нижчий інтерфейс, що дозволяє верхнім моделям працювати на різних китайських чіпах.

У китайських інтернет-гігантах також багато дій: подвійна стратегія Baidu та інвестиції в розмірі 100 мільярдів юанів від ByteDance спрямовані на пошук кращих рішень для інфраструктури обчислювальних потужностей.

За публічними даними, за останні кілька років Meituan інвестувала щонайменше у 21 компанію, що діють у галузях напівпровідників/розумного обладнання та загальних великих моделей. Серед них — компанії, що працюють у сфері чіпів та обчислювальної потужності, такі як Moore Threads та Muxi Semiconductor, а також AiXin YuanZhi у сфері візуальних чіпів; а також кілька підприємств у нишевих сегментах, таких як нові матеріали, зокрема Guangzhou Zhongshan та Dongfang Suangxin.

Під час постійного супроводу технологій, індустріальні капітали також виступають інвесторами та співбудівниками у сфері обчислювальних потужностей, поступово формуючи позитивний цикл.

Від цифрового світу до реальних завдань

Зараз штучний інтелект перебуває на важливому переломному моменті третьої хвилі: великі моделі сприяють переходу від слабкого штучного інтелекту до загального штучного інтелекту, а ще важливіше — переходу робототехніки від ери роботів 1.0 спеціалізованого типу до ери роботів 2.0 загального втіленого інтелекту.

Слова Ван Чжуньюаня, директора Пекінського інституту штучного інтелекту Zhiyuan, підкреслюють, що ключовим застосуванням здібностей ШІ є фізичний світ.

З одного боку, багато китайських виробників працюють над тим, щоб дати велиkim моделям у хмарі «прочитати тисячі книг», підвищуючи їхню розумність і логічну строгість. З іншого боку, необхідно дати велиkim моделям «подорожувати тисячі миль» — наприклад, велику модель Вэньсінь вбудовано в систему прийняття рішень автономного автомобіля; промислові рішення для контролю якості великої моделі Хуньюань вже застосовуються на кількох конвеєрних лініях.

Послуги доставки їжі, локальних послуг та готелів Meituan утворюють найскладнішу мережу виконання завдань у повсякденному житті. Тут містяться мільйони реальних сценаріїв: від швидкості приготування страв у кухні закладу, до маршрутів кур’єрів у сильний дощ, і до ночевого запиту користувача: «хочу їсти хо-хо».

Ван Синь чітко висловив ідею перетворити додаток Meituan на перший «додаток з підтримкою ШІ». Це означає, що мета навчання LongCat — не просто відповідати на запитання «де смачно готують смажене м’ясо», а й «знайти цей заклад, вибрати найкращий купон на групову покупку та забронювати два місця о 19:00 у п’ятницю».

Це означає, що ефективність виконання завдань має вирішальне значення, а також пояснює, чому Meituan зосереджується на створенні AI-бази для фізичного світу.

Від підвищення параметрів до запуску обчислювальної потужності, китайські великі моделі проходять еволюцію від «функціональних» до «зручних у використанні».

Цей шлях не має скорочень. У майбутньому, коли алгоритми, обчислювальна потужність, капітал та сценарії продовжуватимуть взаємодіяти, історія китайського ШІ перейде зі сторінки «одноточкового прориву» на сторінку «системної еволюції».

Цей матеріал надійшов із офіційного аккаунту WeChat «Lan Dong Business», автор: Ю Вейлінь