Стратегія DeepSeek: створення екосистеми штучного інтелекту на $10 трильйонів

Велика стратегія DeepSeek на 10 трильйонів USD

Автор оригіналу: @bookwormengr

Пеггі, BlockBeats

Редакційна примітка: Протягом останнього року обговорення, пов’язані з DeepSeek, здебільшого зосереджувалися на продуктивності моделі, стратегії відкритого коду та ціновій війні. Але якщо сприймати DeepSeek лише через призму «чи продавати підписку», «чи є мультимодальність» чи «чи може він бути coding agent», можна недооцінити те, що він справді намагається змінити.

Ця стаття пропонує більш радикальний погляд: метою DeepSeek може бути не короткострокове монетизування через рівень застосунків, а через серію інновацій у базовій архітектурі — перетворення структури витрат на навчання та висновування ШІ та непряме формування нового апаратного екосистеми. Від MoE та MLA до DSA, CSA, mHC, Engram, а потім Dual Path і TileLang — технологічний шлях DeepSeek завжди обертався навколо однієї ключової проблеми: як за допомогою меншої кількості висококласних обчислювальних ресурсів запускати потужніші моделі, коли обмежені HBM, передові технологічні процеси, упаковка та екосистема CUDA.

Найбільш важливим у статті є не те, чи зможе DeepSeek заробити кілька мільярдів доларів за рахунок API або підписки, а чи зв’язує він здатності моделей, систему пам’яті та екосистему вітчизняного обладнання разом. Стиснення KV Cache зменшує залежність від HBM, NAND і SSD можуть приймати на себе довготривале кешування, LPDDR може використовуватися для потокового завантаження ваг та зберігання Engram, а TileLang намагається зменшити перевагу CUDA. Якщо ці інновації продовжуватимуть поширюватися, вигоду отримають не лише сам DeepSeek, але й сектори зберігання, ASIC, GPU, мережеві чіпи та вся ланцюжок інфраструктури штучного інтелекту.

Звичайно, твердження про «екосистему ринку в 10 трильйонів доларів» і «оцінку в 1 трильйон доларів» все ще мають сильний спекулятивний характер. Але воно надає важливий шлях для розуміння DeepSeek: відкрите походження не обов’язково означає відмову від комерціалізації, а низька ціна не завжди є лише субсидуванням ринку. Для DeepSeek справжній бізнес, можливо, не в іншому рівні, а в тому, щоб зробити більше апаратного забезпечення придатним і зробити можливим надання штучного інтелекту з меншими витратами. Іншими словами, він, можливо, продає не самі моделі, а можливість наступного покоління інфраструктури ШІ.

Нижче наведено оригінал:

Чи ви коли-небудь думали, як DeepSeek збирається заробляти гроші, і можливо, багато грошей?

Він не запровадив конкурентоспроможних підписок на програмування, на зразок GLM, MoonShot і MiniMax; також він не має мультимодальних, аудіо- та відеомоделей. Дотепер він навіть не має власного harness — зовнішньої виконавчої рамки для викликів моделей, підключення інструментів та виконання завдань — хоча вони недавно розпочали набір персоналу для створення цієї системи.

Тим часом DeepSeek, схоже, довгостроково й твердо стоїть на позиціях відкритого коду, навіть охоче ділячись своїми «секретами». Чи це не безглуздя? Чи це не просто витрачання грошей навіть напряму? Чи ті інвестори, які збираються інвестувати в нього 10 мільярдів доларів, дійсно кидають гроші у водопровід?

На мою думку, відповідь саме навпаки.

Далі я зроблю кілька спостережень на основі того, що DeepSeek вже зробив, і проаналізую стратегію, яку, схоже, він дотримується. Мета генерального директора DeepSeek Лян Венфена, ймовірно, виходить далеко за межі поточної боротьби моделей. Він може прагнути до більш великої мети: DeepSeek має можливість досягти оцінки в 1 трильйон доларів США, водночас сприяючи формуванню нової галузі розміром у 10 трильйонів доларів США.

TechInAsia про останнє фінансування DeepSeek

Повторне відвідування «Подорожі героя» DeepSeek

DeepSeek завжди йшов проти вітру. Він не обрав постійне випускання трохи потужніших моделей і поспішне перетворення їх на безпосередньо прибуткові застосунки, наприклад, підписки на програмування. 27 січня 2025 року я опублікував широко розповсюджений твіт про те, як бачу «геройський шлях» DeepSeek. Зараз ця історія стала ще цікавішою.

Поки інші намагаються створювати щільні моделі, DeepSeek обрав більш складні для навчання моделі змішання експертів (Mixture of Experts, MoE).

Вони застосували підхід «першопринципів», розробивши новий алгоритм GRPO, щоб замінити тодішній домінуючий, але більш витратний у реалізації алгоритм PPO для підсиленого навчання.

Вони виявили, що підхід, заснований на підсиленні навчання з перевіреними нагородами (Reinforcement Learning from Verified Rewards, RLVR), є ключовою стратегією для підвищення здатності моделі до міркувань.

Вони також запропонували просту стратегію прогнозування за допомогою «багатотокенного прогнозування» (Multi Token Prediction), що також робить навчальні сигнали більш щільними.

Вони вдосконали конвеєр «нульових бульбашок» (ZERO bubble), щоб підвищити ефективність використання обмежених ресурсів GPU.

Вони запустили експертний балансувальник навантаження, щоб зробити розгортання моделей MoE простішим для всіх. Зокрема, за допомогою стратегії «широкого паралелізму експертів» (Wide Expert Parallel) моделі можуть обслуговуватися з більшими пакетами, що значно знижує витрати на виведення.

Вони розробили механізми MLA, DSA, CSA, HCA для зменшення потреби у KV Cache та збереження обчислювальних вимог майже постійними навіть із зростанням довжини контексту.

Вони винайшли Engram, обмінюючи пам’ять на обчислювальну ефективність.

Вони також розробили mHC, що забезпечує стабільне навчання навіть під час збільшення розміру моделі. Існує багато подібних прикладів.

У найпоширенішій нарративній структурі «Подорож героя» герой ніколи не вирішує з самого початку, куди його шлях приведе. Він поступово відкриває для себе свою справжню велику місію в процесі навчання та виконує її незважаючи на численні перешкоди. Він зустрічає багато скептиків, але обирає ігнорувати їх. Він також зустрічає багато зловмисників. У нього є очевидні недоліки або слабкі місця, але в кінцевому підсумку він подолує ці проблеми та виконує свою місію. Він стикається з здається непереборними викликами, але знаходить способи створювати союзи та вчиться мудро використовувати обмежені та цінні ресурси. Саме це робить глядачів готовими підтримувати героя. Саме це робить DeepSeek володарем послідовників, глобального поваги та противників.

Як я детально поясню нижче, DeepSeek вже довго йде цим шляхом і поступово виявив свою кінцеву мету: її ціль — не продавати підписки на програмування, а стимулювати китайську екосистему штучного інтелекту вартістю 10 трильйонів доларів США і досягти оцінки в 1 трильйон доларів США. У цьому процесі вона також створить можливості для багатьох нових учасників у західній екосистемі апаратного забезпечення.

Почнімо з деяких цікавих обчислень KV Cache

Перегляньте цей актуальніший твіт від @SemiAnalysis_:

DeepSeek вже краще вирішив цю проблему, ніж хто-будь!

Спочатку зробимо трохи цікавих обчислень KV Cache. Не хвилюйтеся, навіть якщо ви не любите математику. Ми використаємо недавно випущений калькулятор KV Cache, щоб подивитися, скільки KV Cache економії може принести DeepSeek V4 Pro, і порівняти це з найновішими моделями GLM і Qwen.

Тут я розраховую з контекстом довжиною 1 мільйон, припускаючи точність KV на 8 біт і точність індексатора на 16 біт. Ви також можете самі відкрити цей калькулятор: https://kvcache.ai/tools/kv-cache-calculator/

Також можете відкрити калькулятор і спробувати самостійно!

При довжині контексту 1 мільйон:

·DeepSeek V4 потребує лише 5,48 ГБ HBM;

·GLM-5 потребує 60 ГБ HBM;

·Qwen3-235B-A22B вимагає до 89 ГБ HBM.

Варто звернути увагу:

·DeepSeek — це модель з 1,6 трильйона параметрів;

·GLM-5 має приблизно 700 мільярдів параметрів і вже використовує MLA та DSA від DeepSeek, але ще не використовує найновіший механізм стиснення уваги;

·Qwen3-235B-A22B має приблизно 235 мільярдів параметрів і використовує механізм уваги GQA.

DeepSeek внесла фундаментальний внесок у зменшення навантаження на пам’ять. Якщо такі інновації будуть широко впроваджені, це значно знизить витрати на запуск агентів з довгим циклом і відкриє новий круг застосувань.

Порівняння використання KV Cache при 1 мільйоні токенів та різних розмірах моделей

Методологія за «божевіллям»

KV Cache може бути настільки малим, не втрачаючи якості моделі, саме тому DeepSeek може надавати довготривале кешування за дуже низьку ціну — її ціна навіть менше 3% від ціни кеш-попадань Sonnet 4.6, а DeepSeek може зберігати кеш протягом кількох годин.

Для довгострокових завдань менший KV Cache означає, що його можна економічніше вивантажити на SSD і повторно завантажити при необхідності. Це зменшує залежність від HBM. З погляду китайської індустрії AI-апаратного забезпечення, HBM не лише має дефіцит, але й є одним із найскладніших типів пам’яті для виробництва.

Крім того, DeepSeek розробила технологію швидшого завантаження KV Cache з SSD, про що йдеться у їхній статті Dual Path.

Глибокий пошук V4 значно стискає KV Cache, настільки, що цей крок може взагалі стати непотрібним.

Тоді хто є найбільш прямим отримувачем стиснення KV Cache?

Хто масово постачає SSD? Не забувайте, що YMTC (Yangtze Memory Technologies) активно стає лідером у сфері 3D NAND. NAND може допомогти DeepSeek уникнути повторних обчислень KV. Навпаки, DeepSeek створює величезний ринок для NAND і SSD — це принесе користь не лише Yangtze Memory, але й іншим пов’язаним виробникам.

Проте це стосується не лише NAND і SSD.

LPDDR-пам’ять також має великий потенціал. Вона може використовуватися для зберігання ваг моделей і потокової передачі цих ваг у HBM за потреби, що зменшує навантаження на HBM. Команда SGLang опублікувала чудовий блог, де це детально описано. Нижче наведено схему, що ілюструє, як працює цей підхід.

Хоча DeepSeek не розроблявся спеціально для цього рішення, його архітектура MoE, наявність великої кількості експертних моделей та використання 4-бітних вагів роблять це рішення більш здійсненним.

Ця схема показує, як може використовуватися пам’ять та як ваги моделі потоково передаються з LPDDR до HBM. Надзвичайно рекомендуємо прочитати блог SGLang.

Ця інновація, у поєднанні з надзвичайно стислим та безвтратним KV Cache, значно зменшить вимоги до HBM.

Тоді хто в Китаї виробляє LPDDR? Відповідь — CXMT, або Chongqing Xinxin Memory. Вони відстають лише на півпокоління за швидкістю LPDDR і на одне покоління за щільністю, що не є значною різницею.

Крім достатньої кількості NAND, екосистема штучного інтелекту в Китаї в найближчому майбутньому також матиме достатню кількість LPDDR. Чи це зменшить навантаження на обчислювальну потужність? Відповідь: так. Продовжуйте читати.

Розумне використання пам’яті також може зменшити навантаження на GPU / ASIC

Використання NAND для зберігання KV Cache є простим для розуміння: воно дозволяє зберігати KV Cache довше, зменшує навантаження на HBM та уникнути повторних обчислень KV Cache, що зменшує навантаження на GPU та ASIC.

Тоді чи може LPDDR також відігравати подібну роль? Крім того, щоб бути місцем зберігання, з якого ваги можна «за потребою та миттєво» потоково передавати до HBM, чи вона може додатково зменшити навантаження на обчислення?

Відповідь: так.

LPDDR може використовуватися для зберігання великої кількості контенту, що називається Engram. У статті DeepSeek про Engram вони зазначають, що MoE може розширювати ємність моделі за допомогою умовних обчислень, але сам Transformer не має вбудованого механізму «пошуку знань». Тому Transformer зазвичай змушений неефективно симулювати процес пошуку за допомогою обчислень.

Щоб вирішити цю проблему, DeepSeek запропонував модуль Engram. Він модернізував класичне N-gram-вкладення, перетворивши його на хеш-оснований механізм пошуку O(1), щоб створити комплементарний розріджений шлях, який вони назвали умовною пам’яттю (conditional memory).

Цей підхід дозволяє зекономити обчислювальні ресурси, але вимагає пам’яті для зберігання таблиці вкладень, яка сама по собі може бути дуже великою.

Сутністю є типовий підхід «обмін пам’яті на обчислення». Але ключове розуміння полягає в тому, що з точки зору вартості зчитування кожного біта даних, «пам’ять» значно дешевша — один пошук LPDDR набагато дешевший, ніж пропускати дані через кілька шарів Transformer для однієї прямого проходу. Тому в масштабних сценаріях це дуже вигідний обмін.

Це те, як DeepSeek зберігає обчислення за рахунок часткової втрати пам’яті.

Варто зробити компроміси

Оскільки в Китаї немає еквівалентної щільності транзисторів у чіпах та немає EUV, китайські GPU та ASIC, ймовірно, довгостроково відстають за первинною потужністю FLOPs від західних GPU. Вони також все ще мають помітний розрив у сфері передових упаковок. Тому такі компроміси дуже варто робити, особливо за умови, що Китай може масово виробляти NAND та LPDDR-пам’ять.

Огляд довгострокової стратегії DeepSeek

З цих інновацій здається, що метою DeepSeek є не отримання кількох мільярдів доларів прибутку зараз. Багато рішень, які вони приймали раніше, це підтверджують: досі немає мультимодальних моделей, немає моделей для голосу, про відеомоделі й мовити не варто.

Він справді бере участь у тривалій грі, що вимагає терпіння і може мати масштаб до 10 трильйонів доларів США: сприяння формуванню альтернативної екосистеми AI-апаратного забезпечення.

Це не лише для того, щоб китайські виробники пам’яті стали ключовими гравцями на китайському та глобальному ринку AI-обладнання, а й для фундаментального зменшення вимог до ресурсів, щоб навчання та обслуговування AI-моделей стали більш витратно ефективними. Таким чином, багато виробників GPU, ASIC та мережевих чіпів мають можливість стати придатними варіантами.

Тим часом ці інновації також стануть у пригоді західній екосистемі відкритого коду та новому поколінню виробників обладнання.

Всі ознаки вже з’явилися. Давайте детально розглянемо ці інновації, запропоновані DeepSeek до цього моменту:

1. Модель змішаних експертів (MoE) і MLA, введені в DeepSeek V2

DeepSeek у V2 впровадив MoE та MLA. MoE зменшив обчислювальні витрати необхідні для навчання високорозумних моделей приблизно на 40–50%; MLA зменшив KV Cache на 90%.

Це робить вивантаження KV Cache на SSD досить ефективним.

Ці ідеї вперше з’явилися у статті DeepSeek V2, опублікованій DeepSeek у травні 2024 року. Пізніше вони стали основою для навчання DeepSeek V3. Тоді DeepSeek навчив систему, що за продуктивністю наближається до закритих моделей, використовуючи лише 2048 H800 GPU зі зниженою продуктивністю.

2. DSA: Введено в DeepSeek V3.2 Exp для зменшення обчислювальних витрат у сценаріях з довгим контекстом та зменшення навантаження на пропускну здатність HBM.

Основна роль DSA — забезпечити, щоб обчислювальна складність не зростала постійно зі збільшенням довжини контексту. Дивіться нижче графік: із збільшенням довжини контексту час обробки DeepSeek-V3.2 залишається майже постійним.

3. mHC: DeepSeek було запропоновано у статті «mHC: Manifold-Constrained Hyper-Connections» у грудні 2025 року.

mHC — це інновація DeepSeek на макроархітектурному рівні, яка переробила спосіб передачі інформації між шарами Transformer.

Раніше, починаючи з ResNet, моделі зазвичай використовували стандартні залишкові з’єднання, тобто x + F(x). Підхід mHC полягає у розширенні залишкового потоку до кількох паралельних інформаційних каналів та дозволі моделі виконувати навчану змішування між цими каналами. Ключовим є те, що матриця змішування обмежується як подвійно-стохастична матриця, тобто обмежується на біркгофовому багатограннику за допомогою проекції Сінхорна-Кнопа. Це забезпечує математичну гарантію, що незалежно від глибини моделі, амплітуда сигналу залишається стабільною.

Це вирішило катастрофічну нестабільність, з якою стикалися раніше без обмежень Hyper-Connections. Hyper-Connections спочатку були запропоновані ByteDance, але без обмежень підсилення сигналу зростало до 3000 разів при розмірі 27 мільярдів параметрів, що призводило до повного провалу навчання.

Обчислення mHC має низьку вартість: воно додає лише приблизно 6,7% до фактичного часу навчання, оскільки не змінює FLOPs у шарах уваги чи FFN, а лише змінює спосіб маршрутизації виводів цих шарів між шарами.

Але покращення продуктивності є досить помітними: при розмірі 27 мільярдів параметрів mHC показує зростання на 7,2 бали у завданнях логічного висновку BIG-Bench Hard, на 3,2 бали у DROP, на 2,8 бали у математичних завданнях GSM8K та на 1,4 бали у загальних знаннях MMLU. Ці покращення досягнуті за тих самих розмірів моделі та майже тих самих обчислювальних бюджетів.

Сутність mHC полягає у забезпеченні більш багатої та виразної топології маршрутизації міжшарової інформації, що дозволяє досягти вищої інтелектуальної продуктивності на один параметр майже без додавання додаткових FLOPs.

mHC — це складна архітектурна розробка, але вона забезпечує більш стабільний процес навчання та вищу інтелектуальну продуктивність на один параметр.

4, CSA, HSA: DeepSeek було введено у V4 у квітні 2026 року.

Метою CSA та HSA є зменшення вимог до KV Cache ще на 90% шляхом стиснення KV Token, а також значне зменшення необхідних FLOPs, що одночасно зменшує навантаження на HBM та GPU/ASIC.

5. Engram: DeepSeek введе у першому кварталі 2026 року, сутність якого полягає у обміні обчислювальної ефективності на пам’ять, а саме LPDDR-пам’ять.

Як показано на детальній діаграмі нижче, Engram забезпечує значне підвищення продуктивності за тих самих загальних параметрів бюджету.

6. Engram: DeepSeek введе у першому кварталі 2026 року, сутність якого полягає у обміні обчислювальної ефективності на певну кількість пам’яті, а саме LPDDR-пам’яті.

Це рекомендації, які DeepSeek поділилися з виробниками обладнання у статті V4. Я впевнений, що під час особистих обговорень вони надали ще більше відгуків.

7. Інвестиції в TileLang також вказують на той самий напрямок: DeepSeek не просто вирішує власний обмежений обчислювальний потенціал, а сприяє створенню китайської екосистеми апаратного забезпечення, здатної конкурувати з західною.

За допомогою TileLang розробники можуть написати kernel — нижчий код для обчислень — лише один раз, а потім запустити його на кількох апаратних платформах, за умови, що для цих платформ вже існують відповідні бекенди TileLang.

Я очікую, що інші китайські лабораторії штучного інтелекту також поступово приєднаються. Це допоможе китайським виробникам обладнання опосередковано відповісти на так звану «CUDA-захисну стіну». Разом з тим, це розкриє більший потенціал західного обладнання, наприклад, AMD.

Варто зазначити, що багато китайських платформ AI-апаратного забезпечення вже надають сумісність з CUDA або шар перекладу CUDA. Наприклад, Moore Threads,沐曦, BiRen і TianShu Zhixin — це китайські чіпи, які досягають високої сумісності з CUDA завдяки шарам перекладу. Тому теоретично їм не обов’язково потрібен TileLang.

Масштабне навчання з підсиленням та RSI

Зі збільшенням джерел обчислювальних потужностей для DeepSeek — тобто зростанням варіантів обладнання — та одночасним зменшенням вимог моделі до обчислювальних ресурсів, вона зможе розпочати більш амбітні проекти навчання, зокрема післянавчання за допомогою підсиленого навчання.

Підсилене навчання вимагає генерації великої кількості траєкторій, тобто численних трильйонів токенів. Цей процес дуже швидко стає надзвичайно витратним. Крім того, якщо потрібно навчати модель з довжиною контексту в 1 мільйон, потрібно генерувати траєкторії такої ж довжини. Лише на таких наддовгих траєкторіях модель може бути справді навчена підтримувати довгострокові завдання.

Крім того, зі збільшенням кількості апаратних опцій DeepSeek отримає більше апаратних ресурсів, що сприятиме автоматизованому дослідженню, відомому як RSI. RSI означає, що ШІ самостійно проектує та виконує експерименти. Цей підхід вимагатиме великої кількості спроб і помилок, а витрати швидко зростатимуть. Але RSI є критично важливим для дослідження повного простору проектування моделей. Перш ніж перейти до AGI, а потім і до ASI, DeepSeek повинен володіти здатністю RSI.

Те, що робить DeepSeek сьогодні, індустрія буде копіювати завтра

Інновації DeepSeek у напрямках експертних мішаних моделей, MLA, DSA та інших були поступово впроваджені іншими AI-лабораторіями по всьому світу та в Китаї.

Наприклад, розробник серії моделей GLM, ZAI, використовує MLA та DSA. Kimi, відомий як Moonshot, також застосовує MLA і відкрито заявляє, що його архітектура розроблена на основі архітектури DeepSeek. Навпаки, DeepSeek використовує оптимізатор Muon, який уперше був застосований Kimi (Moonshot) під час масштабного навчання.

Варто зазначити:

MoE було вперше запропоноване Google у 2017 році, ключовим автором був Noam Shazeer. Внесок DeepSeek полягає у масштабному застосуванні MoE та розробці власних супутніх методів.

Muon, тобто MomentUm Orthogonalized by Newton-Schulz оптимізатор, був запропонований дослідником з машинного навчання Келлером Джорданом наприкінці 2024 року. Команда Kimi (Moonshot) була першою, хто застосував його для масштабного навчання.

Як вирішити питання з прибутком?

Ми можемо розглянути цікавий приклад OpenAI.

OpenAI отримала варанти/опціони на купівлю акцій AMD і Cerebras за нижчою ціною, які пов’язані з досягненням етапів споживання обчислювальних потужностей. Для AMD і Cerebras це дуже вигідна угода, оскільки, коли OpenAI зобов’язується використовувати їхнє обладнання, ймовірність їхнього довгострокового успіху значно зростає.

У оголошенні AMD є такий абзац:

Як частина угоди, для подальшої координації стратегічних інтересів сторін, AMD видала OpenAI варант на купівлю до 160 мільйонів звичайних акцій AMD, які будуть виходить поступово залежно від досягнення певних вихідних показників. Перша партія буде виходити після завершення початкового розгортання потужності 1 ГВт, а наступні партії — по мірі збільшення закупівель до 6 ГВт. Умови виходу також пов’язані з досягненням AMD певної ціни акцій, а також з досягненням OpenAI технічних і комерційних вихідних показників, необхідних для масштабного розгортання AMD.

Я передбачаю, що DeepSeek також укладе подібні угоди з кількома китайськими виробниками пам’яті, ASIC, CPU та мережевих технологічних стеків і тісно співпрацюватиме з ними, щоб забезпечити здатність їхніх апаратних стеків виконувати лідируючі AI-навантаження.

З урахуванням того, що загальна ринкова капіталізація всіх західних, включаючи союзників у Східній Азії, акцій, пов’язаних з ШІ, вже перевищує 10 трильйонів доларів США, такий підхід «отримання акційного доходу шляхом співпраці» надасть DeepSeek можливість допомогти Китаю створити аналогічно велику галузь та отримати свою частку, що в кінцевому підсумку дозволить досягти оцінки в 1 трильйон доларів США.

Це не лише дозволить DeepSeek заробити значно більше грошей, ніж від традиційних підписок на додатки, але й здійснити її мету — «зробити AGI доступним для кожного». Лян Веньфен — запеклий шанувальник Джима Сімонса та досить розумний гравець на ринку капіталу, щоб не пропустити цього.

Якщо ви подивитесь назад на все, що DeepSeek зробив до цього моменту, це єдина пояснення, яке має сенс.

Це ключові акції штучного інтелекту. У графіці ще не включені гіпермасштабні хмарні провайдери та багато інших пов’язаних компаній.

Оригінальне посилання