Велика стратегія DeepSeek на 10 трильйонів USD
Автор оригіналу: @bookwormengr
Пеггі, BlockBeats
Редакційна примітка: Протягом останнього року обговорення, пов’язані з DeepSeek, здебільшого зосереджувалися на продуктивності моделі, стратегії відкритого коду та ціновій війні. Але якщо розуміти DeepSeek лише через питання «чи продавати підписку», «чи є мультимодальність» чи «чи може він бути coding agent», можна недооцінити те, що він справді прагне змінити.
Ця стаття пропонує більш радикальний висновок: метою DeepSeek може бути не короткострокове монетизування через рівень застосунків, а через серію інновацій у нижчих архітектурних рівнях — перетворення структури витрат на навчання та висновування ШІ та непряме формування нового апаратного екосистеми. Від MoE та MLA до DSA, CSA, mHC, Engram, а потім Dual Path і TileLang — технологічний шлях DeepSeek завжди обертався навколо однієї ключової проблеми: як за допомогою меншої кількості висококласних обчислювальних ресурсів запускати потужніші моделі, коли обмежені HBM, передові технологічні процеси, упаковка та екосистема CUDA.
Найбільш важливим у статті є не те, чи зможе DeepSeek заробити кілька мільярдів доларів за рахунок API або підписки, а чи зв’язує вона здатності моделей, систему пам’яті та екосистему вітчизняного обладнання разом. Стиснення KV Cache зменшує залежність від HBM, NAND і SSD можуть виконувати функції довготривалого кешування, LPDDR може використовуватися для потокового завантаження ваг та зберігання Engram, а TileLang намагається зменшити перевагу CUDA. Якщо ці інновації продовжуватимуть поширюватися, вигоду отримають не лише сам DeepSeek, але й сектори зберігання, ASIC, GPU, мережеві чіпи та вся ланцюжкова інфраструктура штучного інтелекту.
Звичайно, твердження про «екосистему ринку в 10 трильйонів доларів» і «оцінку в 1 трильйон доларів» все ще мають сильний спекулятивний характер. Але воно надає важливий шлях для розуміння DeepSeek: відкрите походження не обов’язково означає відмову від комерціалізації, а низька ціна не завжди є лише субсидуванням ринку. Для DeepSeek справжній бізнес, можливо, не в інфраструктурному рівні, а в тому, щоб зробити більше обладнання придатним для використання і зробити можливим надання штучного інтелекту з нижчими витратами. Іншими словами, він, можливо, продає не самі моделі, а можливість наступного покоління інфраструктури штучного інтелекту.
Нижче наведено оригінал:

Чи ви коли-небудь думали, як DeepSeek збирається заробляти гроші, і можливо, багато грошей?
Він не запровадив конкурентоспроможних підписок на програмування, на зразок GLM, MoonShot і MiniMax; також він не має мультимодальних, аудіо- та відеомоделей. Дотепер він навіть не має власного harness — зовнішньої виконавчої рамки для викликів моделей, підключення інструментів та виконання завдань — хоча вони недавно розпочали набір персоналу для створення цієї системи.
Тим часом DeepSeek, схоже, довгостроково твердо стоїть на стороні відкритого коду і навіть охоче ділиться своїми «секретами». Чи це не безглуздя? Чи це не просто витрачання грошей навіть напрасно? Чи ті, хто збирається інвестувати в нього 10 мільярдів доларів, справді кидають гроші у водопровід?
На мою думку, відповідь точно навпаки.
Далі я зроблю деякі спостереження на основі того, що DeepSeek вже зробив, і проаналізую стратегію, яку, схоже, він дотримується. Мета генерального директора DeepSeek Лян Веньфена, ймовірно, виходить далеко за межі поточної боротьби моделей. Він може прагнути до більш великої мети: DeepSeek має можливість досягти оцінки в 1 трильйон доларів США, водночас сприяючи формуванню нової галузі розміром у 10 трильйонів доларів США.

TechInAsia про останнє фінансування DeepSeek
Повторне відвідування «Подорожі героя» DeepSeek
DeepSeek завжди йшов проти вітру. Він не обрав постійне випускання трохи потужніших моделей і поспішне перетворення їх на безпосередньо прибуткові застосунки, наприклад, підписки на програмування. 27 січня 2025 року я опублікував широко поширений твіт про те, як бачу «геройський шлях» DeepSeek. Зараз ця історія стала ще цікавішою.
Поки інші намагаються створювати щільні моделі, DeepSeek обрав більш складні для навчання моделі змішання експертів (Mixture of Experts, MoE).
Вони застосували підхід «першопринципів», розробивши новий алгоритм GRPO, щоб замінити тодішній домінуючий, але більш витратний у реалізації алгоритм PPO для підсиленого навчання.
Вони виявили, що підхід, заснований на підсиленні навчання з перевіреними нагородами (Reinforcement Learning from Verified Rewards, RLVR), є ключовою стратегією для підвищення здатності моделі до міркувань.
Вони також запропонували просту стратегію прогнозування за допомогою «багатотокенного прогнозування» (Multi Token Prediction), що також робить навчальні сигнали більш щільними.
Вони вдосконали конвеєр «ZERO bubble» для підвищення ефективності використання обмежених ресурсів GPU.
Вони запустили експертний балансувальник навантаження, щоб зробити розгортання моделей MoE простішим для всіх. Зокрема, за допомогою стратегії «широкого паралелізму експертів» (Wide Expert Parallel) моделі можуть обслуговуватися з більшими пакетами, що значно знижує витрати на виведення.
Вони розробили механізми MLA, DSA, CSA, HCA для зменшення потреби у KV Cache та підтримки обчислювальних вимог на майже постійному рівні навіть із зростанням довжини контексту.
Вони винайшли Engram, обмінюючи пам’ять на обчислювальну ефективність.
Вони також розробили mHC, що забезпечує стабільне навчання навіть під час збільшення розміру моделі. Існує багато подібних прикладів.
У найпоширенішій нарративній структурі «Подорож героя» герой ніколи не вирішує з самого початку, куди його шлях приведе. Він поступово відкриває для себе свою справжню велику місію в процесі навчання та виконує її незважаючи на численні перешкоди. Він зустрічає багато скептиків, але обирає ігнорувати їх. Він також зустрічає багато зловмисників. У нього є очевидні недоліки або слабкі місця, але в кінцевому підсумку він подолує ці проблеми та виконує свою місію. Він стикається зі здавалося б непереборними викликами, але знаходить способи створювати союзи та вчиться мудро використовувати обмежені та цінні ресурси. Саме це робить глядачів готовими підтримувати героя. Саме це робить DeepSeek володарем послідовників, глобального поваги та опонентів.
Як я детально поясню нижче, DeepSeek вже довго йде цим шляхом і поступово виявив свою кінцеву мету: її ціль — не продавати підписки на програмування, а стимулювати китайську екосистему штучного інтелекту в розмірі 10 трильйонів доларів США та досягти оцінки в 1 трильйон доларів США. У цьому процесі вона також створить можливості для багатьох нових учасників у західній екосистемі апаратного забезпечення.

Почнемо з деяких цікавих обчислень KV Cache
Перегляньте цей актуальній твіт від @SemiAnalysis_:

DeepSeek вже краще всіх вирішив цю проблему!
Спочатку зробимо трохи цікавих обчислень KV Cache. Не хвилюйтеся, навіть якщо ви не любите математику. Ми використаємо недавно випущений калькулятор KV Cache, щоб подивитися, скільки KV Cache зекономить DeepSeek V4 Pro, і порівняти це з найновішими моделями GLM і Qwen.
Тут я розраховую з контекстом довжиною 1 мільйон, припускаючи точність KV на 8 біт і точність індексатора на 16 біт. Ви також можете самі відкрити цей калькулятор: https://kvcache.ai/tools/kv-cache-calculator/

Також можете відкрити калькулятор і спробувати самостійно!
При довжині контексту 1 мільйон:
·DeepSeek V4 потребує лише 5,48 ГБ HBM;
·GLM-5 вимагає 60 ГБ HBM;
·Qwen3-235B-A22B вимагає до 89 ГБ HBM.
Варто звернути увагу:
·DeepSeek — це модель з 1,6 трильйона параметрів;
·GLM-5 має приблизно 700 мільярдів параметрів і вже використовує MLA та DSA від DeepSeek, але ще не використовує найновіший механізм стиснення уваги;
·Qwen3-235B-A22B має приблизно 235 мільярдів параметрів і використовує механізм уваги GQA.
DeepSeek внесла фундаментальний внесок у зменшення навантаження на пам’ять. Якщо такі інновації будуть широко впроваджені, це значно знизить витрати на запуск агентів з довгим циклом і відкриє новий круг застосувань.

Порівняння використання KV Cache при 1 мільйоні токенів контексту та розмірі моделі
Методологія за «божевіллям»
KV Cache може бути настільки малим, не втрачаючи якості моделі, саме тому DeepSeek може надавати довготривале кешування за дуже низьку ціну — її ціна навіть менше 3% від ціни кеш-попадань Sonnet 4.6, а DeepSeek може зберігати кеш протягом кількох годин.
Для довгострокових завдань менший KV Cache означає, що його можна економічніше вивантажити на SSD і повторно завантажити при необхідності. Це зменшує залежність від HBM. З погляду китайської індустрії AI-апаратного забезпечення, HBM не лише має дефіцит постачання, але й є одним із найскладніших типів пам’яті для виробництва.
Крім того, DeepSeek розробила технологію швидшого завантаження KV Cache з SSD, що описується в їхній статті Dual Path.

Ступінь стиснення KV Cache у DeepSeek V4 настільки великий, що цей крок може взагалі стати непотрібним.
Тоді хто є найбільш прямим отримувачем стиснення KV Cache?
Хто масово постачає SSD? Не забувайте, що YMTC (Yangtze Memory Technologies) активно стає лідером у сфері 3D NAND. NAND може допомогти DeepSeek уникнути повторних обчислень KV. Навпаки, DeepSeek створює величезний ринок для NAND і SSD — це принесе користь не лише Yangtze Memory, але й іншим пов’язаним виробникам.

Проте це стосується не лише NAND і SSD.
LPDDR-пам’ять також має великий потенціал. Вона може використовуватися для зберігання ваг моделей і потокової передачі цих ваг у HBM при необхідності, що зменшує навантаження на HBM. Команда SGLang раніше опублікувала чудовий блог, де це детально пояснюється. Нижче наведено схему, що ілюструє, як працює цей підхід.
Хоча DeepSeek не був спеціально спроектований для цього рішення, його архітектура MoE, наявність великої кількості експертних моделей та використання 4-бітних ваг роблять це рішення більш здійсненним.

Ця схема показує, як може використовуватися пам’ять та як ваги моделі потоково передаються з LPDDR до HBM. Надзвичайно рекомендуємо ознайомитися з блогом SGLang.
Ця інновація, у поєднанні з надзвичайно стислим та безвтратним KV Cache, значно зменшить вимоги до HBM.
Тоже саме, хто в Китаї виробляє LPDDR? Відповідь — CXMT, або Chongqing Xinxin Memory. Вони відстають лише на півпокоління за швидкістю LPDDR і на одне покоління за щільністю, що не є значною різницею.
Крім достатньої кількості NAND, екосистема штучного інтелекту в Китаї в найближчому майбутньому також матиме достатню кількість LPDDR. Це зможе полегшити навантаження на обчислювальну потужність? Відповідь: так. Продовжуйте читати.

Розумне використання пам’яті також може зменшити навантаження на GPU / ASIC
Використання NAND для зберігання KV Cache є простим для розуміння: воно дозволяє зберігати KV Cache довше, зменшує навантаження на HBM та уникнути повторних обчислень KV Cache, що зменшує навантаження на GPU та ASIC.
Тоді чи може LPDDR відігравати подібну роль? Крім того, щоб бути місцем зберігання, з якого ваги можна «за запитом у режимі реального часу» потоково передавати до HBM, чи вона може додатково зменшити навантаження на обчислення?
Відповідь: так.
LPDDR може використовуватися для зберігання великої кількості контенту, що називається Engram. У статті DeepSeek про Engram вони зазначають, що MoE може розширювати ємність моделі за допомогою умовних обчислень, але сам Transformer не має вбудованого механізму «пошуку знань». Тому Transformer зазвичай змушений неефективно моделювати процес пошуку за допомогою обчислень.
Щоб вирішити цю проблему, DeepSeek запропонував модуль Engram. Він модернізував класичне N-gram-вкладення, перетворивши його на хеш-оснований механізм пошуку O(1), щоб створити комплементарний розріджений шлях, який вони назвали умовною пам’яттю (conditional memory).
Цей підхід дозволяє зекономити обчислення, але вимагає пам’яті для зберігання таблиці вкладень, яка сама по собі може бути дуже великою.
Сутністю цього є класичний підхід «обмін пам’яті на обчислення». Але ключове розуміння полягає в тому, що з точки зору вартості зчитування кожного біта даних, «пам’ять» значно дешевша — один пошук LPDDR набагато дешевший, ніж пропускати дані через кілька шарів Transformer для однієї передньої передачі. Тому в масштабних сценаріях це дуже вигідний обмін.
Це те, як DeepSeek віддає частину пам’яті, щоб зекономити обчислювальні ресурси.

Варто зробити компроміси
Оскільки в Китаї немає рівноцінної щільності транзисторів у чіпах та немає EUV, китайські GPU та ASIC, ймовірно, довгостроково відстають за первинною потужністю FLOPs від західних GPU. Вони також все ще мають значну різницю в передових упаковках. Тому такі компроміси дуже варто робити, особливо за умови, що Китай може масово виробляти NAND та LPDDR-пам’ять.
Огляд довгострокової стратегії DeepSeek
З цих інновацій здається, що мета DeepSeek — не отримати кілька мільярдів доларів прибутку зараз. Багато рішень, які вони приймали раніше, це підтверджують: досі немає мультимодальних моделей, немає голосових моделей, про відеомоделі й мовити не варто.
Він справді бере участь у тривалій грі, що вимагає терпіння і може мати масштаб до 10 трильйонів доларів США: сприяння формуванню альтернативної екосистеми AI-апаратного забезпечення.
Це не лише для того, щоб китайські виробники пам’яті стали ключовими гравцями на китайському та глобальному ринку AI-обладнання, а й для фундаментального зменшення вимог до ресурсів, щоб навчання та обслуговування AI-моделей стали більш витратно ефективними. Таким чином, багато виробників GPU, ASIC та мережевих чіпів отримують можливість стати придатними варіантами.
Тим часом ці інновації також стануть у користь західному відкритому екосистемі та новому поколінню виробників обладнання.
Всі ознаки вже з’явилися. Давайте детально розглянемо ці інновації, запропоновані DeepSeek до цього моменту:
1. Модель змішаних експертів (MoE) і MLA, введені в DeepSeek V2
DeepSeek у V2 впровадив MoE та MLA. MoE зменшив обчислювальні витрати для навчання високорозумних моделей приблизно на 40–50%; MLA зменшив KV Cache на 90%.
Це робить вивантаження KV Cache на SSD досить ефективним.
Ці ідеї вперше з’явилися у статті DeepSeek V2, опублікованій DeepSeek у травні 2024 року. Пізніше вони поклали основу для навчання DeepSeek V3. Тоді DeepSeek навчив систему, яка за продуктивністю наближалася до закритих моделей, використовуючи лише 2048 H800 GPU зі зниженою продуктивністю.

2. DSA: Введено в DeepSeek V3.2 Exp для зменшення обчислювальних витрат у сценаріях з довгим контекстом та зменшення навантаження на пропускну здатність HBM.
Основна роль DSA — забезпечити, щоб обчислювальна складність не зростала постійно зі збільшенням довжини контексту. Дивіться нижче графік: зі збільшенням довжини контексту час обробки DeepSeek-V3.2 залишається майже постійним.

3. mHC: DeepSeek було запропоновано у статті «mHC: Manifold-Constrained Hyper-Connections» у грудні 2025 року.
mHC — це інновація DeepSeek на макроархітектурному рівні, яка перепроектувала спосіб передачі інформації між шарами Transformer.
Раніше, починаючи з ResNet, моделі зазвичай використовували стандартні залишкові з’єднання, тобто x + F(x). Підхід mHC полягає у розширенні залишкового потоку до кількох паралельних інформаційних каналів і дозволі моделі виконувати навчану змішування між цими каналами. Ключовим є те, що матриця змішування обмежується як подвійно-стохастична матриця, тобто обмежується на біркгофовому багатограннику за допомогою проєкції Сінхорна-Кнопа. Це забезпечує математичну гарантію, що незалежно від глибини моделі, амплітуда сигналу залишається стабільною.
Це вирішило проблему катастрофичної нестабільності, з якою стикалися раніше безобмежені Hyper-Connections. Hyper-Connections спочатку були запропоновані ByteDance, але без обмежень посилення сигналу зростало до 3000 разів при розмірі в 27 мільярдів параметрів, що призводило до повного провалу навчання.
Обчислення mHC має низьку вартість: воно додає лише приблизно 6,7% до реального часу навчання, оскільки не змінює FLOPs у шарах уваги чи FFN, а лише змінює спосіб маршрутизації виводів цих шарів між шарами.
Але покращення продуктивності є досить помітними: при розмірі 27 мільярдів параметрів mHC показує зростання на 7,2 бали у завданнях інференсу BIG-Bench Hard, на 3,2 бали у DROP, на 2,8 бали у математичних завданнях GSM8K та на 1,4 бали у загальних знаннях MMLU. Усі ці покращення досягнуті при тому самому розмірі моделі та майже однаковому обчислювальному бюджеті.
Сутність mHC полягає у забезпеченні більш багатої та виразної топології маршрутизації міжшарової інформації, що дозволяє досягти вищої інтелектуальної продуктивності на один параметр майже без додавання додаткових FLOPs.

mHC — це складна архітектурна розробка, але вона забезпечує більш стабільний процес навчання та вищу інтелектуальну продуктивність на один параметр.
4, CSA, HSA: DeepSeek було введено у V4 у квітні 2026 року.
Метою CSA та HSA є зменшення вимог до KV Cache ще на 90% шляхом стиснення KV Token, а також значне зменшення необхідних FLOPs, що одночасно зменшує навантаження на HBM та GPU/ASIC.

5. Engram: DeepSeek введе у першому кварталі 2026 року, сутність якого полягає у обміні обчислювальної ефективності на пам’ять, а саме LPDDR-пам’ять.
Як показано на детальній діаграмі нижче, Engram забезпечує значне підвищення продуктивності за тих самих загальних параметрів бюджету.

6. Engram: DeepSeek введе у першому кварталі 2026 року, сутність якого полягає у обміні обчислювальної ефективності на певну кількість пам’яті, а саме LPDDR-пам’яті.
Як показано на детальній діаграмі нижче, Engram забезпечує значне підвищення продуктивності за тих самих загальних параметрів бюджету.

Це рекомендації, які DeepSeek поділилися з виробниками обладнання у статті V4. Я впевнений, що під час особистих зустрічей вони надали б ще більше відгуків.
7. Інвестиції в TileLang також вказують на те саме напрямок: DeepSeek не просто вирішує власний обмежений обчислювальний потенціал, а сприяє створенню китайської екосистеми апаратного забезпечення, здатної конкурувати з західною.
За допомогою TileLang розробники можуть написати kernel — нижчий код для обчислень — лише один раз, а потім запустити його на кількох апаратних платформах, якщо для них вже існують відповідні бекенди TileLang.
Я очікую, що інші китайські лабораторії штучного інтелекту також поступово приєднаються. Це допоможе китайським виробникам обладнання опосередковано вирішити так звану «CUDA-фортецю». Разом з тим, це також розкриє більший потенціал західного обладнання, наприклад, AMD.
Варто зазначити, що багато китайських платформ AI-апаратного забезпечення вже надають сумісність з CUDA або шар перекладу CUDA. Наприклад, Moore Threads,沐曦, BiRen і TianShu Intelligence — це китайські чіпи, які досягають високої сумісності з CUDA завдяки шарам перекладу. Тому теоретично їм не обов’язково потрібен TileLang.

Масштабне навчання з підсиленням та RSI
Зі збільшенням джерел обчислювальних потужностей для DeepSeek — тобто зростанням варіантів обладнання — та одночасним зменшенням вимог моделі до обчислювальних ресурсів, вона зможе розпочати більш амбітні проекти навчання, зокрема післянавчання за допомогою підсиленого навчання.
Підсилене навчання вимагає генерації великої кількості траєкторій, тобто мільярди токенів. Цей процес дуже швидко стає надзвичайно витратним. Крім того, якщо потрібно навчити модель з довжиною контексту в 1 мільйон, потрібно генерувати траєкторії такої ж довжини. Лише на таких наддовгих траєкторіях модель може бути справді навчена підтримувати довгострокові завдання.
Крім того, зі збільшенням кількості апаратних опцій DeepSeek матиме більше доступних апаратних ресурсів, що сприятиме автоматизованому дослідженню, відомому як RSI. RSI означає, що ШІ самостійно проектує та виконує експерименти. Цей підхід вимагатиме великої кількості спроб і помилок, а витрати швидко зростатимуть. Але RSI є критично важливим для дослідження повного простору проектування моделей. Перш ніж перейти до AGI, а потім і до ASI, DeepSeek повинен володіти здатністю RSI.
Те, що робить DeepSeek сьогодні, індустрія буде копіювати завтра
Інновації DeepSeek у напрямках експертних мішаних моделей, MLA, DSA тощо поступово впроваджуються іншими AI-лабораторіями по всьому світу та в Китаї.
Наприклад, розробник серії моделей GLM, ZAI, використовує MLA та DSA. Kimi, відомий як Moonshot, також застосовує MLA і відкрито заявляє, що його архітектура розроблена на основі архітектури DeepSeek. Навпаки, DeepSeek використовує оптимізатор Muon, який уперше був застосований Kimi (Moonshot) під час масштабного навчання.
Варто зазначити:
MoE було вперше запропоноване Google у 2017 році, ключовим автором був Noam Shazeer. Внесок DeepSeek полягає у масштабному застосуванні MoE та розробці власних супутніх методів.
Muon, тобто MomentUm Orthogonalized by Newton-Schulz оптимізатор, був запропонований дослідником з машинного навчання Келлером Джорданом наприкінці 2024 року. Команда Kimi (Moonshot) була першою, хто застосував його для масштабного навчання.
Як вирішити питання з прибутком?
Ми можемо розглянути цікавий приклад OpenAI.
OpenAI отримала варанти/опціони на придбання акцій AMD і Cerebras за нижчою ціною, які зв’язані з досягненням етапів споживання обчислювальних потужностей. Для AMD і Cerebras це дуже вигідна угоди, оскільки, коли OpenAI зобов’язується використовувати їхнє обладнання, ймовірність їхнього довгострокового успіху значно зростає.
У оголошенні AMD є такий абзац:
Як частина угоди, для подальшої координації стратегічних інтересів сторін, AMD видала OpenAI варант на купівлю до 160 мільйонів звичайних акцій AMD, які будуть видаються поступово залежно від досягнення певних віх. Перша партія буде видаана після завершення початкового розгортання потужності 1 ГВт, а наступні партії — з поступовим збільшенням закупівель до 6 ГВт. Умови видачі також пов’язані з досягненням AMD певної ціни акцій, а також з досягненням OpenAI технічних і комерційних віх, необхідних для масштабного розгортання AMD.

Я передбачаю, що DeepSeek також укладе подібні угоди з кількома китайськими виробниками пам’яті, ASIC, CPU та мережевих технологічних стеків і глибоко співпрацюватиме з ними, щоб забезпечити здатність їхніх апаратних стеків виконувати лідируючі AI-навантаження.
Враховуючи, що загальна ринкова капіталізація всіх західних, включаючи союзників у Східній Азії, AI-акцій вже перевищує 10 трильйонів доларів США, такий підхід «отримання акційного доходу через співпрацю» дозволить DeepSeek допомогти Китаю створити аналогічно велику галузь та отримати свою частку, що в кінцевому підсумку забезпечить оцінку в 1 трильйон доларів США.
Це не лише дозволить DeepSeek заробити значно більше грошей, ніж традиційні підписки на додатки, але й здійснити її мету — «зробити AGI доступним для кожного». Лян Веньфен — запеклий фанат Джима Саймонса та досить розумний гравець на ринку капіталу, щоб не пропустити цього.
Якщо ви подивитесь назад на все, що DeepSeek зробив до цього моменту, це єдина пояснення, яке має сенс.

Це ключові акції штучного інтелекту. У графіці ще не включені гіпермасштабні хмарні провайдери та багато інших пов’язаних компаній.
Оригінальне посилання
