Ang 10 Trilyong Dolyar na Estratehiya ni DeepSeek: Open Source at AI Hardware Ecosystem

Ang malaking estratehiya ng 10 trilyong USD ni DeepSeek

Original na may-akda: @bookwormengr

Peggy, BlockBeats

Editor's Note: Sa nakaraang taon, ang karamihan sa diskusyon tungkol sa DeepSeek ay nakatuon sa performance ng model, ang open-source strategy, at ang pakikibaka sa presyo. Ngunit kung ikukumpara lamang ang DeepSeek batay sa “kung ibebenta ba ang subscription”, “may multi-modal ba ito”, o “kaya ba itong gawin bilang coding agent”, maaaring mabawasan ang tunay na nais baguhin nito.

Ang artikulong ito ay nagtataguyod ng isang mas radikal na pagtataya: ang layunin ng DeepSeek ay hindi kailangang ang pagkakaroon ng kita sa short-term sa application layer, kundi ang pagbabago ng cost structure ng AI training at inference sa pamamagitan ng isang serye ng mga inobasyon sa ilalim na arkitektura, at sa ganitong paraan ay direktang pagsuporta sa pagbuo ng isang bagong hardware ecosystem. Mula sa MoE, MLA hanggang sa DSA, CSA, mHC, Engram, at pati na ang Dual Path at TileLang, ang teknikal na landas ng DeepSeek ay palaging nakatuon sa isang pangunahing tanong: paano gamitin ang mas kaunting premium compute power upang patakaran ang mas malakas na model, habang limitado ang HBM, advanced process, packaging, at CUDA ecosystem.

Ang pinakamahalagang bagay sa artikulo ay hindi ang "kung maaari ba ng DeepSeek na kumita ng ilang milyon dolyar gamit ang API o subscription", kundi kung ito ay nagpapakasal sa kakayahan ng modelo, sistema ng memorya, at lokal na ekosistema ng hardware. Ang pag-compress ng KV Cache ay nagbabawas sa pagkakadepende sa HBM, ang NAND at SSD ay maaaring magtanggap ng mahabang panahon na cache, ang LPDDR ay maaaring gamitin para sa streaming ng weights at pag-iimbak ng Engram, habang ang TileLang ay sumisikat na palakasin ang CUDA moat. Kung patuloy na magkakalat ang mga inobasyong ito, ang mga nakikinabang ay hindi lang ang DeepSeek mismo, kundi pati na rin ang mga sektor ng storage, ASIC, GPU, network chips, at buong chain ng AI infrastructure.

Totoo pa ring may malakas na pagtataya ang mga pagsusuri tungkol sa “10 trilyong dolyar na ekosistema” at “1 trilyong dolyar na valuation.” Gayunpaman, ito ay nagbibigay ng mahalagang landas para maunawaan ang DeepSeek: ang pagbubukas ng source ay hindi nangangahulugang pagsuko sa komersyalisasyon, at ang mababang presyo ay hindi lamang isang subsidy sa merkado. Para sa DeepSeek, ang totoong negosyo ay maaaring nasa application layer, kundi sa pagpapahintulot sa higit pang hardware na maging magamit at paggawa ng mas mura na AI supply. Sa ibang salita, hindi ito bumebenta ng sariling modelo, kundi ang pagkakaroon ng mga susunod na henerasyon ng AI infrastructure.

Narito ang orihinal:

ChangXin Memory

Nakapag-isip ka ba kung paano makakakita ng pera ang DeepSeek, at posibleng maraming pera?

Hindi ito naglunsad ng kompetitibong subscription plan para sa pag-program tulad ng GLM, MoonShot, at MiniMax; wala rin itong multimodal, audio, at video models. Hanggang sa ngayon, kahit hindi pa ito may sarili nitong harness—ang panlabas na runtime framework para sa model invocation, tool integration, at task execution—kahit na sila ay nagsimula nang maghiring ng mga posisyon kaugnay nito upang itayo ang sistema.

Samantala, tila patuloy at matatag na sumusuporta si DeepSeek sa open source, kahit na masaya itong ipaalam ang sariling mga "lihim." Hindi ba ito kakaibang gawain? Hindi ba ito pagpapalabas ng pera nang walang kapalit? Ang mga investor na handang mag-invest ng $10 bilyon sa kanya, hindi ba sila nagpapalabas ng pera sa pabigat?

Sa palagay ko, ang sagot ay kabaligtaran.

Susunod, ipapakita ko ang ilang obserbasyon batay sa mga ginawa ng DeepSeek hanggang sa kasalukuyan, at sasaliksikin ang isang istrathegya na tila sinusunod nito. Ang layunin ni梁文锋, CEO ng DeepSeek, ay maaaring higit pa sa kasalukuyang pakikidigma sa mga modelo. Maaaring hinahabol niya ang isang mas malaking premyo: may pagkakataon ang DeepSeek na makamit ang halagang $1 trilyon, habang pinapalakas ang pagbuo ng isang bagong industriya na may halagang $10 trilyon.

ChangXin Memory

TechInAsia na ulat tungkol sa pinakabagong pagsasapalaran ng DeepSeek

Muling bisitahin ang "Hero's Journey" ng DeepSeek

Patuloy na lumalaban ang DeepSeek sa mga hamon. Hindi ito pumili na patuloy na maglabas ng mga modelo na kaunti lang mas malakas, tapos agad na i-package bilang mga aplikasyon na agad na kikita, tulad ng mga subscription para sa pag-program. Noong Enero 27, 2025, nag-post ako ng isang malawakang nai-share na tweet tungkol sa aking pananaw sa “hero’s journey” ng DeepSeek. Ngayon, mas kapani-paniwala na ang kuwento na ito.

Habang ang iba ay nagtatry na buuin ang mga dense model, pinili ng DeepSeek ang mas mahirap na ituro na mixture of experts (MoE) model.

Gumamit sila ng paraan na "first principles" upang maglikha ng bagong GRPO algorithm, na gagamitin upang palitan ang PPO reinforcement learning algorithm na pangunahing ginagamit ngunit mas mataas ang gastos sa pagpapatupad.

Nakita nila na ang reinforcement learning mula sa verified rewards (Reinforcement Learning from Verified Rewards, RLVR) ay ang pangunahing estratehiya para mapabuti ang pag-iisip ng model.

Nilikha nila ang isang simpleng estratehiya ng paghula sa pamamagitan ng “Multi Token Prediction” at ginawa ring mas malakas ang mga signal sa pagtuturo.

Nilinang nila ang "ZERO bubble" pipeline upang mapabuti ang paggamit ng limitadong GPU resources.

Nilikha nila ang expert load balancer upang gawing mas madali ang pag-deploy ng MoE models para sa lahat. Lalo na sa pamamagitan ng "Wide Expert Parallel" strategy, maaaring serbisyuan ng mas malaking batch ang model, na nagdudulot ng malaking pagbaba sa cost ng inference.

Nilikha nila ang mga mekanismo tulad ng MLA, DSA, CSA, at HCA upang mabawasan ang pangangailangan sa KV Cache at upang panatilihin ang pagdami ng computational demand dahil sa pagdami ng context length sa halos konstanteng antas.

Nilikha nila ang Engram, na nagpapalit ng memorya para sa efficiency sa pagcompute.

Kilala rin nila ang mHC, na nagpapahintulot sa stabilisasyon ng pagtuturo habang lumalaki ang laki ng modelo. Mayroon pa maraming katulad na halimbawa.

Sa pinakakaraniwang istruktura ng kuwento na "Ang Paglalakbay ng Bayani," ang bayani ay hindi nagpasya mula sa simula kung saan tutungo ang kanyang paglalakbay. Siya ay natututo habang naglalakbay, unti-unting natutuklasan ang kanyang tunay na malaking misyon, at natatapos ito sa gitna ng maraming hadlang. Makakakita siya ng maraming nagtatanim ng pag-aalinlangan, ngunit pinipili niyang iguhit ang kanilang mga salita. Makakakita rin siya ng maraming masamang aktor. Mayroon siyang malinaw na kahinaan o kawalan, ngunit sa huli ay kakalabanin niya ang mga problema na ito at matatapos ang kanyang misyon. Kinakaharap niya ang mga hamon na tila hindi kayang laktawan, ngunit nakakahanap siya ng paraan upang makapagtayo ng mga aliansa at matututo kung paano gamitin nang may pag-iingat ang limitadong at mahalagang mga yaman. Ito ang nagiging dahilan kung bakit handa ang mga manonood na suportahan ang bayani. Ito rin ang dahilan kung bakit nanalo ang DeepSeek ng mga sumusunod, pambuang na paggalang, at mga kalaban.

Tulad ng aking ipapaliwanag nang mas detalyado sa susunod, naglalakbay na ang DeepSeek sa landas na ito at unti-unting natuklasan ang kanyang huling kapalaran: ang layunin nito ay hindi ang pagbebenta ng mga subscription para sa pagprograma, kundi ang pagpapalakas ng isang ekosistema ng AI hardware sa China na may halagang $10 trilyon at ang pagpapataas ng kanyang halaga hanggang sa $1 trilyon. Sa proseso nito, ito ay magiging daan para sa maraming bagong pumasok sa ekosistema ng hardware sa Kanluran.

ChangXin Memory

Magsimula muna sa ilang interesanteng pagkalkula ng KV Cache

Tingnan ang huling tweet na ito ni @SemiAnalysis_:

ChangXin Memory

Nakakasolve na ng mas mahusay kaysa sa sinuman ang DeepSeek!

Magsimula muna tayo ng ilang interesanteng kalkulasyon ng KV Cache. Huwag mag-alala, kahit hindi ka mahilig sa matematika. Gamitin natin ang bagong ipinakilalang KV Cache Calculator upang tingnan kung gaano karaming pagkakataon sa KV Cache ang dala ng DeepSeek V4 Pro, at ikumpara ito sa mga pinakabagong modelo ng GLM at Qwen.

Dito ko inuunawa ang 1 milyong haba ng konteksto, na may assumptong KV precision na 8 bit at indexer precision na 16 bit. Maaari mo ring buksan ang sarili mong kalkulasyon: https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

Maaari mo rin ring buksan ang kalkuladora mo sarili!

Sa 1 milyong haba ng konteksto:

·Kailangan lang ng DeepSeek V4 ng 5.48GB HBM;

·Kailangan ng GLM-5 ang 60GB HBM;

·Kailangan ng Qwen3-235B-A22B ng higit sa 89GB na HBM.

Mahalagang tandaan:

·DeepSeek ay isang modelo na may 1.6 trilyong parameter;

·Ang GLM-5 ay may higit sa 700 bilyong parameter at ayon na sa MLA at DSA ng DeepSeek, ngunit hindi pa gumagamit ng pinakabagong mekanismo ng kompresyon sa atensyon;

Ang Qwen3-235B-A22B ay may halos 235 bilyong parameter at gumagamit ng GQA attention mechanism.

Nagbigay ang DeepSeek ng mga pangunahing kontribusyon sa pagpapabawas ng presyur sa memorya. Kung ang mga inobasyong ito ay malawakang tatanggapin, malaki ang pagbaba sa gastos sa pagpapatakbo ng mga Agent na may mahabang siklo, at mabubuksan ang susunod na hanay ng mga bagong aplikasyon.

ChangXin Memory

Pagkukumpara ng paggamit ng KV Cache sa 1 milyong token at iba’t ibang sukat ng modelo

Ang metodolohiya sa likod ng "Kapalpakan"

Ang dahilan kung bakit maliit ang laki ng KV Cache nang hindi nasasakripisyo ang kalidad ng modelo ay ang nagiging sanhi kung bakit kayang magbigay ng napakababang presyo ang DeepSeek para sa mahabang panahon ng cache—mas mababa kaysa 3% ng presyo ng cache hit ng Sonnet 4.6, at kayang i-retain ng DeepSeek ang cache sa ilang oras.

Para sa mga mahabang panahon na gawain, ang mas maliit na KV Cache ay nangangahulugan na mas maaaring i-offload nang mas mura sa SSD at i-reload kapag kailangan. Sa ganitong paraan, mababawasan ang pagkakasalalay sa HBM. Sa pananaw ng Chinese AI hardware industry, ang HBM ay hindi lamang may limitadong suplay kundi isa rin sa pinakamahirap na uri ng memorya na gawin.

Bukod dito, nilikha ng DeepSeek ang teknolohiya para mas mabilis na i-load ang KV Cache mula sa SSD, na naipaliwanag na sa kanilang papel tungkol sa Dual Path.

ChangXin Memory

Sobrang laki ng kompresyon ng DeepSeek V4 sa KV Cache, hanggang sa maaaring hindi na kailangan ang hakbang na ito.

Sino ang pinakadirektang nagsasangkot sa pag-compress ng KV Cache?

Sino ang nag-aalok ng malaking suplay ng SSD? Huwag kalimutan na ang YMTC (Yangtze Memory Technologies) ay nagsisimula nang maging isang malaking player sa larangan ng 3D NAND. Ang NAND ay makakatulong sa DeepSeek na maiwasan ang pag-uulit ng pagkalkula ng KV. Sa kabilang banda, ang DeepSeek ay gumagawa ng malaking merkado para sa NAND at SSD—na hindi lamang makakatulong sa Yangtze Memory Technologies kundi pati na rin sa iba pang kaugnay na kumpanya.

ChangXin Memory

Ngunit hindi ito nag-uugnay lamang sa NAND at SSD.

Ang LPDDR memory ay may malaking potensyal din. Maaari itong gamitin bilang lugar para i-store ang model weights, at i-stream ang mga weights na ito sa HBM kapag kinakailangan, upang mapabawasan ang presyur sa HBM. Nag-post ang SGLang team ng isang magandang blog post na naglalarawan dito. Ipinapakita ng sumusunod na larawan kung paano gumagana ang solusyong ito.

Bagaman hindi direktang disenyo ng DeepSeek ang solusyong ito, ang kanyang MoE architecture, ang malaking bilang ng expert models nito, at ang katangian ng 4-bit weights ay nagpapadali sa pagpapatupad ng solusyong ito.

ChangXin Memory

Nagpapakita ang diagram na ito kung paano maaaring gamitin ang memorya, at kung paano ang model weights ay stream mula sa LPDDR patungo sa HBM. Sobrang inirerekomenda na basahin ang blog post ng SGLang.

Kung isasama ang inobasyong ito sa napakaliit at lossless na KV Cache, makakabawas ito nang malaki sa pangangailangan para sa HBM.

Sino ang nagpaprodukto ng LPDDR sa China? Ang sagot ay CXMT, o ChangXin Memory Technologies. Nasa likod lamang sila ng isang kalahating henerasyon sa bilis ng LPDDR at isang henerasyon sa density, at ang pagkakaiba ay hindi malaki.

Bukod sa sapat na NAND, ang Chinese AI ecosystem ay magkakaroon din ng sapat na suplay ng LPDDR sa malapit na hinaharap. Makakatulong ba ito sa pagpapababa ng presyur sa computing power? Ang sagot ay: oo. Magpatuloy sa pagbabasa.

ChangXin Memory

Ang smart na paggamit ng memorya ay maaari ring mapabawasan ang presyon sa GPU / ASIC

Ang paggamit ng NAND para sa pag-iimbak ng KV Cache ay madaling maintindihan: ito ay nagpapahintulot sa KV Cache na manatili nang higit pang panahon, nagpapababa ng presyur sa HBM, at nag-iwas sa pag-uulit ng pagkalkula ng KV Cache, kaya't nababawasan ang burden sa pagkalkula ng GPU at ASIC.

Kaya ba ng LPDDR na magpanatili ng parehong papel sa paraang ito? Kaya ba nito na mas mabawasan ang presyur sa komputasyon, maliban sa pagiging isang lokasyon ng memorya na maaaring mag-stream ng weights sa HBM "on-demand"?

Ang sagot ay: Oo.

Ang LPDDR ay maaaring gamitin upang i-store ang malaking dami ng mga nilalaman na tinatawag na Engram. Sa papel ng DeepSeek tungkol sa Engram, ipinakita nila na ang MoE ay maaaring palawakin ang kapasidad ng modelo sa pamamagitan ng kondisyonal na pagkalkula, ngunit kulang ang Transformer sa isang native na mekanismo ng 「paghahanap ng kaalaman」. Kaya, kadalasan ay kailangan ng Transformer na magsimula ng maliit na paghahanap sa pamamagitan ng pagkalkula.

Upang lutasin ang problemang ito, inilahad ng DeepSeek ang Engram module. Ito ay modernisado ang klasikong N-gram embedding bilang isang hash-based O(1) lookup mechanism, na lumikha ng isang komplementong sparse path na kanilang tinatawag na conditional memory.

Ang paraang ito ay nakakatipid sa pagkalkula, ngunit kailangan ng memorya upang isama ang embedding table, at ang table na ito ay maaaring napakalaking.

Sa pangkalahatan, ito ay isang klasikong paraan na "papalit ng memorya para sa computation". Ngunit ang pangunahing pag-unawa nito ay: batay sa bawat bit ng pagbasa ng gastos, ang "memorya" ay maraming mas mura—ang isang LPDDR lookup ay mas mura kaysa sa pagpapasa ng data sa lahat ng mga layer ng Transformer para sa isang forward pass. Kaya, sa malalaking skala, ito ay isang napakabuting palitan.

Ito ang paraan kung paano hinuhulma ng DeepSeek ang ilang memorya upang makamit ang pagkakataon sa pag-save ng computation.

ChangXin Memory

Mga pagpapasya na值得做出的取舍

Dahil wala silang katumbas na density ng transistor sa chip at wala silang EUV, mas mababa ang native FLOPs performance ng Chinese GPU at ASIC kumpara sa Western GPU sa matagalang panahon. Mayroon pa rin silang malaking pagkakaiba sa advanced packaging. Kaya, ang ganitong kompromiso ay lubos na halaga, lalo na kung ang China ay kayang magproduksyon ng malaking dami ng NAND at LPDDR memory.

Ibalik ang mahabang panahon na estratehiya ng DeepSeek

Mula sa mga inobasyon na ito, tila hindi ang layunin ng DeepSeek na kumita ng ilang milyon dolyar sa kasalukuyan. Patotoo nito ang maraming desisyon na ginawa nito sa nakaraan: hanggang ngayon, wala pa ring multimodal, walang voice model, at mas wala naman sa video model.

Ang tunay na nilalayon nito ay isang matiyagang, malawak na larong maaaring umabot sa $10 trilyon: ang pagpapalakas ng pagkakabuo ng isang alternatibong ekosistema para sa AI hardware.

Hindi ito tungkol lamang sa paggawa ng mga lokal na tagagawa ng memorya sa Tsina bilang mahalagang player sa merkado ng AI hardware sa Tsina at buong mundo, kundi pati na rin sa pagbawas nang pangunahin sa pangangailangan ng mga yunit upang gawing mas cost-efficient ang pagtratrain at pagpapagana ng mga AI model. Sa ganitong paraan, maraming tagagawa ng GPU, ASIC, at network chip ang may pagkakataon na maging mga viable na opsyon.

Sambil noon, ang mga inobasyon na ito ay magdudulot din ng benepisyo sa Western open-source ecosystem, pati na rin sa mga bagong henerasyon ng manufacturer ng hardware.

Lahat ng mga tanda ay nasa lugar na. Magtatalakay tayo nang mas detalyado tungkol sa mga inobasyon na ipinakilala ng DeepSeek hanggang sa ngayon:

1. Ang expert mixture model (MoE) at MLA na ipinakilala sa DeepSeek V2

Inilatag ng DeepSeek ang MoE at MLA sa V2. Ang MoE ay nagbawas ng halos 40% hanggang 50% sa kalakasan na kailangan para sa pag-train ng mga malalaking modelo; ang MLA naman ay nagbawas ng 90% sa KV Cache.

Nagiging lubos na epektibo ang pag-unload ng KV Cache sa SSD.

Nagsimula ang mga ideyang ito sa papel na DeepSeek V2 na inilabas ni DeepSeek noong Mayo 2024. Pagkatapos, ginamit din sila bilang pundasyon para sa pag-train ng DeepSeek V3. Noong panahong iyon, gumamit lang si DeepSeek ng 2048 na H800 GPU na may napapaliit na performance upang matrain ang isang sistema na may kakayahan na malapit sa antas ng mga saradong modelo.

ChangXin Memory

2. DSA: Ipinakilala sa DeepSeek V3.2 Exp upang bawasan ang compute overhead sa mga senaryo ng mahabang konteksto at palakasin ang HBM bandwidth pressure.

Ang pangunahing papel ng DSA ay siguraduhin na ang pagkalkula ay hindi patuloy na tumataas kasabay ng pagdami ng haba ng konteksto. Tingnan ang sumusunod na tsart: habang tumataas ang haba ng konteksto, ang pagproseso ng DeepSeek-V3.2 ay nananatiling stable.

ChangXin Memory

3. mHC: Ipinakilala ni DeepSeek noong Disyembre 2025 sa papel na “mHC: Manifold-Constrained Hyper-Connections”.

Ang mHC ay isang inobasyon ng DeepSeek sa antas ng makro-arkitektura, na bumuo muli ng paraan ng paggalaw ng impormasyon sa pagitan ng mga Transformer layer.

Noong nakaraan, mula pa sa ResNet, karaniwang ginagamit ng mga modelo ang standard residual connection, na x + F(x). Ang paraan ng mHC ay ang pagpapalawak ng residual flow sa maraming paralel na channel ng impormasyon, at pinapahintulutan ang modelo na magkaroon ng matututunan na paghahalo sa pagitan ng mga channel na ito. Ang pangunahing punto ay ang pagpapalagay ng mixing matrix bilang doubly stochastic matrix, o pagpapalimita nito sa Birkhoff polytope sa pamamagitan ng Sinkhorn-Knopp projection. Sa paraang ito, matematikal na garantisado na ang amplitud ng signal ay mananatiling stable, anuman ang depth ng modelo.

Nakalutas nito ang kalamangan na nagdudulot ng kawalan ng pagkakapantay-pantay sa mga Hyper-Connections. Ipinakilala ng ByteDance ang mga Hyper-Connections, ngunit nang walang pagkakabawas, ang pagpapalakas ng signal ay tumataas hanggang sa 3,000 beses sa isang sukat na 27 bilyong parameter, na nagresulta sa ganap na pagkabigo sa pagtatrain.

Ang pagkalkula ng mHC ay mababa ang gastos: ito ay nagdudulot lamang ng halos 6.7% na overhead sa oras ng pagtuturo, dahil hindi ito nagbabago sa FLOPs ng attention layer o FFN layer, kundi nagbabago lamang sa paraan ng pagr-route ng output ng mga layer sa pagitan ng mga layer.

Ngunit ang pagtaas sa performance ay lubos na makabuluhan: sa sukat ng 27 bilyon na parameter, ang mHC ay nagtaas ng 7.2 puntos sa BIG-Bench Hard reasoning tasks, 3.2 puntos sa DROP, 2.8 puntos sa GSM8K math tasks, at 1.4 puntos sa MMLU general knowledge tasks. At ang lahat ng pagtaas na ito ay naganap sa parehong sukat ng modelo at halos parehong budget sa computation.

Sa本质上, ang mHC ay nagtataguyod ng mas mataas na inteligensya bawat parameter sa pamamagitan ng pagbibigay ng mas mayaman at mas maipapahayag na topolohiya ng pagrute ng impormasyon sa iba't ibang layer, nang hindi nagdudulot ng malaking dagdag sa FLOPs.

ChangXin Memory

Ang mHC ay isang kumplikadong disenyo ng arkitektura, ngunit ito ay nagdadala ng mas matatag na proseso ng pagtuturo, at mas mataas na intelihensya bawat parametro.

4, CSA, HSA: Ipinakilala ni DeepSeek noong Abril 2026 sa V4.

Ang layunin ng CSA at HSA ay bawasan pa ang pangangailangan sa KV Cache ng 90% sa pamamagitan ng pag-compress ng KV Token, habang pinapababa nang malaki ang kinakailangang FLOPs, upang magkasya ang presyon sa HBM at sa GPU/ASIC.

ChangXin Memory

5. Engram: Ipapasok ng DeepSeek sa unang quarter ng 2026, sa pamamagitan ng pagpalit ng compute efficiency sa halip na memorya, o LPDDR memorya.

Kasunod ng detalyadong grap na ito, ang Engram ay nagdala ng malinaw na pagpapabuti sa performance sa parehong kabuuang budget ng parameter.

ChangXin Memory

6. Engram: Ipinakilala ni DeepSeek sa unang quarter ng 2026, na sa pamamagitan ng pagpapalit ng computing efficiency sa halip na memorya, kung saan ang LPDDR memorya.

Kasunod ng detalyadong grap na ito, ang Engram ay nagdala ng malinaw na pagpapabuti sa performance sa parehong kabuuang budget ng parameter.

ChangXin Memory

Ito ang rekomendasyon na ibinahagi ng DeepSeek sa mga tagagawa ng hardware sa kanilang papel na V4. Sigurado akong mas marami pa ang kanilang feedback sa mga personal na pag-uusap.

7. Ang pag-invest sa TileLang ay nagtuturo rin sa parehong direksyon: ang DeepSeek ay hindi lamang naglulutas ng kanilang sariling kakulangan sa computing power, kundi nagpapalakas din ng Chinese hardware ecosystem upang makipagkumpetensya sa Western ecosystem.

Sa pamamagitan ng TileLang, maaaring isulat ng mga developer ang isang beses ang kernel, o ang pana-panahong code para sa pagkalkula, at pagkatapos ay paganahin ito sa maraming hardware platform, kondisyon na mayroon nang suportang TileLang backend para sa mga platform na iyon.

Naniniwala akong susundan ng iba pang Chinese AI lab ang pagkakaroon nito. Makakatulong ito sa mga Chinese hardware manufacturer na harapin ang tinatawag na “CUDA moat” sa isang indirektong paraan. Samantala, maglalabas din ito ng higit pang potensyal ng mga Western hardware, tulad ng AMD.

Mahalagang paalala na ang ilang Chinese AI hardware platform ay nag-aalok na ng CUDA compatibility o CUDA translation layer. Halimbawa, Moore Threads, MuXi, BiRen, at TianShu Zhixin ay mga Chinese chip manufacturer na nagtataglay ng mataas na CUDA compatibility sa pamamagitan ng translation layer. Kaya sa teorya, hindi nila kailangan ang TileLang.

ChangXin Memory

Malawak na paggamit ng machine learning at RSI

Dahil sa pagkakaroon ng higit pang mga pinagkukunan ng computing power ng DeepSeek, o mas maraming opsyonal na hardware, at samantalang bumababa ang pangangailangan ng modelo sa mga yunit ng computing, maaari itong ipagpatuloy ang mas ambisyosong mga proyekto sa pagtuturo, lalo na ang reinforcement learning fine-tuning.

Kailangan ng reinforcement learning na lumikha ng maraming trajectory, o higit sa trilyon na Token. Agad itong magiging sobrang mahal. Mas malalim pa, kung gagamitin ang modelo na may 1 milyong haba ng konteksto, kailangan din ng trajectory na may parehong haba. Tanging sa mga sobrang habang trajectory na ito ang maaaring matuto ang modelo upang talagang suportahan ang mga mahabang panahong gawain.

Dagdag pa rito, dahil sa pagdami ng mga opsyon sa hardware, mas maraming hardware resources ang ma-access ng DeepSeek, na magpapabilis sa automated research, o RSI. Ang RSI ay tumutukoy sa pagdidisenyo at pagsasagawa ng mga eksperimento ng AI mismo. Ang paraang ito ay maglalayong magkaroon ng maraming pagsubok at pagkakamali, at mabilis na tataas ang gastos. Ngunit mahalaga ang RSI para sa pag-aaral ng buong espasyo ng disenyo ng modelo. Bago makarating sa AGI, at pagkatapos ay sa ASI, kailangan ng DeepSeek ang kakayahang RSI.

Ang ginagawa ng DeepSeek ngayon, ay susundan ng buong industriya bukas

Ang mga inobasyon ng DeepSeek sa mga direksyon tulad ng mixture-of-experts model, MLA, at DSA ay patuloy na binabale-wala ng iba pang AI labs sa buong mundo at sa China.

Halimbawa, ang ZAI, na nag-develop ng mga modelo ng GLM, ay gumamit ng MLA at DSA. Ang Kimi, o Moonshot, ay gumamit din ng MLA at direktang inihayag na ang kanilang arkitektura ay batay sa DeepSeek arkitektura. Sa kabilang banda, ang DeepSeek ay gumagamit din ng Muon optimizer, na unang ginamit ng Kimi (Moonshot) sa malawakang pag-train.

Kailangang ipaliwanag na:

Ipinresenta ng Google ang MoE noong 2017, na may pangunahing may-akda na si Noam Shazeer. Ang kontribusyon ng DeepSeek ay ang malawakang paggamit ng MoE at ang paglikha ng kanilang sariling mga kasunod na teknik.

Muon, na ang ibig sabihin ay MomentUm Orthogonalized by Newton-Schulz optimizer, ay itinatag ng machine learning researcher na si Keller Jordan noong katapusan ng 2024. Ang tim ng Kimi (Moonshot) ang unang grupo na gumamit nito sa malawakang pag-train.

Paano ang problema ng pagkakaroon ng kita?

Maaari nating tingnan ang interesanteng halimbawa ng OpenAI.

Kumakuha ang OpenAI ng mga warrant/option na magpapahintulot sa kanila na bumili ng mga bahagi ng AMD at Cerebras sa mas mababang presyo, na nakadepende sa mga marka ng kanilang pagkonsumo ng computing power. Para sa AMD at Cerebras, isang napakabuting transaksyon ito, dahil kapag pinanatili ng OpenAI ang kanilang hardware, mas malaki ang kanilang posibilidad ng tagumpay sa mahabang panahon.

Mayroong isang bahagi sa pahayag ni AMD:

Bilang bahagi ng kasunduan, upang mas mapag-isip ang mga estratehikong interes ng parehong panig, ibinigay ng AMD sa OpenAI ang mga warrant na nagbibigay-daan sa pagbili ng hanggang 160 milyong karaniwang bahagi ng AMD, na magkakaroon ng pagkakataon ayon sa pagkamit ng mga partikular na milestone. Ang unang grupo ay magkakaroon ng pagkakataon kapag natapos ang unang 1 gigawatt na deployment, habang ang susunod na mga grupo ay magkakaroon ng pagkakataon habang ang pagbili ay tataas patungo sa 6 gigawatt. Ang pagkakaroon ng pagkakataon ay nakadepende rin sa pagkamit ng AMD ng mga partikular na target na presyo ng bahagi, at ang pagkamit ng OpenAI ng mga teknikal at komersyal na milestone na kinakailangan para sa malawakang deployment ng AMD.

ChangXin Memory

Inaasahan kong magkakaroon din ng katulad na kasunduan ang DeepSeek sa iba pang mga kumpanya sa China na nagpaprodukto ng memorya, ASIC, CPU, at network technology stack, at magkakaroon ng malalim na kooperasyon upang gawing kakayahang harapin ang mga nangungunang AI workload ang kanilang hardware stack.

Sa pag-uugnay ng lahat ng kanluranin, kabilang ang mga kaalyado sa Silangan at Timog-Silangan Asya, ang kabuuang kapitalisasyon ng mga aksyon ng AI ay nasa labas na ng $10 trilyon, ang paraang ito na “makakuha ng return sa pamamagitan ng kooperasyon” ay magbibigay sa DeepSeek ng pagkakataon na tulungan ang China na lumikha ng isang industriyang magkakaparehong laki at makakuha ng kanilang bahagi, upang sa huli ay makamit ang kanilang sariling valuation na $1 trilyon.

Hindi lamang ito ang magdadala ng mas maraming kita kay DeepSeek kaysa sa tradisyonal na pag-subscribe sa aplikasyon, kundi magiging makatutulong din sa layunin nitong “gawing accessible ang AGI sa bawat tao.” Si Liang Wenheng ay isang matapat na tagahanga ni Jim Simons at isang sapat na matalinong investor—hindi niya malilimutan ang punto na ito.

Kung tingnan mo ang lahat ng ginawa ng DeepSeek hanggang sa kasalukuyan, ang tanging paliwanag na makatwiran ay ito.

ChangXin Memory

Ito ang mga pangunahing AI na mga stock. Ang mga hyperscaler, o malalaking cloud provider, at maraming iba pang kaugnay na kumpanya ay hindi pa kasama sa larawan.

Original link