Ang malaking estratehiya ng 10 trilyong USD ni DeepSeek
Original na may-akda: @bookwormengr
Peggy, BlockBeats
Editorial Note: Sa nakaraang taon, ang karamihan sa diskusyon tungkol sa DeepSeek ay nakatuon sa performans ng modelo, ang open-source na estratehiya, at ang pakikidigma sa presyo. Ngunit kung iintindihin mo lamang ang DeepSeek batay sa “kung ipapagbili ba ang subscription”, “may multi-modal ba ito”, o “kaya ba itong gawin bilang coding agent”, maaaring mabawasan ang tunay na nais nilang baguhin.
Ang artikulong ito ay nagtataguyod ng isang mas radikal na pagpapasiya: ang layunin ng DeepSeek ay hindi lamang ang pagkakaroon ng kita sa application layer sa maikling panahon, kundi ang pagbabago ng istruktura ng gastos sa pag-train at pag-infer ng AI sa pamamagitan ng isang serye ng mga inobasyon sa ilalim na arkitektura, at pagsuporta sa pagkakabuo ng isang bagong ekosistema ng hardware. Mula sa MoE, MLA hanggang sa DSA, CSA, mHC, Engram, at pati na ang Dual Path at TileLang, ang teknikal na landas ng DeepSeek ay palaging nakatuon sa isang pangunahing tanong: paano gamitin ang mas kaunting mataas na kalidad na computing power upang panaig ang mas malakas na model, habang ang HBM, advanced process, packaging, at CUDA ecosystem ay limitado.
Ang pinakamahalagang bahagi ng artikulo ay hindi ang “kung maaari bang kitaan ng ilang milyong dolyar ng DeepSeek sa pamamagitan ng API o subscription,” kundi kung ito ay nag-uugnay sa kakayahan ng model, sistema ng memorya, at lokal na ekosistema ng hardware. Ang pag-compress ng KV Cache ay nagbabawas sa pagkakasalalay sa HBM, ang NAND at SSD ay maaaring magtanggap ng mahabang panahong cache, ang LPDDR ay maaaring gamitin para sa streamng ng weights at pag-iimbak ng Engram, habang ang TileLang ay nagtatangkang mabawasan ang CUDA moat. Kung patuloy na magkalat ang mga inobasyong ito, ang mga nakikinabang ay hindi lamang ang DeepSeek mismo, kundi pati na rin ang mga sektor ng storage, ASIC, GPU, network chips, at buong chain ng AI infrastructure.
Ang mga pagsusuri tungkol sa "10 trilyong dolyar na ekosistema" at "1 trilyong dolyar na valuation" ay may malakas na elemento ng pagtataya. Gayunpaman, ito ay nagbibigay ng mahalagang landas para maunawaan ang DeepSeek: ang pagbubukas ng source ay hindi nangangahulugang pagtanggi sa komersyalisasyon, at ang mababang presyo ay hindi lamang isang pagsuporta sa merkado. Para sa DeepSeek, ang totoong negosyo ay maaaring hindi nasa application layer, kundi sa pagpapahintulot sa higit pang hardware na maging magagamit at paggawa ng mas mura na supply ng AI. Sa ibang salita, ang ipinagbibili nito ay hindi lamang ang modelo mismo, kundi ang kakayahan ng susunod na henerasyon ng AI infrastructure.
Narito ang orihinal:

Nakaisip ka ba kung paano makakakita ng pera ang DeepSeek, at posibleng maraming pera?
Hindi ito naglunsad ng kompetitibong subscription plan para sa pagprograma tulad ng GLM, MoonShot, at MiniMax; wala rin itong multimodal, audio, at video models. Hanggang sa ngayon, kahit hindi pa ito may sarili nitong harness—ang panlabas na runtime framework para sa model invocation, tool integration, at task execution—kahit na sila ay nagsimula nang maghiring ng mga posisyon kaugnay nito upang itayo ang sistema.
Samantala, tila patuloy at matatag na sumusuporta si DeepSeek sa open source, kahit na masaya itong ibahagi ang sariling «mga lihim». Hindi ba ito pagsasayang? Hindi ba ito pagpapalabas ng pera nang walang kwenta? Hindi ba ang mga investor na handang mag-invest ng $10 bilyon sa kanya ay nagpapalabas ng pera sa banyo?
Sa palagay ko, ang sagot ay kabaligtaran.
Susunod, ipapakita ko ang ilang obserbasyon batay sa mga ginawa ng DeepSeek hanggang sa ngayon, at sasaliksikin ang isang istratheya na tila sinusunod nito. Ang layunin ni梁文锋, CEO ng DeepSeek, ay maaaring higit pa sa kasalukuyang pakikidigma sa mga model. Ang kanyang hinahangad ay maaaring isang mas malaking parangal: may pagkakataon ang DeepSeek na makamit ang halagang $1 trilyon, habang pinapalakas ang pagkabuo ng isang bagong industriya na may halagang $10 trilyon.

TechInAsia na ulat tungkol sa pinakabagong pagsasapalaran ng DeepSeek
Muling bisitahin ang "Hero's Journey" ng DeepSeek
Patuloy na lumalaban ang DeepSeek sa mga hamon. Hindi ito pumili na patuloy na maglabas ng mga modelong kaunti lang mas malakas, tapos agad na i-package bilang mga aplikasyon na agad na kikita, tulad ng mga subscription para sa pag-program. Noong Enero 27, 2025, nag-post ako ng isang viral na tweet tungkol sa aking pananaw sa “hero’s journey” ng DeepSeek. Ngayon, mas kapani-paniwala na ang kuwento na ito.
Habang ang iba ay nagtatry na buuin ang mga dense model, pinili ng DeepSeek ang mas mahirap na i-train na Mixture of Experts (MoE) model.
Gumamit sila ng paraan na "first principles" upang lumikha ng bagong GRPO algorithm, na gagamitin upang palitan ang PPO reinforcement learning algorithm na pangunahin sa panahong iyon ngunit mas mataas ang gastos sa pagpapatupad.
Nakakita sila na ang reinforcement learning mula sa verified rewards (Reinforcement Learning from Verified Rewards, RLVR) ay ang pangunahing estratehiya para mapabuti ang pag-iisip ng model.
Nagbigay din sila ng simpleng estratehiya sa paghula sa pamamagitan ng «Multi Token Prediction», at ginawa ring mas malapit ang mga signal sa pagtuturo.
Nilikha nila ang «ZERO bubble» pipeline upang mapabuti ang paggamit ng limitadong GPU resources.
Nilikha nila ang expert load balancer upang gawing mas madali ang pag-deploy ng MoE models para sa lahat. Lalo na sa pamamagitan ng 'Wide Expert Parallel' strategy, maaaring serbisyuhin ng model ang mas malaking batch, na nagdudulot ng malaking pagbaba sa cost ng inference.
Nilikha nila ang mga mekanismo tulad ng MLA, DSA, CSA, at HCA upang mabawasan ang pangangailangan sa KV Cache at upang panatilihin ang pagtaas ng computasyonal na pangangailangan habang tumataas ang haba ng konteksto nang malapit sa konstante.
Nilikha nila ang Engram, na nagpapalit ng memorya para sa efficiency sa pagkalkula.
Kilala rin nila ang mHC, na nagpapahintulot sa matatag na pagtatrain kahit pa lumalaki ang laki ng modelo. Marami pang katulad na halimbawa.
Sa pinakakaraniwang istruktura ng kuwento na "Ang Paglalakbay ng Bayani," ang bayani ay hindi nagpapasya mula sa simula kung saan tutungo ang kanyang paglalakbay. Siya ay natututo habang naglalakbay, unti-unting natutuklasan ang kanyang tunay na malaking misyon, at natatapos ito sa gitna ng maraming hadlang. Makakasalubong niya ang maraming nagtatanim ng pag-aalinlangan, ngunit pinipili niyang iguhit ang kanilang mga salita. Makakasalubong niya rin ang maraming masamang aktor. Mayroon siyang malinaw na kakulangan o kahinaan, ngunit sa huli ay tatapusin niya ang mga problema na ito at matatapos ang kanyang misyon. Binabale-wala niya ang mga hamon na tila hindi kayang laktawan, ngunit nakakahanap siya ng paraan upang makapag-aliw, at natututo kung paano gamitin nang may pag-iingat ang limitadong at mahalagang mga yaman. Ito ang dahilan kung bakit handa ang mga manonood na suportahan ang bayani. Ito rin ang dahilan kung bakit nanalo ang DeepSeek ng mga tagasunod, pandaigdigang paggalang, at mga kalaban.
Tulad ng aking ipapaliwanag nang mas detalyado sa susunod, naglalakbay na ang DeepSeek sa landas na ito at unti-unting natuklasan ang kanyang huling kapalaran: ang layunin nito ay hindi ang pagbebenta ng mga subscription para sa pagprograma, kundi ang pagpapalakas ng isang ekosistema ng AI hardware sa China na may halagang $10 trilyon at ang pagpapataas ng kanyang sariling halaga sa $1 trilyon. Sa proseso, ito ay magkakaroon din ng pagkakataon para sa maraming bagong pumasok sa ekosistema ng hardware sa Kanluran.

Magsimula muna sa ilang interesanteng pagkalkula ng KV Cache
Tingnan ang huling tweet na ito ni @SemiAnalysis_:

Nakalutas na ng DeepSeek ang problema na ito nang mas mabuti kaysa sinuman!
Magsimula muna tayo ng ilang interesanteng pagkalkula sa KV Cache. Huwag mag-alala, kahit hindi ka mahilig sa matematika. Gamitin natin ang bagong ipinakilalang KV Cache Calculator upang tingnan kung gaano karaming pagkakataon sa KV Cache ang dala ng DeepSeek V4 Pro, at ihambing ito sa mga pinakabagong modelong GLM at Qwen.
Dito ko inuunawa ang 1 milyong haba ng konteksto, na may KV precision na 8 bit at indexer precision na 16 bit. Maaari mo ring buksan ang kalkulador na ito para subukan: https://kvcache.ai/tools/kv-cache-calculator/

Maaari mo rin ring buksan ang kalkuladora mo sarili!
Sa 1 milyong haba ng konteksto:
·Kailangan lang ng DeepSeek V4 ng 5.48GB HBM;
·Kailangan ng GLM-5 ang 60GB HBM;
·Kailangan ng Qwen3-235B-A22B ng higit sa 89GB na HBM.
Mahalagang tandaan:
·DeepSeek ay isang modelo na may 1.6 trilyong parameter;
·Ang GLM-5 ay may halos 700 milyong parameter at ayon na sa MLA at DSA ng DeepSeek, ngunit hindi pa ginagamit ang pinakabagong mekanismo ng kompresyon ng atensyon;
Ang Qwen3-235B-A22B ay may halos 235 bilyong parameter at gumagamit ng GQA attention mechanism.
Ang DeepSeek ay nagbigay ng mahalagang kontribusyon sa pagpapabawas sa presyur sa memorya. Kung ang mga inobasyong ito ay malawakang tatanggapin, malalaki ang pagbaba sa gastos sa pagpapatakbo ng mga Agent na may mahabang siklo at mapapagbukas ang susunod na hanay ng mga bagong aplikasyon.

Pagkukumpara ng paggamit ng KV Cache sa 1 milyong token at iba’t ibang sukat ng modelo
Ang metodolohiya sa likod ng "Kapalpakan"
Ang dahilan kung bakit maliit ang laki ng KV Cache nang hindi pinapababa ang kalidad ng modelo ay ang nagiging sanhi kung bakit kayang magbigay ang DeepSeek ng mahabang panahon na cache sa sobrang mababang presyo—mas mababa kaysa 3% ng presyo ng cache hit ng Sonnet 4.6, at kayang i-retain ng DeepSeek ang cache sa ilang oras.
Para sa mga mahabang panahon na gawain, ang mas maliit na KV Cache ay nangangahulugan na mas mura ang pag-unload nito sa SSD at ang pag-reload nito kapag kailangan. Sa ganitong paraan, babawasan ang pagkakasalalay sa HBM. Mula sa pananaw ng Chinese AI hardware industry, ang HBM ay hindi lamang nakakaranas ng kakulangan sa suplay, kundi isa rin ito sa pinakamahirap na uri ng memorya na gawin.
Bukod dito, binuo ng DeepSeek ang teknolohiya para mas mabilis na i-load ang KV Cache mula sa SSD, na nailalarawan na sa kanilang papel tungkol sa Dual Path.

Ang kompresyon ng DeepSeek V4 sa KV Cache ay napakalaki, hanggang sa maaaring hindi na kailangan ang hakbang na ito.
Sino ang pinakadirektang nakikinabang sa pag-compress ng KV Cache?
Sino ang nag-aalok ng malaking supply ng SSD? Huwag kalimutan na ang YMTC (Yangtze Memory Technologies) ay nagsisimula nang maging isang malaking player sa larangan ng 3D NAND. Ang NAND ay makakatulong sa DeepSeek na maiwasan ang pag-uulit ng pagkalkula ng KV. Sa kabilang banda, ang DeepSeek ay gumagawa ng malaking merkado para sa NAND at SSD—na hindi lamang makakatulong sa Yangtze Memory Technologies kundi pati na rin sa iba pang kaugnay na kumpanya.

Ngunit hindi ito nag-uugnay lamang sa NAND at SSD.
Ang LPDDR memory ay may malaking potensyal din. Maaari itong gamitin bilang lugar para i-store ang model weights, at i-stream ang mga weights na ito sa HBM kapag kinakailangan, upang mapabawasan ang presyur sa HBM. Nag-post ang SGLang team ng isang magandang blog post na naglalarawan dito. Ipinapakita ng sumusunod na larawan kung paano gumagana ang solusyong ito.
Bagaman hindi direktang disenyo ng DeepSeek ang solusyong ito, ang kanyang MoE architecture, ang malaking bilang ng expert models nito, at ang katangian ng 4-bit weights ay nagpapadali sa pagpapatupad ng solusyong ito.

Nagpapakita ang diagram na ito kung paano maaaring gamitin ang memorya at kung paano ang model weights ay maaaring i-stream mula sa LPDDR patungo sa HBM. Sobrang inirerekomenda na basahin ang blog post ng SGLang.
Kung isasama ang inobasyong ito sa napakalaking at lossless na KV Cache, malalaki ang pagbaba sa pangangailangan para sa HBM.
Sino ang nagpaprodukto ng LPDDR sa China? Ang sagot ay CXMT, o ChangXin Memory Technologies. Nangunguna sila sa pagpapabilis ng LPDDR ng halos isang henerasyon lamang, at isang henerasyon sa density — ang pagkakaiba ay hindi malaki.
Bukod sa sapat na NAND, ang Chinese AI ecosystem ay magkakaroon din ng sapat na suplay ng LPDDR sa malapit na hinaharap. Makakatulong ba ito sa pagpapababa ng presyur sa computing power? Ang sagot ay: oo. Magpatuloy sa pagbabasa.

Ang matalinong paggamit ng memorya ay maaari ring mapabawasan ang presyon sa GPU / ASIC
Ang paggamit ng NAND para sa pag-iimbak ng KV Cache ay madaling maintindihan: ito ay nagpapahintulot sa KV Cache na manatili nang higit pang panahon, nagpapababa ng presyon sa HBM, at nag-iwas sa pag-uulit ng pagkalkula ng KV Cache, kaya't nababawasan ang burden sa pagkalkula ng GPU at ASIC.
Kaya ba ng LPDDR na magpanatili ng parehong papel sa paraang ito? Kaya ba nito na mas mabawasan ang presyur sa komputasyon, maliban sa pagiging isang lokasyon ng memorya na maaaring mag-stream ng weights sa HBM "on-demand"?
Ang sagot ay: Oo.
Ang LPDDR ay maaaring gamitin upang iimbak ang malaking dami ng mga nilalaman na tinatawag na Engram. Sa papel ng DeepSeek tungkol sa Engram, ipinahiwatig nila na ang MoE ay maaaring palawakin ang kapasidad ng modelo sa pamamagitan ng kondisyonal na kalkulasyon, ngunit kulang ang Transformer sa isang natatanging mekanismo ng 「paghahanap ng kaalaman」. Kaya, kadalasan ay kailangan ng Transformer na magsimula ng maliit na proseso ng paghahanap sa pamamagitan ng kalkulasyon.
Upang lutasin ang problemang ito, ipinakilala ng DeepSeek ang Engram module. Ito ay modernisasyon ng klasikong N-gram embedding na ginawang isang hash-based O(1) lookup mechanism, na lumikha ng isang komplementong sparse path na kanilang tinatawag na conditional memory.
Ang paraan na ito ay nakakatipid sa pagkalkula, ngunit kailangan ng memorya upang suportahan ang embedding table, at ang table na ito mismo ay maaaring napakalaking.
Sa pangkalahatan, ito ay isang klasikong paraan na "papalit ng memorya para sa pagkalkula". Ngunit ang pangunahing pag-unawa nito ay: batay sa bawat bit ng pagbasa ng gastos, ang "memorya" ay maraming mas mura—ang isang paghahanap sa LPDDR ay maraming mas mura kaysa sa pagpapasa ng data sa lahat ng mga layer ng Transformer para sa isang forward pass. Kaya, sa malalaking skala, ito ay isang napakabuting palitan.
Ito ang paraan kung paano hinuhulma ng DeepSeek ang ilang memorya upang makamit ang pagkakataon sa pagkakalkula.

Mga pagpapasya na值得做出的取舍
Dahil walang katumbas na density ng transistor sa chip at walang EUV, malamang na magiging nakaliban sa pangmatagalang panahon ang Chinese GPU at ASIC sa orihinal na FLOPs na kapasidad kumpara sa Western GPU. Mayroon pa rin silang malinaw na pagkakaiba sa advanced packaging. Kaya, ang ganitong kompromiso ay napakasang-ayon lalo na kung ang China ay makakapag-produce ng malaking dami ng NAND at LPDDR memory.
Ibalik ang mahabang panahon na estratehiya ng DeepSeek
Mula sa mga inobasyon na ito, tila hindi ang layunin ng DeepSeek na kumita ng ilang milyon dolyar sa kasalukuyan. Patotoo nito ang maraming desisyon na ginawa nito sa nakaraan: hanggang ngayon, wala pa ring multimodal, walang voice model, at mas wala naman sa video model.
Ang tunay na kinakasangkot nito ay isang matiyagang, malawak na larong maaaring umabot sa $10 trilyon: ang pagpapalakas ng pagkakabuo ng isang alternatibong ekosistema ng AI hardware.
Hindi ito lamang para gawing mahalagang player ang mga Chinese memory manufacturer sa Chinese at pandaigdigang AI hardware market, kundi upang mabawasan nang husto ang pangangailangan sa mga yunit, gawing mas cost-efficient ang pag-train at pagbibigay serbisyo ng AI models. Sa ganitong paraan, maraming GPU, ASIC, at network chip manufacturer ang makakaroon ng pagkakataon na maging mga viable na opsyon.
Sambil noon, ang mga inobasyon na ito ay magdudulot din ng benepisyo sa Western open-source ecosystem at sa mga bagong henerasyon ng mga tagagawa ng hardware.
Lahat ng mga tanda ay nasa lugar na. Magtatalakay tayo nang mas detalyado tungkol sa mga inobasyon na inilahad ng DeepSeek hanggang sa kasalukuyan:
1. Ang expert mixture model (MoE) at MLA na ipinakilala sa DeepSeek V2
Inilatag ng DeepSeek ang MoE at MLA sa V2. Binawasan ng MoE ang pagkakalikha ng computasyon na kailangan para sa pag-train ng mga malalaking modelo ng humigit-kumulang 40% hanggang 50%; ang MLA naman ay nagbawas ng 90% sa KV Cache.
Nagiging lubos na epektibo ang pag-unload ng KV Cache sa SSD.
Nagsimula ang mga ideyang ito sa papel na DeepSeek V2 na inilabas ng DeepSeek noong Mayo 2024. Pagkatapos, ginamit din nila ito bilang pundasyon para sa pag-train ng DeepSeek V3. Noong panahong iyon, gumamit lang ang DeepSeek ng 2,048 na H800 GPU na may pinababang performance upang matrain ang isang sistema na may kakayahan na malapit sa antas ng mga saradong modelo.

2. DSA: Ipinakilala sa DeepSeek V3.2 Exp upang bawasan ang compute overhead sa mga escenario ng mahabang konteksto, samantalang mapapabawasan ang presyur sa HBM bandwidth.
Ang pangunahing papel ng DSA ay siguraduhin na ang pagkalkula ay hindi magpapatuloy na tumataas kasabay ng pagdami ng haba ng konteksto. Tingnan ang sumusunod na grafiko: Habang tumataas ang haba ng konteksto, ang pagproseso ng DeepSeek-V3.2 ay nananatiling stable.

3. mHC: Ipinakilala ni DeepSeek noong Disyembre 2025 sa papel na “mHC: Manifold-Constrained Hyper-Connections”.
Ang mHC ay isang inobasyon ng DeepSeek sa antas ng macro arkitektura, na bumuo muli ng paraan ng paggalaw ng impormasyon sa pagitan ng mga Transformer layer.
Noong nakaraan, mula pa sa ResNet, karaniwang ginagamit ng mga modelo ang standard residual connection, na x + F(x). Ang paraan ng mHC ay ang pagpapalawak ng residual flow sa maraming paralel na channel ng impormasyon, at pinapahintulutan ang modelo na magkaroon ng matututunan na paghahalo sa pagitan ng mga channel na ito. Ang pangunahing punto ay ang pagpapalimita sa mixed matrix bilang doubly stochastic matrix, o pagpapalimita dito sa Birkhoff polytope sa pamamagitan ng Sinkhorn-Knopp projection. Sa paraang ito, matematikal na garantisado na ang amplitud ng signal ay mananatiling stable, anuman ang depth ng modelo.
Nakalutas nito ang kalamangan na nagdudulot ng kawalan ng kontrol sa Hyper-Connections. Ipinakilala ng ByteDance ang Hyper-Connections, ngunit nang walang pagkakabukod, ang pagpapalakas ng signal ay tumataas hanggang sa 3,000 beses sa isang sukat na 27 bilyong parameter, na nagresulta sa ganap na pagkabigo sa pagtuturo.
Ang pagkalkula ng mHC ay mababang gastos: ito ay nagdudulot lamang ng approx. 6.7% na overhead sa oras ng pagtuturo, dahil hindi ito nagbabago sa FLOPs ng attention layer o FFN layer, kundi nagbabago lamang sa paraan kung paano ireroute ang output ng mga layer na ito sa pagitan ng mga layer.
Ngunit ang pagtaas sa performance ay malinaw: sa sukat ng 27 bilyong parameter, ang mHC ay nagtaas ng 7.2 puntos sa BIG-Bench Hard reasoning tasks, 3.2 puntos sa DROP, 2.8 puntos sa GSM8K math tasks, at 1.4 puntos sa MMLU general knowledge tasks. At ang lahat ng pagtaas na ito ay naganap sa parehong sukat ng modelo at halos parehong budget sa computation.
Sa kanyang core, ang mHC ay nagtataglay ng mas mayaman at mas malikhain na topolohiya ng pagrute ng impormasyon sa iba’t ibang layer, na nagpapahintulot sa mas mataas na intelihensya bawat parameter nang hindi nagdudulot ng malaking dagdag sa FLOPs.

Ang mHC ay isang kumplikadong disenyo ng arkitektura, ngunit ito ay nakakapagdulot ng mas matatag na proseso ng pagtuturo, at mas mataas na intelihensya bawat parametro.
4, CSA, HSA: Dinala ng DeepSeek sa V4 noong Abril 2026.
Ang layunin ng CSA at HSA ay upang bawasan muli ang pangangailangan sa KV Cache ng 90% sa pamamagitan ng pag-compress ng KV Token, habang pinapababa nang malaki ang kinakailangang FLOPs, upang samantalahin ang presyon sa HBM at sa GPU/ASIC.

5. Engram: Ipinakilala ni DeepSeek sa unang quarter ng 2026, na sa pamamagitan ng pagpalit ng ilang halaga ng memorya, tulad ng LPDDR memorya, para sa mas mataas na efficiency sa computation.
Kasunod ng detalyadong tsart sa ibaba, nagdala ang Engram ng malinaw na pagpapabuti sa performance sa parehong kabuuang budget ng parameter.

6. Engram: Ipasok ni DeepSeek sa unang quarter ng 2026, sa pamamagitan ng pagpalit ng computing efficiency sa halip na memorya, tulad ng LPDDR memorya.
Kasunod ng detalyadong tsart sa ibaba, nagdala ang Engram ng malinaw na pagpapabuti sa performance sa parehong kabuuang budget ng parameter.

Ito ang rekomendasyon na ibinahagi ng DeepSeek sa mga tagagawa ng hardware sa kanilang papel na V4. Sigurado akong mas marami pa ang kanilang feedback sa personal na pag-uusap.
7. Ang pag-invest sa TileLang ay nagtuturo rin sa parehong direksyon: hindi lang si DeepSeek ay naglulutas ng kanyang sariling kakulangan sa computing power, kundi nagpapalakas din ng Chinese hardware ecosystem upang makipagkumpetensya sa Western ecosystem.
Gamit ang TileLang, maaaring isulat ng mga developer ang isang beses ang kernel, o ang pana-panahong code para sa pagkalkula, at pagkatapos ay paganahin ito sa maraming hardware platform, kung ang mga platform na ito ay may katugmang TileLang backend.
Nakikita kong susundan din ng iba pang Chinese AI labs. Makakatulong ito sa mga Chinese hardware manufacturer na harapin ang tinatawag na “CUDA moat” sa isang indirektong paraan. Samantala, ito ay maglalabas din ng higit pang potensyal ng mga Western hardware, tulad ng AMD.
Mahalagang tandaan na ang ilang Chinese AI hardware platform ay may CUDA compatibility o CUDA translation layer. Halimbawa, Moore Threads, Muxi, Birun, at TianShu Zhixin ay mga Chinese chip manufacturer na nagtataglay ng mataas na CUDA compatibility sa pamamagitan ng translation layer. Kaya sa teorya, hindi nila kailangan ang TileLang.

Malawakang paggamit ng machine learning at RSI
Dahil sa pagkakaroon ng higit pang mga pinagkukunan ng computing power ng DeepSeek, o mas maraming opsyonal na hardware, at samantalang bumababa ang pangangailangan ng modelo sa mga yunit ng computing, maaari itong magpatuloy sa mas ambisyosong mga proyekto sa pagtatrain, lalo na sa post-training na reinforcement learning.
Ang reinforcement learning ay nangangailangan ng pagbuo ng malaking bilang ng trajectory, o pagbuo ng trilyon-trilyon na Token. Ang prosesong ito ay mabilis na magiging sobrang mahal. Mas malalim pa, kung gagawin ang pag-train ng model na may 1 milyong haba ng konteksto, kailangan ng pagbuo ng trajectory na may parehong haba. Tanging sa mga super-habang trajectory na ito ang pag-train ng model ay makakatulong upang talagang suportahan ang mga mahabang panahon ng gawain.
Dagdag pa, dahil sa pagdami ng mga opsyon sa hardware, mas maraming hardware resources ang ma-access ng DeepSeek, na magpapabilis sa automated research, o RSI. Ang RSI ay tumutukoy sa pagdidisenyo at pagsasagawa ng mga eksperimento ng AI mismo. Ang paraang ito ay maglalayong magkaroon ng maraming pagsubok at pagkakamali, at mabilis na magpapataas ng gastos. Ngunit mahalaga ang RSI para sa pagpapalawak ng buong espasyo ng disenyo ng modelo. Bago makarating sa AGI, at pagkatapos ay sa ASI, kailangan ng DeepSeek ang kakayahang RSI.
Ang ginagawa ng DeepSeek ngayon, ay susundan ng buong industriya bukas
Ang mga inobasyon ng DeepSeek sa mga direksyon tulad ng mixture-of-experts model, MLA, at DSA ay patuloy na kinokopya ng iba pang AI labs sa buong mundo at sa China.
Halimbawa, ang ZAI, na nag-develop ng mga modelo ng GLM, ay gumamit ng MLA at DSA. Ang Kimi, o Moonshot, ay gumamit din ng MLA at direktang isinampa na ang kanilang arkitektura ay batay sa DeepSeek arkitektura. Sa kabilang banda, ang DeepSeek ay gumagamit din ng Muon optimizer, na unang ginamit ng Kimi (Moonshot) sa malawakang pag-train.
Dapat ipaalala na:
Unang ipinakilala ng Google noong 2017 ang MoE, na may pangunahing may-akda na si Noam Shazeer. Ang kontribusyon ng DeepSeek ay ang malawakang paggamit ng MoE at ang paglikha ng kanilang sariling mga kasunod na teknik.
Ang Muon, na ang ibig sabihin ay MomentUm Orthogonalized by Newton-Schulz Optimizer, ay itinatag ng machine learning researcher na si Keller Jordan noong katapusan ng 2024. Ang team ni Kimi (Moonshot) ang unang nagamit nito sa malawakang pag-train.
Paano ang problema ng pagkakaroon ng kita?
Maaari nating tingnan ang interesanteng halimbawa ng OpenAI.
Kumakuha ang OpenAI ng mga warrant/option na magpapahintulot sa kanila na bumili ng mga bahagi ng AMD at Cerebras sa mas mababang presyo, na nakadepende sa mga milestone ng kanilang paggamit ng computing power. Para sa AMD at Cerebras, isang napakabuting transaksyon ito, dahil sa pagpapakilala ng OpenAI sa kanilang hardware, tumataas nang malaki ang kanilang posibilidad ng tagumpay sa mahabang panahon.
Mayroong isang bahagi sa pahayag ni AMD:
Bilang bahagi ng pagkakasundo, upang mas mapag-isip ang magkakasamang estratehikong interes, naglabas ang AMD ng mga warrant na nagbibigay-daan sa OpenAI na bumili ng hanggang 160 milyong karaniwang bahagi ng AMD, na magkakaroon ng pagkakataon na maging aktibo batay sa pagkamit ng mga partikular na milestone. Ang unang grupo ay magiging aktibo pagkatapos ng unang 1 gigawatt na pag-deploy, habang ang susunod na mga grupo ay magkakaroon ng pagkakataon na maging aktibo habang ang pagbili ay tataas patungo sa 6 gigawatt. Ang mga kondisyon sa pagkakaroon ng pagkakataon ay nakadepende rin sa pagkamit ng partikular na target na presyo ng bahagi ng AMD, at sa pagkamit ng OpenAI ng mga teknikal at komersyal na milestone na kinakailangan para sa malawakang pag-deploy ng AMD.

Nakikita kong magkakaroon din ng katulad na kasunduan ang DeepSeek sa iba pang mga lokal na kumpanya sa China na nagpapagawa ng memorya, ASIC, CPU, at network technology stack, at magkakaroon ng malalim na pakikipagtulungan upang gawing kaya ng kanilang hardware stack ang mga nangungunang AI workload.
Sa pag-uugnay ng lahat ng kanluranin, kabilang ang mga kaalyado sa Silangang Asya, ang kabuuang kapitalisasyon ng mga stock ng AI ay nagsasagawa na ng higit sa $1 trilyon, ang paraan na ito ng “pagkamit ng return sa pamamagitan ng kooperasyon” ay magbibigay sa DeepSeek ng pagkakataon na tulungan ang China na buuin ang isang magkakaparehong malaking industriya at makakuha ng kanilang bahagi dito, upang sa huli ay makamit ang kanilang sariling valuation na $1 trilyon.
Hindi lamang ito ang magdadala ng mas malaking kita sa DeepSeek kaysa sa tradisyonal na negosyo ng pag-subscribe, kundi magpapatupad din nito ang kanilang sinasabing layunin na “gawing maabot ng lahat ang AGI”. Si Liang Wenhong ay isang matapat na tagahanga ni Jim Simons at isang sapat na matalinong player sa kapital, at hindi niya maaaring iwasan ang punto na ito.
Kung bubaling ka sa lahat ng ginawa ng DeepSeek hanggang sa ngayon, ang tanging paliwanag na masasabi ay ito.

Ito ang mga pangunahing AI na mga stocks. Ang mga hyperscaler, o malalaking cloud provider, at maraming iba pang kaugnay na kumpanya ay hindi pa kasama sa larawan.
