Strategi US$10 Bilion DeepSeek: Sumber Terbuka dan Ekosistem Peranti AI

Strategi besar DeepSeek bernilai 10 trilion USD

Penulis asal: @bookwormengr

Peggy, BlockBeats

Catatan editor: Dalam setahun terakhir, perbincangan mengenai DeepSeek kebanyakan berfokus pada prestasi model, strategi sumber terbuka, dan peperangan harga. Namun, jika hanya memahami DeepSeek melalui perspektif “adakah langganan dijual”, “adakah multimodal”, atau “bolehkah ia menjadi agen coding”, mungkin anda meremehkan perkara sebenar yang ingin ia ubah.

Artikel ini mengusulkan satu penilaian yang lebih radikal: matlamat DeepSeek mungkin bukan untuk mendapatkan pendapatan melalui lapisan aplikasi dalam jangka pendek, tetapi melalui inovasi struktur asas berturut-turut, untuk membentuk semula struktur kos latihan dan inferens AI, serta secara tidak langsung mendorong pembentukan ekosistem peranti keras yang baharu. Dari MoE, MLA hingga DSA, CSA, mHC, Engram, hingga Dual Path dan TileLang, jalan teknikal DeepSeek sentiasa berpusat pada satu soalan utama: bagaimana untuk menjalankan model yang lebih kuat dengan kekuatan pengiraan tinggi yang lebih sedikit, apabila HBM, proses canggih, pembungkusan, dan ekosistem CUDA semuanya terhad.

Yang paling patut diperhatikan dalam artikel ini bukanlah “Adakah DeepSeek mampu menghasilkan ratusan juta dolar melalui API atau langganan”, tetapi sama ada ia sedang mengikat kemampuan model, sistem memori, dan ekosistem peranti tempatan bersama-sama. Kompresi KV Cache mengurangkan ketergantungan terhadap HBM, NAND dan SSD boleh menangani cache jangka panjang, LPDDR boleh digunakan untuk memuatkan berat secara streaming dan menyimpan Engram, sementara TileLang cuba melemahkan parit CUDA. Jika inovasi-inovasi ini terus menyebar, penerima faedahnya bukan hanya DeepSeek itu sendiri, tetapi juga industri penyimpanan, ASIC, GPU, cip rangkaian, serta keseluruhan rantai infrastruktur AI.

Tentu, penilaian mengenai "ekosistem industri bernilai 10 trilion dolar AS" dan "penilaian bernilai 1 trilion dolar AS" masih bersifat spekulatif. Namun, ia memberikan satu jalan penting untuk memahami DeepSeek: sumber terbuka tidak semestinya bermaksud meninggalkan komersialisasi, dan harga rendah tidak semestinya hanya subsidi pasaran. Bagi DeepSeek, bisnis sebenarnya mungkin bukan di peringkat aplikasi, tetapi dalam membantu lebih banyak peranti keras menjadi boleh digunakan, serta menjadikan bekalan AI berkos lebih rendah mungkin. Dengan kata lain, ia mungkin bukan menjual model itu sendiri, tetapi kelayakan infrastruktur AI generasi seterusnya.

Berikut ialah teks asal:

ChangXin Memory

Pernahkah anda memikirkan bagaimana DeepSeek akan menghasilkan wang, dan mungkin menghasilkan banyak wang?

Ia tidak menawarkan langganannya yang kompetitif seperti GLM, MoonShot, dan MiniMax; juga tidak mempunyai model multimodal, audio, atau video. Sejauh ini, ia bahkan belum mempunyai harness sendiri—iaitu kerangka luar yang digunakan untuk pemanggilan model, akses alat, dan pelaksanaan tugas—walaupun mereka baru-baru ini mula merekrut jawatan berkaitan untuk membina sistem ini.

Sementara itu, DeepSeek kelihatannya juga secara konsisten berpihak kepada sumber terbuka, bahkan bersedia berkongsi secara terbuka "rahsia" mereka. Bukankah ini gila? Bukankah ini membuang-buang duit? Apakah pelabur yang bersedia berinvestasi sebanyak 10 miliar dolar AS kepadanya sedang membuang wang ke dalam saluran pembuangan?

Saya percaya secara peribadi, jawapannya adalah sebaliknya.

Seterusnya, saya akan mengemukakan beberapa pemerhatian berdasarkan perkara yang telah dilakukan DeepSeek sejauh ini, serta menganalisis strategi yang kelihatannya sedang diikuti olehnya. Matlamat梁文锋, CEO DeepSeek, mungkin jauh melebihi persaingan model semasa. Beliau mungkin mengejar hadiah yang lebih besar: DeepSeek berpeluang mencapai penilaian sebanyak US$1 trilion, sambil mendorong pembentukan industri baharu dengan skala US$10 trilion.

ChangXin Memory

TechInAsia melaporkan pembiayaan paling terkini DeepSeek

Kunjungan semula "Perjalanan Pahlawan" DeepSeek

DeepSeek terus bergerak melawan arus. Ia tidak memilih untuk terus-menerus melancarkan model yang sedikit lebih kuat, kemudian tergesa-gesa membungkusnya sebagai aplikasi yang boleh langsung menghasilkan pendapatan, seperti langganannya pemrograman. Pada 27 Januari 2025, saya pernah menghantar tweet yang sangat popular yang menceritakan "perjalanan pahlawan" DeepSeek menurut pandangan saya. Kini, kisah ini menjadi lebih menarik.

Semasa orang lain masih cuba membina model padat, DeepSeek memilih model campuran pakar (Mixture of Experts, MoE) yang lebih sukar untuk dilatih.

Mereka menggunakan pendekatan "prinsip pertama" untuk mencipta algoritma GRPO baharu yang menggantikan algoritma pembelajaran penguatan PPO yang lebih mahal untuk dilaksanakan pada masa itu.

Mereka menemui bahawa pembelajaran penguatan berdasarkan ganjaran yang boleh disahkan (Reinforcement Learning from Verified Rewards, RLVR) merupakan strategi utama untuk meningkatkan kemampuan penarikan kesimpulan model.

Mereka juga mengusulkan strategi penguraian spekulatif yang ringkas melalui "Multi Token Prediction", sambil menjadikan isyarat latihan menjadi lebih padat.

Mereka menyempurnakan saluran "ZERO bubble" untuk meningkatkan kecekapan penggunaan sumber GPU yang terhad.

Mereka melancarkan expert load balancer yang memudahkan semua orang untuk menghuraikan model MoE. Terutamanya melalui strategi "Wide Expert Parallel", model boleh dilayan dengan batch yang lebih besar, seterusnya mengurangkan kos inferens secara besar-besaran.

Mereka mencipta mekanisme seperti MLA, DSA, CSA, dan HCA untuk mengurangkan keperluan KV Cache dan menjadikan keperluan pengiraan yang meningkat seiring dengan panjang konteks tetap sedekat mungkin dengan nilai tetap.

Mereka menciptakan Engram, menukar memori dengan kecekapan pengiraan.

Mereka juga menciptakan mHC, yang membolehkan latihan yang stabil walaupun skala model diperbesar. Masih banyak contoh serupa.

Dalam struktur naratif paling umum, "Perjalanan Pahlawan", sang pahlawan tidak pernah memutuskan tujuan perjalanannya sejak awal. Dia belajar sepanjang perjalanan, secara bertahap menyadari misi agung sejatinya, dan menyelesaikannya di tengah rintangan yang berat. Dia akan bertemu banyak orang yang meragukan, tetapi memilih mengabaikan mereka. Dia juga akan bertemu banyak pelaku jahat. Dia memiliki kelemahan atau kekurangan yang jelas, tetapi akhirnya mengatasi masalah-masalah ini dan menyelesaikan misinya. Dia menghadapi tantangan yang tampaknya tak mungkin dilalui, tetapi menemukan cara untuk membentuk aliansi, serta belajar bagaimana menggunakan sumber daya yang terbatas dan berharga secara bijak. Inilah yang membuat penonton bersorak mendukung sang pahlawan. Ini juga alasan mengapa DeepSeek memenangkan pengikut, penghormatan global, serta lawan-lawannya.

Seperti yang akan saya terangkan secara terperinci seterusnya, DeepSeek telah berjalan jauh di jalan ini dan secara beransur-ansur menemukan takdir akhirnya: matlamatnya bukanlah menjual langganan pemrograman, tetapi mendorong ekosistem peranti keras AI China yang bernilai US$10 trilion, serta mencapai penilaian US$1 trilion. Dalam proses ini, ia juga akan menciptakan peluang bagi banyak pelaku baru dalam ekosistem peranti keras Barat.

ChangXin Memory

Mulakan dengan beberapa pengiraan KV Cache yang menarik

Silakan lihat tweet terkini ini dari @SemiAnalysis_:

ChangXin Memory

DeepSeek telah menyelesaikan masalah ini dengan lebih baik daripada siapa pun!

Mari kita lakukan sedikit pengiraan KV Cache yang menarik. Jangan risau, walaupun anda tidak suka matematik. Kami akan menggunakan kalkulator KV Cache yang baru dikeluarkan untuk melihat berapa banyak pengurangan KV Cache yang dibawa oleh DeepSeek V4 Pro, dan membandingkannya dengan model GLM dan Qwen terkini.

Di sini saya mengira dengan panjang konteks 1 juta, dengan presisi KV 8 bit dan presisi indexer 16 bit. Anda juga boleh membuka kalkulator ini sendiri: https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

Anda juga boleh membuka kalkulator sendiri untuk mencuba!

Dengan panjang konteks 1 juta:

·DeepSeek V4 hanya memerlukan 5.48GB HBM;

·GLM-5 memerlukan 60GB HBM;

·Qwen3-235B-A22B memerlukan HBM sehingga 89GB.

Perlu diperhatikan:

·DeepSeek adalah model dengan 1.6 bilion parameter;

·GLM-5 mempunyai sekitar 700 bilion parameter dan telah mengadopsi MLA dan DSA dari DeepSeek, tetapi belum menggunakan mekanisme perhatian mampat terkini;

·Qwen3-235B-A22B mempunyai kira-kira 235 bilion parameter dan menggunakan mekanisme perhatian GQA.

DeepSeek telah memberikan sumbangan asas dalam meredakan tekanan memori. Jika inovasi sebegini diambil secara meluas, ia akan mengurangkan kos operasi Agent jangka panjang secara besar-besaran dan membuka aplikasi baru seterusnya.

ChangXin Memory

Perbandingan penggunaan KV Cache di bawah 1 juta token konteks dan skala model

Metodologi di sebalik "Gila"

Sebab ukuran KV Cache boleh dibuat sangat kecil tanpa mengorbankan kualiti model, DeepSeek mampu menyediakan cache jangka panjang dengan harga yang sangat rendah—harganya bahkan kurang daripada 3% daripada harga cache hit Sonnet 4.6, dan DeepSeek boleh mengekalkan cache selama berjam-jam.

Untuk tugas jangka panjang, KV Cache yang lebih kecil bermaksud ia boleh dilepaskan ke SSD dengan lebih ekonomik dan dimuat semula apabila diperlukan. Ini mengurangkan ketergantungan terhadap HBM. Dari sudut industri peranti AI China, HBM tidak hanya mengalami kekurangan bekalan, tetapi juga merupakan salah satu jenis memori yang paling sukar untuk dikeluarkan.

Selain itu, DeepSeek juga mengembangkan teknologi untuk memuat KV Cache lebih pantas dari SSD, seperti yang telah diterangkan dalam paper Dual Path mereka.

ChangXin Memory

DeepSeek V4 memampatkan KV Cache dengan kadar yang sangat besar, sehingga langkah ini mungkin sudah tidak lagi diperlukan.

Siapakah penerima faedah paling terus kepada kompresi KV Cache?

Siapa yang memasok SSD dalam jumlah besar? Jangan lupa, YMTC (Yangtze Memory Technologies) sedang berkembang menjadi raksasa di bidang 3D NAND. NAND dapat membantu DeepSeek menghindari penghitungan ulang KV. Sebaliknya, DeepSeek juga menciptakan pasar besar untuk NAND dan SSD—hal ini tidak hanya akan menguntungkan Yangtze Memory Technologies, tetapi juga produsen terkait lainnya.

ChangXin Memory

Namun, ini bukan hanya tentang NAND dan SSD.

Memori LPDDR juga memiliki potensi besar. Ia boleh digunakan sebagai tempat penyimpanan timbangan model, dan menghantar timbangan tersebut secara streaming ke HBM apabila diperlukan, untuk mengurangkan tekanan terhadap keperluan HBM. Pasukan SGLang pernah menerbitkan blog yang sangat baik yang menjelaskan ini. Gambar di bawah menunjukkan bagaimana penyelesaian ini berfungsi.

Walaupun DeepSeek tidak dirancang secara khusus untuk penyelesaian ini, arkaitek MoE-nya, jumlah besar model pakar yang dimilikinya, serta ciri-ciri bobot 4 bit semuanya memudahkan pelaksanaan penyelesaian ini.

ChangXin Memory

Rajah ini menunjukkan bagaimana memori mungkin digunakan, dan bagaimana timbangan model dipindahkan secara streaming dari LPDDR ke HBM. Sangat disarankan untuk membaca blog SGLang.

Inovasi ini, apabila digabungkan dengan KV Cache yang sangat kompak dan tanpa kehilangan kualiti, akan mengurangkan keperluan terhadap HBM secara ketara.

Jadi, siapa di China yang memproduksi LPDDR? Jawapannya ialah CXMT, atau Chexin Storage. Mereka hanya tertinggal sekitar separuh generasi dalam kelajuan LPDDR, dan satu generasi dalam ketumpatan, jadi jurangnya tidak besar.

Selain NAND yang mencukupi, ekosistem AI China juga akan memiliki bekalan LPDDR yang mencukupi dalam masa yang tidak lama lagi. Ini boleh meredakan tekanan pengiraan? Jawapannya: boleh. Teruskan membaca.

ChangXin Memory

Penggunaan memori yang pintar juga boleh mengurangkan beban pada GPU / ASIC

Menggunakan NAND untuk menyimpan KV Cache sebenarnya mudah difahami: ia membolehkan KV Cache kekal lebih lama, mengurangkan tekanan terhadap HBM, serta mengelakkan pengiraan semula KV Cache, dengan itu mengurangkan beban pengiraan terhadap GPU dan ASIC.

Jadi, adakah LPDDR juga boleh berfungsi dengan cara yang serupa? Selain sebagai lokasi penyimpanan yang boleh 'mengalirkan bobot mengikut permintaan' ke HBM, adakah ia juga boleh mengurangkan beban pengiraan lebih lanjut?

Jawapannya adalah: Boleh.

LPDDR boleh digunakan untuk menyimpan sejumlah besar konten yang dikenali sebagai Engram. Dalam kertas kerja Engram DeepSeek, mereka menunjukkan bahawa MoE boleh memperluas kapasiti model melalui pengiraan bersyarat, tetapi Transformer itu sendiri kekurangan mekanisme 'pencarian pengetahuan' asli. Oleh itu, Transformer sering terpaksa mensimulasikan proses pencarian secara tidak cekap melalui pengiraan.

Untuk menyelesaikan masalah ini, DeepSeek mengusulkan modul Engram. Ia memodernisasi penanaman N-gram klasik menjadi mekanisme pencarian O(1) berbasis hash, menciptakan jalan penjarangan komplementer yang mereka sebut memori bersyarat (conditional memory).

Cara ini boleh menjimatkan pengiraan, tetapi memerlukan memori untuk menyimpan jadual embedding, dan jadual itu sendiri mungkin sangat besar.

Pada dasarnya, ini adalah skema klasik "menukar memori dengan pengiraan". Tetapi wawasan utamanya ialah: dari segi kos membaca setiap bit data, sisi "memori" jauh lebih murah—sekali carian LPDDR, jauh lebih murah berbanding membiarkan data melalui berbilang lapisan Transformer untuk satu pengiraan maju. Oleh itu, dalam skala besar, ini merupakan pertukaran yang sangat menguntungkan.

Ini adalah cara DeepSeek mengorbankan sebahagian memori untuk mendapatkan penghematan pengiraan.

ChangXin Memory

Pengorbanan yang patut dibuat

Tanpa kepadatan transistor cip yang setara dan tanpa EUV, GPU dan ASIC China kemungkinan akan terus tertinggal dari GPU Barat dari segi kekuatan FLOPs asli. Mereka juga masih memiliki jurang yang jelas dalam pengemasan canggih. Oleh itu, kompromi semacam ini sangat patut dilakukan, terutama apabila China mampu menghasilkan memori NAND dan LPDDR dalam jumlah besar.

Mengulas strategi jangka panjang DeepSeek

Dari inovasi-inovasi ini, tujuan DeepSeek tampaknya bukan untuk mendapat keuntungan ratusan juta dolar sekarang. Banyak keputusan yang dibuatnya di masa lalu menunjukkan hal ini: hingga kini belum ada model multimodal, tidak ada model suara, apalagi model video.

Yang sebenarnya ia terlibat ialah permainan jangka panjang yang penuh kesabaran, dengan skala yang mungkin mencapai 10 trilion dolar: mendorong pembentukan ekosistem peranti AI alternatif.

Ini bukan hanya untuk menjadikan pembuat memori China sebagai pemain utama dalam pasaran peranti AI di China dan seluruh dunia, tetapi juga untuk mengurangkan keperluan sumber secara mendasar, menjadikan latihan dan perkhidmatan model AI lebih berkesan dari segi kos. Dengan cara ini, banyak pembuat GPU, ASIC, serta pembuat cip rangkaian berpeluang menjadi pilihan yang boleh dipertimbangkan.

Sementara itu, inovasi-inovasi ini juga akan memberi manfaat kepada ekosistem sumber terbuka Barat, serta pengilang peranti keras generasi baru.

Semua tanda sebenarnya sudah muncul. Mari kita tinjau semula inovasi-inovasi yang telah diajukan oleh DeepSeek sehingga kini:

1. Model campuran pakar (MoE) dan MLA yang diperkenalkan dalam DeepSeek V2

DeepSeek memperkenalkan MoE dan MLA di V2. MoE mengurangkan jumlah pengiraan yang diperlukan untuk melatih model berkecerdasan tinggi sebanyak kira-kira 40% hingga 50%; MLA mengurangkan KV Cache sebanyak 90%.

Ini menjadikan pemindahan KV Cache ke SSD menjadi agak efisien.

Gagasan-gagasan ini pertama kali muncul dalam kertas DeepSeek V2 yang diterbitkan oleh DeepSeek pada Mei 2024. Kemudian, ia menjadi asas kepada latihan DeepSeek V3. Pada masa itu, DeepSeek hanya menggunakan 2048 GPU H800 dengan prestasi yang direndahkan untuk melatih sistem yang prestasinya hampir setara dengan model tertutup.

ChangXin Memory

2. DSA: Diperkenalkan dalam DeepSeek V3.2 Exp untuk mengurangkan beban pengiraan dalam skenario konteks panjang, sambil meringankan tekanan bandwidth HBM.

Peranan utama DSA ialah memastikan jumlah pengiraan tidak terus meningkat seiring dengan peningkatan panjang konteks. Lihat grafik di bawah: semakin panjang konteks, masa pemprosesan DeepSeek-V3.2 kekal stabil.

ChangXin Memory

3. mHC: Diperkenalkan oleh DeepSeek pada Disember 2025 dalam kertas kerja berjudul “mHC: Manifold-Constrained Hyper-Connections”.

mHC adalah inovasi DeepSeek pada aras arsitektur makro, yang mererekabentuk cara aliran maklumat di antara lapisan Transformer.

Sebelum ini, sejak ResNet, model biasanya menggunakan sambungan sisa standar, iaitu x + F(x). Pendekatan mHC adalah dengan memperluas aliran sisa menjadi saluran maklumat selari banyak, dan membenarkan model mencampurkan secara boleh belajar antara saluran-saluran ini. Kuncinya ialah ia menghadkan matriks campuran sebagai matriks dwi-sitkastik, iaitu dengan membataskannya pada polihedron Birkhoff melalui projeksi Sinkhorn-Knopp. Dengan cara ini, secara matematik dijamin bahawa amplitud isyarat akan kekal stabil, berapa pun dalamnya model tersebut ditimbun.

Ini menyelesaikan masalah ketidakstabilan bencana yang dihadapi Hyper-Connections tanpa batas. Hyper-Connections awalnya diusulkan oleh ByteDance, tetapi tanpa batasan, penguatan sinyal meningkat hingga 3000 kali pada skala 27 miliar parameter, yang akhirnya menyebabkan pelatihan gagal total.

Kos pengiraan mHC sangat rendah: ia hanya menambahkan beban masa latihan sebanyak kira-kira 6.7%, kerana ia tidak mengubah FLOPs pada lapisan perhatian atau lapisan FFN, hanya mengubah cara penghantaran output lapisan tersebut antara lapisan.

Namun, peningkatan prestasi yang dibawa cukup ketara: pada skala 27 miliar parameter, mHC meningkat sebanyak 7.2 poin dalam tugas penalaran BIG-Bench Hard, 3.2 poin dalam DROP, 2.8 poin dalam tugas matematik GSM8K, dan 1.4 poin dalam tugas pengetahuan am MMLU. Semua peningkatan ini dicapai pada skala model yang sama dan anggaran pengiraan yang hampir sama.

Pada dasarnya, mHC mencapai kecerdasan unit parameter yang lebih tinggi dengan menyediakan topologi penjajaran maklumat lintas lapisan yang lebih kaya dan lebih ekspresif, hampir tanpa menambah FLOPs tambahan.

ChangXin Memory

mHC adalah reka bentuk arsitektur yang kompleks, tetapi ia mampu membawa proses latihan yang lebih stabil dan kecerdasan unit parameter yang lebih tinggi.

4, CSA, HSA: DeepSeek diperkenalkan di V4 pada April 2026.

Matlamat CSA dan HSA ialah untuk mengurangkan keperluan KV Cache sebanyak 90% lagi melalui pemampatan KV Token, sambil mengurangkan secara besar-besaran FLOPs yang diperlukan, dengan demikian meringankan beban pada HBM serta GPU/ASIC.

ChangXin Memory

5. Engram: Diperkenalkan oleh DeepSeek pada Kuartal Pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti yang ditunjukkan dalam grafik terperinci di bawah, Engram membawa peningkatan prestasi yang ketara dalam anggaran parameter keseluruhan yang sama.

ChangXin Memory

6. Engram: Diperkenalkan oleh DeepSeek pada Kuartal Pertama 2026, pada dasarnya menukar kecekapan pengiraan dengan memori, iaitu memori LPDDR.

Seperti yang ditunjukkan dalam grafik terperinci di bawah, Engram membawa peningkatan prestasi yang ketara dalam anggaran parameter keseluruhan yang sama.

ChangXin Memory

Ini adalah cadangan yang DeepSeek kongsikan dengan pembuat peranti keras dalam kertas kerja V4. Saya sangat yakin, dalam perbincangan langsung, mereka akan memberikan lebih banyak maklum balas.

7. Penglibatan terhadap TileLang juga menunjukkan arah yang sama: DeepSeek bukan hanya menyelesaikan bottleneck kekuatan pengiraan sendiri, tetapi juga mendorong ekosistem peranti keras China untuk memiliki kemampuan bersaing dengan ekosistem Barat.

Dengan TileLang, pembangun hanya perlu menulis sekali kernel, iaitu kod dasar untuk pengiraan, kemudian menjalankannya berjaya di pelbagai platform peranti keras, selagi platform tersebut telah menyediakan sokongan belakang TileLang yang sesuai.

Saya menganggap bahawa makmal AI China lain juga akan menyusul masuk. Ini akan membantu pengeluar peranti keras China untuk mengatasi "parit pertahanan CUDA" secara tidak langsung. Pada masa yang sama, ia juga akan melepaskan potensi lebih banyak peranti keras Barat, seperti AMD.

Perlu ditekankan bahawa banyak platform peranti AI di China telah menyediakan kompatibilitas CUDA atau lapisan terjemahan CUDA. Sebagai contoh, Moore Threads, Megvii, Birun dan TianShu ZhiXin adalah pengeluar cip China yang mencapai kompatibilitas CUDA yang tinggi melalui lapisan terjemahan. Oleh itu, secara teori, mereka tidak semestinya memerlukan TileLang.

ChangXin Memory

Pembelajaran mendalam berskala besar dan RSI

Dengan DeepSeek mendapat lebih banyak sumber daya pengiraan, iaitu lebih banyak pilihan peranti keras, sambil keperluan model itu sendiri terhadap sumber pengiraan berkurang, ia mampu memajukan projek latihan yang lebih ambisius, terutamanya latihan selepas penguatan pembelajaran.

Pembelajaran penguatan memerlukan penghasilan banyak trajektori, iaitu menghasilkan triliunan Token. Proses ini akan segera menjadi sangat mahal. Lebih lanjut, jika ingin melatih model dengan panjang konteks 1 juta, diperlukan trajektori dengan panjang yang sama. Hanya dengan melatih model pada trajektori super panjang ini, ia benar-benar dapat menyokong tugas jangka panjang.

Selain itu, dengan peningkatan pilihan peranti keras, sumber daya peranti keras yang boleh dipanggil oleh DeepSeek juga akan bertambah, yang akan mendorong penyelidikan automatik, iaitu RSI. RSI merujuk kepada AI yang mereka dan menjalankan eksperimen sendiri. Pendekatan ini akan melibatkan banyak percubaan dan kesilapan, dan kosnya akan meningkat dengan cepat. Namun, RSI sangat penting untuk menjelajahi ruang reka bentuk model secara penuh. Sebelum mencapai AGI, dan kemudian ASI, DeepSeek mesti memiliki kemampuan RSI.

Apa yang DeepSeek lakukan hari ini, seluruh industri akan mengikuti esok hari

Inovasi DeepSeek dalam arah model campuran pakar, MLA, DSA, dan sebagainya telah secara berperingkat diambil oleh makmal AI lain di seluruh dunia dan di China.

Sebagai contoh, ZAI, pengembang model siri GLM, menggunakan MLA dan DSA. Kimi, atau Moonshot, juga mengadopsi MLA dan secara terbuka menyatakan bahawa arsitekturnya direka berdasarkan arsitektur DeepSeek. Sebaliknya, DeepSeek juga menggunakan optimizer Muon, yang pertama kali diadopsi oleh Kimi (Moonshot) dalam latihan berskala besar.

Perlu dinyatakan bahawa:

MoE pertama kali dicadangkan oleh Google pada tahun 2017, dengan penulis utama ialah Noam Shazeer. Kontribusi DeepSeek terletak pada penerapan besar-besaran MoE dan penciptaan teknik pendukung sendiri.

Muon, iaitu Optimizer MomentUm Orthogonalized by Newton-Schulz, dicadangkan pada akhir 2024 oleh penyelidik pembelajaran mesin Keller Jordan. Pasukan Kimi (Moonshot) adalah yang pertama menggunakannya untuk latihan berskala besar.

Bagaimana dengan masalah keuntungan?

Kita boleh melihat contoh menarik OpenAI ini.

OpenAI memperoleh warrant/opsyen untuk membeli saham AMD dan Cerebras pada harga yang lebih rendah, yang dikaitkan dengan tonggak penggunaan kuasa komputasi. Bagi AMD dan Cerebras, ini merupakan perjanjian yang sangat menguntungkan, kerana sekali OpenAI berjanji menggunakan peralatan mereka, kemungkinan kejayaan jangka panjang mereka akan meningkat secara besar-besaran.

AMD dalam pengumuman tersebut menyatakan:

Sebagai sebahagian daripada perjanjian, untuk menyelaraskan lebih lanjut kepentingan strategik kedua-dua belah, AMD mengeluarkan warrant yang membolehkan OpenAI membeli sehingga 160 juta saham biasa AMD, yang akan menjadi milik secara berperingkat berdasarkan pencapaian tarikh tertentu. Peringkat pertama akan menjadi milik apabila pelaksanaan awal 1 GW selesai, manakala peringkat seterusnya akan menjadi milik secara berperingkat seiring dengan peningkatan pembelian sehingga 6 GW. Syarat kepemilikan juga berkaitan dengan pencapaian target harga saham AMD tertentu, serta pencapaian oleh OpenAI terhadap tonggak teknikal dan perniagaan yang diperlukan untuk pelaksanaan berskala besar oleh AMD.

ChangXin Memory

Saya menganggarkan bahawa DeepSeek juga akan menandatangani perjanjian serupa dengan pelbagai pembuat China dalam bidang memori, ASIC, CPU, dan tumpuan teknologi rangkaian, serta bekerjasama secara mendalam dengan mereka untuk memastikan stak peranti mereka mampu menangani beban kerja AI terkemuka.

Dengan mempertimbangkan keseluruhan pasaran saham AI di Barat, termasuk sekutu-sekutu Asia Timur, yang sudah jauh melebihi US$1 trilion, cara “mendapatkan pulangan ekuiti melalui kerjasama” ini akan memberi DeepSeek peluang untuk membantu China membina industri sebesar yang sama, serta mendapat bahagian mereka sendiri, akhirnya mencapai penilaian US$1 trilion.

Ini tidak hanya akan membawa DeepSeek memperoleh pendapatan jauh melebihi model langganan aplikasi tradisional, tetapi juga mencapai tujuannya untuk “membuat AGI dapat dinikmati oleh semua orang.” Liang Wenhong adalah penggemar setia Jim Simons dan pemain modal yang cukup cerdas—dia tidak mungkin melewatkan hal ini.

Jika anda menoleh semula kepada segala yang telah dilakukan oleh DeepSeek sehingga kini, hanya satu penjelasan yang paling masuk akal.

ChangXin Memory

Ini adalah saham AI utama. Pihak hyperscaler, iaitu penyedia awan berskala besar, dan banyak syarikat berkaitan lain belum termasuk dalam gambar ini.

Link asal