Strategi DeepSeek: Membina Ekosistem Perkakasan AI bernilai $10 bilion

Strategi besar DeepSeek bernilai 10 trilion USD

Penulis asal: @bookwormengr

Peggy, BlockBeats

Catatan editor: Dalam setahun terakhir, perbincangan mengenai DeepSeek kebanyakan berfokus pada prestasi model, strategi sumber terbuka, dan peperangan harga. Namun, jika anda hanya memahami DeepSeek melalui perspektif “adakah ia menjual langganan”, “adakah ia mempunyai multimodal”, atau “adakah ia boleh menjadi agen coding”, anda mungkin meremehkan perkara sebenar yang ingin ia ubah.

Artikel ini mengusulkan satu penilaian yang lebih radikal: matlamat DeepSeek mungkin bukan untuk mendapatkan pendapatan dalam jangka pendek melalui lapisan aplikasi, tetapi melalui serangkaian inovasi struktur asas untuk membentuk semula struktur kos latihan dan inferens AI, serta secara tidak langsung mendorong pembentukan ekosistem peranti keras yang baru. Dari MoE, MLA hingga DSA, CSA, mHC, Engram, hingga Dual Path dan TileLang, jalan teknologi DeepSeek sentiasa berpusat pada satu soalan utama: bagaimana untuk menjalankan model yang lebih kuat dengan kekuatan pengiraan tinggi yang lebih sedikit, apabila HBM, proses canggih, pembungkusan, dan ekosistem CUDA terhad.

Yang paling patut diperhatikan dalam artikel ini bukanlah “Adakah DeepSeek mampu menghasilkan berjuta-juta dolar AS melalui API atau langganan”, tetapi sama ada ia sedang mengikat kemampuan model, sistem memori, dan ekosistem peranti tempatan bersama-sama. Kompresi KV Cache mengurangkan ketergantungan terhadap HBM, NAND dan SSD boleh menangani penyimpanan jangka panjang, LPDDR boleh digunakan untuk memuatkan berat secara streaming dan menyimpan Engram, sementara TileLang cuba melemahkan parit CUDA. Jika inovasi-inovasi ini terus menyebar, penerima faedahnya bukan hanya DeepSeek sendiri, tetapi juga industri penyimpanan, ASIC, GPU, cip rangkaian, dan keseluruhan rantai infrastruktur AI.

Tentu, penilaian mengenai "ekosistem industri bernilai US$1 trilion" dan "penilaian US$100 bilion" masih bersifat spekulatif. Namun, ia memberikan satu jalan penting untuk memahami DeepSeek: sumber terbuka tidak semestinya bermaksud meninggalkan komersialisasi, dan harga rendah tidak semestinya hanya subsidi pasaran. Bagi DeepSeek, bisnis sebenarnya mungkin bukan pada lapisan aplikasi, tetapi dalam membantu lebih banyak peranti keras menjadi boleh digunakan, serta menjadikan bekalan AI berkos lebih rendah mungkin. Dengan kata lain, ia mungkin tidak menjual model itu sendiri, tetapi kelayakan infrastruktur AI generasi seterusnya.

Berikut ialah teks asal:

Pernahkah anda memikirkan bagaimana DeepSeek akan mendapat keuntungan, dan mungkin mendapat banyak wang?

Ia tidak menawarkan pelan langganan pemrograman yang kompetitif seperti GLM, MoonShot, dan MiniMax; juga tidak memiliki model multimodal, audio, atau video. Sejauh ini, ia bahkan belum memiliki harness sendiri—iaitu kerangka operasi luaran untuk pemanggilan model, akses alat, dan pelaksanaan tugas—walaupun mereka baru-baru ini mula merekrut jawatan berkaitan untuk membina sistem ini.

Sementara itu, DeepSeek kelihatannya juga secara konsisten berpihak kepada sumber terbuka, bahkan bersedia berkongsi secara terbuka "rahsia" mereka. Bukankah ini gila? Bukankah ini membuang-buang wang? Apakah pelabur yang bersedia berinvestasi sebanyak 10 miliar dolar AS kepadanya sedang membuang wang ke saluran pembuangan?

Saya percaya secara peribadi, jawapannya adalah sebaliknya.

Seterusnya, saya akan mengemukakan beberapa pemerhatian berdasarkan perkara yang telah dilakukan DeepSeek sejauh ini, serta menganalisis strategi yang kelihatannya sedang diikuti olehnya. Matlamat CEO DeepSeek, Liang Wenhong, mungkin jauh melebihi persaingan model semasa. Yang dimaksudkannya mungkin adalah hadiah yang lebih besar: DeepSeek berpeluang mencapai penilaian sebanyak $1 trilion, sambil mendorong pembentukan industri baru dengan skala $10 trilion.

Laporan TechInAsia mengenai pembiayaan paling terkini DeepSeek

Kunjungan semula "Perjalanan Pahlawan" DeepSeek

DeepSeek terus bergerak melawan arus. Ia tidak memilih untuk terus-menerus melancarkan model yang sedikit lebih kuat, kemudian tergesa-gesa mengemasnya sebagai aplikasi yang boleh langsung menghasilkan pendapatan, seperti langganannya pemrograman. Pada 27 Januari 2025, saya pernah menghantar satu tweet yang tersebar luas, menceritakan "perjalanan pahlawan" DeepSeek menurut pandangan saya. Kini, kisah ini menjadi lebih menarik.

Semasa orang lain masih cuba membina model yang padat, DeepSeek memilih model campuran pakar (Mixture of Experts, MoE) yang lebih sukar untuk dilatih.

Mereka menggunakan pendekatan "prinsip pertama" untuk mencipta algoritma GRPO baharu yang menggantikan algoritma pembelajaran penguatan PPO yang lebih mahal untuk dilaksanakan pada masa itu.

Mereka menemui bahawa pembelajaran penguatan berdasarkan ganjaran yang boleh diverifikasi (Reinforcement Learning from Verified Rewards, RLVR) adalah strategi utama untuk meningkatkan kemampuan penarikan kesimpulan model.

Mereka juga mengusulkan strategi penghampiran mudah melalui "Multi Token Prediction", sambil membuat isyarat latihan menjadi lebih padat.

Mereka menyempurnakan saluran "ZERO bubble" untuk meningkatkan kecekapan penggunaan sumber GPU yang terhad.

Mereka melancarkan expert load balancer yang memudahkan semua orang untuk menghuraikan model MoE. Terutamanya melalui strategi "Wide Expert Parallel", model boleh dilayan dengan batch yang lebih besar, dengan begitu mengurangkan kos inferens secara besar-besaran.

Mereka mencipta mekanisme seperti MLA, DSA, CSA, dan HCA untuk mengurangkan keperluan KV Cache dan menjadikan keperluan pengiraan yang meningkat seiring dengan panjang konteks tetap sedekat mungkin dengan nilai tetap.

Mereka menciptakan Engram, menukar memori dengan kecekapan pengiraan.

Mereka juga menciptakan mHC, yang membolehkan latihan yang stabil walaupun skala model diperbesar. Masih terdapat banyak contoh serupa.

Dalam struktur naratif paling umum, "Perjalanan Pahlawan", sang pahlawan tidak pernah memutuskan tujuan perjalanannya sejak awal. Dia belajar sepanjang perjalanan, secara bertahap menyadari misi agung sejatinya, dan menyelesaikannya di tengah rintangan yang berat. Dia akan bertemu banyak pencela, tetapi memilih mengabaikan mereka. Dia juga akan bertemu banyak pelaku jahat. Dia memiliki kelemahan atau kekurangan yang jelas, tetapi akhirnya mengatasi masalah-masalah ini dan menyelesaikan misinya. Dia menghadapi tantangan yang tampaknya tak bisa dilalui, tetapi menemukan cara untuk membentuk aliansi, serta belajar bagaimana menggunakan sumber daya yang terbatas dan berharga secara bijak. Inilah yang membuat penonton bersorak mendukung sang pahlawan. Ini pula yang membuat DeepSeek memenangkan pengikut, penghormatan global, serta lawan-lawannya.

Seperti yang akan saya terangkan secara terperinci seterusnya, DeepSeek telah berjalan jauh di jalan ini dan secara beransur-ansur menemukan takdir akhirnya: matlamatnya bukanlah menjual langganan pemrograman, tetapi mendorong ekosistem peranti keras AI China yang bernilai US$10 trilion, serta mencapai penilaian US$1 trilion. Dalam proses ini, ia juga akan menciptakan peluang bagi banyak pemain baru dalam ekosistem peranti keras Barat.

Mulakan dengan beberapa pengiraan KV Cache yang menarik

Lihat tweet terkini ini dari @SemiAnalysis_:

DeepSeek telah menyelesaikan masalah ini dengan lebih baik daripada siapa pun!

Mari kita lakukan sedikit pengiraan KV Cache yang menarik. Jangan risau, walaupun anda tidak suka matematik. Kami akan menggunakan kalkulator KV Cache yang baru dikeluarkan untuk melihat berapa banyak pengurangan KV Cache yang dibawa oleh DeepSeek V4 Pro, dan membandingkannya dengan model GLM dan Qwen terkini.

Di sini saya mengira dengan panjang konteks 1 juta, dengan presisi KV 8 bit dan presisi indexer 16 bit. Anda juga boleh membuka kalkulator ini sendiri: https://kvcache.ai/tools/kv-cache-calculator/

Anda juga boleh membuka kalkulator sendiri untuk mencuba!

Dengan panjang konteks 1 juta:

·DeepSeek V4 hanya memerlukan 5.48GB HBM;

·GLM-5 memerlukan 60GB HBM;

·Qwen3-235B-A22B memerlukan HBM sehingga 89GB.

Perlu diperhatikan:

·DeepSeek adalah model dengan 1.6 bilion parameter;

·GLM-5 mempunyai sekitar 700 bilion parameter dan telah mengadopsi MLA dan DSA dari DeepSeek, tetapi belum menggunakan mekanisme perhatian mampat terkini;

·Qwen3-235B-A22B mempunyai kira-kira 235 bilion parameter dan menggunakan mekanisme perhatian GQA.

DeepSeek telah memberikan sumbangan mendasar dalam meredakan tekanan memori. Jika inovasi semacam ini diadopsi secara meluas, ia akan secara signifikan mengurangkan kos operasi Agent jangka panjang dan membuka aplikasi baru seterusnya.

Perbandingan penggunaan KV Cache di bawah 1 juta token konteks dan skala model

Metodologi di sebalik "Gila"

KV Cache boleh dibuat sangat kecil tanpa mengorbankan kualiti model, yang merupakan sebab DeepSeek mampu menyediakan cache jangka panjang dengan harga sangat rendah—harganya bahkan kurang daripada 3% daripada harga cache hit Sonnet 4.6, dan DeepSeek boleh mengekalkan cache selama berjam-jam.

Untuk tugas jangka panjang, KV Cache yang lebih kecil bermaksud ia boleh dilepaskan ke SSD dengan lebih ekonomik dan dimuat semula apabila diperlukan. Ini mengurangkan ketergantungan kepada HBM. Dari sudut industri peranti AI China, HBM tidak hanya mengalami kekurangan bekalan, tetapi juga merupakan salah satu jenis memori yang paling sukar untuk dikeluarkan.

Selain itu, DeepSeek juga mengembangkan teknologi untuk memuat KV Cache lebih pantas dari SSD, seperti yang telah diterangkan dalam paper Dual Path mereka.

DeepSeek V4 memampatkan KV Cache dengan kadar yang sangat besar, sehingga langkah ini mungkin sudah tidak lagi diperlukan.

Siapakah penerima faedah paling langsung kepada kompresi KV Cache?

Siapa yang memasok SSD dalam jumlah besar? Jangan lupa, YMTC (Yangtze Memory Technologies) sedang berkembang menjadi raksasa di bidang 3D NAND. NAND dapat membantu DeepSeek menghindari penghitungan ulang KV. Sebaliknya, DeepSeek juga menciptakan pasar besar untuk NAND dan SSD—hal ini tidak hanya akan menguntungkan Yangtze Memory Technologies, tetapi juga produsen terkait lainnya.

Namun, ini bukan hanya tentang NAND dan SSD.

Memori LPDDR juga memiliki potensi besar. Ia boleh digunakan sebagai tempat penyimpanan bobot model, dan mengalirkan bobot-bobot ini ke HBM apabila diperlukan, untuk mengurangkan tekanan terhadap keperluan HBM. Pasukan SGLang pernah menerbitkan blog yang sangat baik yang menjelaskan ini. Gambar di bawah menunjukkan bagaimana penyelesaian ini berfungsi.

Walaupun DeepSeek tidak direka khas untuk skema ini, arsitektur MoE-nya, jumlah besar model pakar yang dimilikinya, serta ciri-ciri bobot 4 bit menjadikan skema ini lebih mudah dilaksanakan.

Rajah ini menunjukkan bagaimana memori mungkin digunakan, dan bagaimana timbangan model dialirkan dari LPDDR ke HBM. Sangat disarankan agar anda membaca blog SGLang.

Inovasi ini, apabila digabungkan dengan KV Cache yang sangat ringkas dan tanpa kehilangan data, akan secara signifikan mengurangkan keperluan terhadap HBM.

Jadi, siapa di China yang memproduksi LPDDR? Jawapannya ialah CXMT, atau Chexin Storage. Mereka hanya tertinggal kira-kira separuh generasi dalam kelajuan LPDDR, dan satu generasi dalam ketumpatan, jadi jurangnya tidak besar.

Selain NAND yang mencukupi, ekosistem AI China juga akan memiliki bekalan LPDDR yang mencukupi dalam masa yang tidak lama lagi. Ini boleh meredakan tekanan pengiraan? Jawapannya: Boleh. Teruskan membaca.

Penggunaan memori yang pintar juga boleh mengurangkan beban pada GPU / ASIC

Menggunakan NAND untuk menyimpan KV Cache sebenarnya mudah difahami: ia membolehkan KV Cache kekal lebih lama, mengurangkan tekanan terhadap HBM, serta mengelakkan pengiraan semula KV Cache, dengan itu mengurangkan beban pengiraan terhadap GPU dan ASIC.

Jadi, adakah LPDDR juga boleh berfungsi dengan cara yang serupa? Selain sebagai lokasi penyimpanan yang boleh 'mengalirkan bobot mengikut permintaan' ke HBM, adakah ia juga boleh mengurangkan beban pengiraan lebih lanjut?

Jawapannya adalah: Boleh.

LPDDR boleh digunakan untuk menyimpan jumlah besar kandungan yang dikenali sebagai Engram. Dalam kertas kerja Engram DeepSeek, mereka menunjukkan bahawa MoE boleh memperluas kapasiti model melalui pengiraan bersyarat, tetapi Transformer itu sendiri tidak mempunyai mekanisme 'pencarian pengetahuan' asli. Oleh itu, Transformer sering terpaksa mensimulasikan proses pencarian secara tidak cekap melalui pengiraan.

Untuk menyelesaikan masalah ini, DeepSeek mengusulkan modul Engram. Ia memodernisasi penanaman N-gram klasik menjadi mekanisme pencarian O(1) berbasis hash, menciptakan laluan penjarangan komplementer yang mereka namakan memori bersyarat (conditional memory).

Cara ini boleh menjimatkan pengiraan, tetapi memerlukan memori untuk menyimpan jadual embedding, dan jadual itu sendiri mungkin sangat besar.

Pada dasarnya, ini adalah skema klasik "menukar memori dengan pengiraan". Namun, wawasan utamanya ialah: dari segi kos membaca setiap bit data, sisi "memori" jauh lebih murah—sekali carian LPDDR, jauh lebih murah daripada membiarkan data melalui pelbagai lapisan Transformer untuk satu pengiraan maju. Oleh itu, dalam skala besar, ini merupakan pertukaran yang sangat menguntungkan.

Ini adalah cara DeepSeek mengorbankan sebahagian memori untuk mendapatkan penghematan pengiraan.

Kompromi yang patut dibuat

Kerana ketiadaan kepadatan transistor cip yang setara dan EUV, GPU dan ASIC China kemungkinan akan terus tertinggal dari GPU Barat dari segi FLOPs asal. Mereka juga masih mempunyai jurang yang jelas dalam pengemasan canggih. Oleh itu, pertukaran semacam ini sangat patut dilakukan, terutamanya apabila China mampu menghasilkan memori NAND dan LPDDR dalam jumlah besar.

Mengulas strategi jangka panjang DeepSeek

Dari inovasi-inovasi ini, tujuan DeepSeek tampaknya bukan untuk mendapat keuntungan ratusan juta dolar AS sekarang juga. Banyak pilihan yang dibuatnya di masa lalu menunjukkan hal ini: hingga kini belum ada model multimodal, tidak ada model suara, apalagi model video.

Yang sebenarnya ia terlibat ialah permainan jangka panjang yang penuh kesabaran, dengan skala yang mungkin mencapai 10 trilion dolar: mendorong pembentukan ekosistem peranti AI alternatif.

Ini bukan hanya untuk menjadikan pembuat memori China sebagai pemain utama dalam pasaran peranti AI di China dan seluruh dunia, tetapi juga untuk mengurangkan keperluan sumber secara mendasar, menjadikan latihan dan perkhidmatan model AI lebih berkesan dari segi kos. Dengan cara ini, banyak pembuat GPU, ASIC, serta pembuat cip rangkaian berpeluang menjadi pilihan yang boleh dipertimbangkan.

Sementara itu, inovasi-inovasi ini juga akan memberi manfaat kepada ekosistem sumber terbuka Barat, serta pengilang peranti keras generasi baru.

Semua petunjuk sebenarnya sudah muncul. Mari kita tinjau semula inovasi-inovasi yang telah diajukan oleh DeepSeek sehingga kini:

1. Model campuran pakar (MoE) dan MLA yang diperkenalkan dalam DeepSeek V2

DeepSeek memperkenalkan MoE dan MLA dalam V2. MoE mengurangkan jumlah pengiraan yang diperlukan untuk melatih model berkecerdasan tinggi sebanyak kira-kira 40% hingga 50%; MLA mengurangkan KV Cache sebanyak 90%.

Ini menjadikan pemindahan KV Cache ke SSD menjadi agak efisien.

Gagasan-gagasan ini pertama kali muncul dalam kertas DeepSeek V2 yang diterbitkan oleh DeepSeek pada Mei 2024. Kemudian, ia menjadi asas kepada latihan DeepSeek V3. Pada masa itu, DeepSeek hanya menggunakan 2048 GPU H800 dengan prestasi yang dikurangkan untuk melatih sistem yang prestasinya hampir setara dengan model tertutup.

2. DSA: Diperkenalkan dalam DeepSeek V3.2 Exp untuk mengurangkan beban pengiraan dalam skenario konteks panjang, sambil meringankan tekanan bandwidth HBM.

Peranan utama DSA ialah memastikan jumlah pengiraan tidak terus meningkat seiring dengan peningkatan panjang konteks. Lihat grafik di bawah: semakin panjang konteks, masa pemprosesan DeepSeek-V3.2 kekal stabil.

3. mHC: Diperkenalkan oleh DeepSeek pada Disember 2025 dalam kertas kerja berjudul “mHC: Manifold-Constrained Hyper-Connections”.

mHC adalah inovasi DeepSeek pada peringkat arsitektur makro, yang mererekabentuk cara aliran maklumat di antara lapisan Transformer.

Sebelum ini, sejak ResNet, model biasanya menggunakan sambungan sisa standard, iaitu x + F(x). Pendekatan mHC adalah dengan memperluas aliran sisa menjadi beberapa saluran maklumat selari, dan membenarkan model melakukan campuran yang boleh dipelajari antara saluran-saluran ini. Kuncinya ialah ia menghadkan matriks campuran sebagai matriks dwi-sitkastik, iaitu dengan menghadkannya ke dalam polihedron Birkhoff melalui projeksi Sinkhorn-Knopp. Dengan cara ini, secara matematik dijamin bahawa amplitud isyarat akan kekal stabil, tidak kira seberapa dalam model tersebut ditimbun.

Ini menyelesaikan masalah ketidakstabilan bencana yang dihadapi oleh Hyper-Connections tanpa batas. Hyper-Connections awalnya diusulkan oleh ByteDance, tetapi tanpa batasan, penguatan sinyal meningkat hingga 3000 kali pada skala 27 miliar parameter, akhirnya menyebabkan pelatihan gagal total.

Kos pengiraan mHC sangat rendah: ia hanya menambahkan beban masa latihan sebanyak kira-kira 6.7%, kerana ia tidak mengubah FLOPs pada lapisan perhatian atau lapisan FFN, hanya mengubah cara penghantaran output lapisan tersebut di antara lapisan.

Namun, peningkatan prestasi yang dibawa sangat ketara: pada skala 27 bilion parameter, mHC meningkat sebanyak 7.2 poin dalam tugas penalaran BIG-Bench Hard, 3.2 poin dalam DROP, 2.8 poin dalam tugas matematik GSM8K, dan 1.4 poin dalam tugas pengetahuan am MMLU. Semua peningkatan ini dicapai dengan skala model yang sama dan anggaran pengiraan yang hampir sama.

Pada dasarnya, mHC mencapai kecerdasan unit parameter yang lebih tinggi dengan menyediakan topologi penjajaran lapisan silang yang lebih kaya dan lebih ekspresif kepada rangkaian, hampir tanpa menambah FLOPs tambahan.

mHC adalah reka bentuk arsitektur yang kompleks, tetapi ia mampu membawa proses latihan yang lebih stabil dan kecerdasan unit parameter yang lebih tinggi.

4, CSA, HSA: DeepSeek diperkenalkan di V4 pada April 2026.

Matlamat CSA dan HSA ialah untuk mengurangkan keperluan KV Cache sebanyak 90% lagi melalui pemampatan KV Token, sambil mengurangkan secara besar-besaran FLOPs yang diperlukan, dengan demikian meringankan beban pada HBM serta GPU/ASIC.

5. Engram: Diperkenalkan oleh DeepSeek pada Kuartal Pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti yang ditunjukkan dalam grafik terperinci di bawah, Engram membawa peningkatan prestasi yang ketara dengan anggaran parameter keseluruhan yang sama.

6. Engram: Diperkenalkan oleh DeepSeek pada Kuartal Pertama 2026, pada dasarnya menukar kecekapan pengiraan dengan memori, iaitu memori LPDDR.

Seperti yang ditunjukkan dalam grafik terperinci di bawah, Engram membawa peningkatan prestasi yang ketara dengan anggaran parameter keseluruhan yang sama.

Ini adalah cadangan yang DeepSeek kongsikan kepada pembuat peranti keras dalam kertas kerja V4. Saya sangat yakin, dalam perbincangan langsung, mereka akan memberikan lebih banyak maklum balas.

7. Penglibatan terhadap TileLang juga menunjukkan arah yang sama: DeepSeek bukan hanya menyelesaikan kekangan kapasiti pengiraan sendiri, tetapi juga mendorong ekosistem peranti keras China untuk memiliki kemampuan bersaing dengan ekosistem Barat.

Dengan TileLang, pembangun boleh menulis kernel sekali sahaja, iaitu kod dasar yang digunakan untuk pengiraan, kemudian menjalankannya berjaya di pelbagai platform peranti keras, selama platform tersebut telah menyediakan sokongan latar belakang TileLang yang sesuai.

Saya menganggap bahawa makmal AI China lain juga akan menyusul masuk. Ini akan membantu pengeluar peranti keras China untuk menghadapi "parit pertahanan CUDA" secara tidak langsung. Sementara itu, ia juga akan melepaskan potensi lebih banyak peranti keras Barat, seperti AMD.

Perlu ditekankan bahawa banyak platform peranti AI di China telah menyediakan kompatibilitas CUDA atau lapisan terjemahan CUDA. Sebagai contoh, Moore Threads, Muxi, Biren dan TianShu Zhixing adalah pembuat cip China yang mencapai kompatibilitas CUDA yang tinggi melalui lapisan terjemahan. Oleh itu, secara teori, mereka tidak semestinya memerlukan TileLang.

Pembelajaran mendalam berskala besar dan RSI

Dengan DeepSeek mendapat lebih banyak sumber daya pengiraan, iaitu lebih banyak pilihan peranti keras, sambil keperluan model itu sendiri terhadap sumber pengiraan berkurang, ia mampu memajukan projek latihan yang lebih ambisius, terutamanya latihan selepas pembelajaran penguatan.

Pembelajaran penguatan memerlukan penghasilan sejumlah besar trajektori, iaitu menghasilkan triliunan Token. Proses ini akan segera menjadi sangat mahal. Lebih lanjut, jika ingin melatih model dengan panjang konteks 1 juta, diperlukan trajektori dengan panjang yang sama. Hanya dengan melatih model pada trajektori super panjang ini, ia benar-benar dapat menyokong tugas jangka panjang.

Selain itu, dengan peningkatan pilihan peranti keras, sumber daya peranti keras yang boleh dipanggil oleh DeepSeek juga akan bertambah, yang akan mendorong penyelidikan automatik, iaitu RSI. RSI merujuk kepada AI yang merekabentuk dan melaksanakan eksperimen sendiri. Pendekatan ini akan melibatkan banyak percubaan dan kesilapan, serta kosnya akan meningkat dengan cepat. Namun, RSI sangat penting untuk menjelajahi ruang rekabentuk model secara penuh. Sebelum mencapai AGI, dan kemudian ASI, DeepSeek mesti memiliki kemampuan RSI.

Apa yang dilakukan DeepSeek hari ini, seluruh industri akan mengikuti esok hari

Inovasi DeepSeek dalam arah seperti model campuran pakar, MLA, DSA, telah secara beransur-ansur diambil oleh makmal AI lain di seluruh dunia dan di China.

Sebagai contoh, ZAI, pengembang rangkaian model GLM, menggunakan MLA dan DSA. Kimi, yang juga dikenal sebagai Moonshot, juga mengadopsi MLA dan secara terbuka menyatakan bahawa arsitekturnya direka berdasarkan arsitektur DeepSeek. Sebaliknya, DeepSeek juga menggunakan optimizer Muon, yang pertama kali diadopsi oleh Kimi (Moonshot) dalam latihan berskala besar.

Perlu dinyatakan bahawa:

MoE pertama kali dicadangkan oleh Google pada tahun 2017, dengan penulis utama ialah Noam Shazeer. Kontribusi DeepSeek terletak pada penerapan besar-besaran MoE dan penciptaan teknik pendukung sendiri.

Muon, iaitu Optimizer MomentUm Orthogonalized by Newton-Schulz, dicadangkan pada akhir 2024 oleh penyelidik pembelajaran mesin Keller Jordan. Pasukan Kimi (Moonshot) adalah yang pertama menggunakannya untuk latihan berskala besar.

Bagaimana dengan masalah mendapat keuntungan?

Kita boleh melihat contoh menarik OpenAI ini.

OpenAI mendapat warrant/opsyen untuk membeli saham AMD dan Cerebras pada harga yang lebih rendah, dengan hak-hak ini berkaitan dengan tonggak penggunaan kuasa komputasi. Bagi AMD dan Cerebras, ini adalah perjanjian yang sangat menguntungkan, kerana sekali OpenAI berjanji menggunakan peralatan mereka, kemungkinan kejayaan jangka panjang mereka akan meningkat secara besar-besaran.

AMD mengumumkan dalam pengumuman tersebut:

Sebagai sebahagian daripada perjanjian, untuk lebih menyelaraskan kepentingan strategik kedua-dua belah, AMD mengeluarkan warrant yang membolehkan OpenAI membeli sehingga 160 juta saham biasa AMD, yang akan menjadi milik secara berperingkat berdasarkan pencapaian tonggak tertentu. Peringkat pertama akan menjadi milik apabila pelaksanaan awal 1 gigawatt selesai, manakala peringkat seterusnya akan menjadi milik secara berperingkat seiring dengan peningkatan pembelian sehingga 6 gigawatt. Syarat kepemilikan juga berkaitan dengan pencapaian target harga saham AMD tertentu, serta pencapaian tonggak teknikal dan perniagaan oleh OpenAI yang diperlukan untuk pelaksanaan berskala besar oleh AMD.

Saya menganggarkan bahawa DeepSeek juga akan menandatangani perjanjian serupa dengan pelbagai pembuat China dalam bidang memori, ASIC, CPU, dan tumpuan teknologi rangkaian, serta bekerjasama secara mendalam dengan mereka untuk memastikan tumpuan peranti mereka mampu menangani beban kerja AI terkemuka.

Dengan mempertimbangkan keseluruhan pasaran saham AI di Barat, termasuk sekutu-sekutu Asia Timur, yang sudah jauh melebihi US$1 trilion, cara “mendapatkan pulangan ekuiti melalui kerjasama” ini akan memberi DeepSeek peluang untuk membantu China membina industri sebesar yang sama, serta memperoleh bahagian mereka sendiri, akhirnya mencapai penilaian sebanyak US$1 trilion.

Ini tidak hanya akan membawa DeepSeek mendapat pendapatan jauh melebihi model langganan aplikasi tradisional, tetapi juga mencapai tujuannya untuk “membuat AGI dapat dinikmati oleh semua orang.” Liang Wenhong adalah penggemar setia Jim Simons dan pemain modal yang cukup cerdas—dia tidak mungkin melewatkan hal ini.

Jika anda menoleh semula kepada segala yang telah dilakukan oleh DeepSeek sehingga kini, hanya satu penjelasan yang paling masuk akal.

Ini adalah saham AI utama. Pemain hyperscaler, iaitu penyedia awan berskala besar, dan banyak syarikat berkaitan lain belum termasuk dalam gambar ini.

Link asal