Strategi 10 Triliun Dolar DeepSeek: Sumber Terbuka dan Ekosistem Perangkat Keras AI

Strategi besar DeepSeek senilai 10 triliun USD

Penulis asli: @bookwormengr

Peggy, BlockBeats

Editor's Note: Selama setahun terakhir, diskusi seputar DeepSeek sebagian besar berfokus pada kinerja model, strategi open-source, dan perang harga. Namun, jika hanya memahami DeepSeek dari sudut pandang “apakah menjual langganan”, “apakah memiliki multimodal”, atau “apakah bisa menjadi coding agent”, Anda mungkin meremehkan hal-hal sebenarnya yang ingin diubahnya.

Artikel ini mengusulkan sebuah penilaian yang lebih radikal: tujuan DeepSeek belum tentu adalah monetisasi jangka pendek melalui lapisan aplikasi, tetapi melalui serangkaian inovasi arsitektur dasar untuk membentuk ulang struktur biaya pelatihan dan inferensi AI, serta secara tidak langsung mendorong terbentuknya ekosistem perangkat keras baru. Dari MoE, MLA hingga DSA, CSA, mHC, Engram, hingga Dual Path dan TileLang, jalur teknologi DeepSeek selalu berputar pada satu pertanyaan inti: bagaimana cara menjalankan model yang lebih kuat dengan kekuatan komputasi高端 yang lebih sedikit, ketika HBM, proses maju, packaging, dan ekosistem CUDA terbatas.

Yang paling patut diperhatikan dari artikel ini bukanlah apakah DeepSeek dapat menghasilkan ratusan juta dolar AS melalui API atau langganan, tetapi apakah ia sedang mengikat kemampuan model, sistem memori, dan ekosistem perangkat keras domestik menjadi satu kesatuan. Kompresi KV Cache mengurangi ketergantungan pada HBM, NAND dan SSD dapat menangani penyimpanan jangka panjang, LPDDR dapat digunakan untuk pemuatan streaming bobot dan penyimpanan Engram, sementara TileLang berusaha melemahkan parit pelindung CUDA. Jika inovasi-inovasi ini terus menyebar, pihak yang diuntungkan tidak hanya DeepSeek sendiri, tetapi juga industri penyimpanan, ASIC, GPU, chip jaringan, serta seluruh rantai infrastruktur AI.

Tentu, penilaian mengenai "ekosistem industri senilai 10 triliun dolar AS" dan "valuasi 1 triliun dolar AS" dalam teks ini masih bersifat spekulatif. Namun, ia menyediakan jalur penting untuk memahami DeepSeek: open source tidak selalu berarti melepaskan komersialisasi, dan harga rendah tidak selalu hanya merupakan subsidi pasar. Bagi DeepSeek, bisnis sejati mungkin bukan berada di lapisan aplikasi, melainkan dalam membantu lebih banyak perangkat keras menjadi dapat digunakan, serta membuat pasokan AI dengan biaya lebih rendah menjadi mungkin. Dengan kata lain, yang dijualnya belum tentu model itu sendiri, melainkan kelayakan infrastruktur AI generasi berikutnya.

Berikut adalah teks aslinya:

ChangXin Memory

Apakah kamu pernah berpikir, bagaimana DeepSeek benar-benar bisa menghasilkan uang, dan bahkan mungkin menghasilkan banyak uang?

Ia tidak memiliki paket langganan pemrograman yang kompetitif seperti GLM, MoonShot, dan MiniMax; juga tidak memiliki model multimodal, audio, atau video. Sejauh ini, ia bahkan belum memiliki harness sendiri—yaitu kerangka eksternal untuk pemanggilan model, integrasi alat, dan eksekusi tugas—meskipun baru-baru ini mereka mulai merekrut posisi terkait untuk membangun sistem ini.

Sementara itu, DeepSeek tampaknya juga secara konsisten berpihak pada sumber terbuka, bahkan bersedia membagikan "rahasia" mereka secara terbuka. Bukankah ini gila? Bukankah ini membuang-buang uang? Apakah para investor yang bersiap menginvestasikan 10 miliar dolar AS kepadanya benar-benar membuang uang mereka ke selokan?

Saya pribadi berpendapat, jawabannya justru sebaliknya.

Selanjutnya, saya akan mengemukakan beberapa observasi berdasarkan hal-hal yang telah dilakukan DeepSeek hingga kini, serta menganalisis strategi yang tampaknya sedang diikuti olehnya. Tujuan梁文锋, CEO DeepSeek, mungkin jauh melampaui persaingan model saat ini. Yang menjadi sasaran mungkin adalah hadiah yang lebih besar: DeepSeek berpeluang mencapai valuasi 1 triliun dolar AS, sekaligus mendorong terbentuknya industri baru senilai 10 triliun dolar AS.

ChangXin Memory

TechInAsia melaporkan putaran pendanaan terbaru DeepSeek

Kunjungi kembali "Perjalanan Pahlawan" DeepSeek

DeepSeek terus bergerak melawan arus. Alih-alih terus meluncurkan model yang sedikit lebih kuat, lalu terburu-buru mengemasnya menjadi aplikasi yang langsung dapat diuangkan, seperti langganan pemrograman, DeepSeek memilih jalan lain. Pada 27 Januari 2025, saya pernah mengirimkan tweet yang sangat viral tentang "perjalanan pahlawan" DeepSeek menurut pandangan saya. Kini, kisah ini menjadi semakin menarik.

Saat orang lain masih mencoba membangun model padat, DeepSeek memilih model campuran ahli (Mixture of Experts, MoE) yang lebih sulit dilatih.

Mereka menggunakan pendekatan "first principles" untuk menciptakan algoritma GRPO baru yang menggantikan algoritma pembelajaran penguatan PPO yang saat itu dominan namun memiliki biaya implementasi lebih tinggi.

Mereka menemukan bahwa pembelajaran penguatan berbasis hadiah yang dapat diverifikasi (Reinforcement Learning from Verified Rewards, RLVR) adalah strategi kunci untuk meningkatkan kemampuan penalaran model.

Mereka juga mengusulkan strategi dekoding spekulatif sederhana melalui «Multi Token Prediction», sekaligus membuat sinyal pelatihan menjadi lebih padat.

Mereka menyempurnakan jalur produksi «ZERO bubble» untuk meningkatkan efisiensi pemanfaatan sumber daya GPU yang terbatas.

Mereka meluncurkan expert load balancer yang membuat penerapan model MoE menjadi lebih mudah bagi semua orang. Terutama melalui strategi «Wide Expert Parallel», model dapat melayani dengan batch yang lebih besar, sehingga secara signifikan menurunkan biaya inferensi.

Mereka menciptakan mekanisme seperti MLA, DSA, CSA, dan HCA untuk mengurangi kebutuhan KV Cache dan menjaga permintaan komputasi yang meningkat seiring dengan panjang konteks tetap sedekat mungkin dengan konstan.

Mereka menciptakan Engram, menukar memori dengan efisiensi komputasi.

Mereka juga menciptakan mHC, yang memungkinkan pelatihan stabil meskipun skala model diperbesar. Masih banyak contoh serupa.

Dalam struktur naratif paling umum, "Perjalanan Pahlawan", sang pahlawan tidak pernah memutuskan tujuan perjalanannya sejak awal. Ia belajar sepanjang perjalanan, secara bertahap menyadari misi agung yang sebenarnya, dan menyelesaikannya di tengah berbagai hambatan. Ia akan bertemu banyak orang yang meragukan, tetapi memilih mengabaikan mereka. Ia juga akan bertemu banyak pelaku jahat. Ia memiliki kelemahan atau kekurangan yang jelas, tetapi akhirnya mengatasi masalah-masalah tersebut dan menyelesaikan misinya. Ia menghadapi tantangan yang tampak tak mungkin dilalui, namun menemukan cara untuk membentuk aliansi, serta belajar menggunakan sumber daya yang terbatas dan berharga secara bijak. Inilah yang membuat penonton bersorak mendukung sang pahlawan. Ini pula yang membuat DeepSeek memenangkan pengikut, penghormatan global, serta lawan-lawannya.

Seperti yang akan saya jelaskan lebih rinci berikutnya, DeepSeek telah berjalan jauh di jalan ini dan secara bertahap menemukan takdir akhirnya: tujuannya bukanlah menjual langganan pemrograman, tetapi mendorong ekosistem perangkat keras AI Tiongkok senilai 10 triliun dolar AS dan mencapai valuasi senilai 1 triliun dolar AS. Dalam prosesnya, ia juga akan menciptakan peluang bagi banyak pemain baru di ekosistem perangkat keras Barat.

ChangXin Memory

Mulailah dengan beberapa perhitungan KV Cache yang menarik

Silakan lihat tweet terbaru dari @SemiAnalysis_:

ChangXin Memory

DeepSeek telah menyelesaikan masalah ini lebih baik daripada siapa pun!

Mari kita lakukan sedikit perhitungan KV Cache yang menarik. Jangan khawatir, meskipun Anda tidak suka matematika. Kami akan menggunakan kalkulator KV Cache yang baru dirilis untuk melihat seberapa banyak penghematan KV Cache yang dibawa oleh DeepSeek V4 Pro, serta membandingkannya dengan model GLM dan Qwen terbaru.

Di sini saya menghitung dengan panjang konteks 1 juta, dengan asumsi presisi KV sebesar 8 bit dan presisi indexer sebesar 16 bit. Anda juga dapat membuka kalkulator ini sendiri: https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

Anda juga bisa membuka kalkulator sendiri untuk mencobanya!

Dengan panjang konteks 1 juta:

·DeepSeek V4 hanya memerlukan 5,48 GB HBM;

·GLM-5 memerlukan 60GB HBM;

·Qwen3-235B-A22B memerlukan hingga 89 GB HBM.

Perlu diperhatikan:

·DeepSeek adalah model dengan 1,6 triliun parameter;

·GLM-5 memiliki sekitar 700 miliar parameter dan telah mengadopsi MLA dan DSA dari DeepSeek, namun belum menggunakan mekanisme perhatian kompresi terbaru;

·Qwen3-235B-A22B memiliki sekitar 235 miliar parameter dan menggunakan mekanisme perhatian GQA.

DeepSeek telah memberikan kontribusi mendasar dalam meredakan tekanan memori. Jika inovasi semacam ini diadopsi secara luas, biaya operasional Agent siklus panjang akan berkurang secara signifikan dan membuka serangkaian aplikasi baru berikutnya.

ChangXin Memory

Perbandingan penggunaan KV Cache di bawah 1 juta token konteks dan skala model

Metodologi di balik "Gila"

Alasan ukuran KV Cache bisa sangat kecil tanpa mengorbankan kualitas model adalah karena DeepSeek mampu menyediakan cache jangka panjang dengan harga sangat rendah—harganya bahkan kurang dari 3% dari harga cache hit Sonnet 4.6, dan DeepSeek dapat menyimpan cache selama beberapa jam.

Untuk tugas jangka panjang, KV Cache yang lebih kecil berarti dapat lebih ekonomis dimuat ke SSD dan dimuat ulang saat diperlukan. Hal ini mengurangi ketergantungan pada HBM. Dari sudut pandang industri perangkat keras AI Tiongkok, HBM tidak hanya pasokannya terbatas, tetapi juga salah satu jenis memori paling sulit untuk diproduksi.

Selain itu, DeepSeek juga mengembangkan teknologi untuk memuat KV Cache lebih cepat dari SSD, seperti yang telah dijelaskan dalam paper Dual Path mereka.

ChangXin Memory

DeepSeek V4 sangat besar dalam kompresi KV Cache, hingga langkah ini bahkan mungkin tidak lagi diperlukan.

Siapa penerima manfaat paling langsung dari kompresi KV Cache?

Siapa yang memasok SSD dalam skala besar? Jangan lupa, YMTC (Yangtze Memory Technologies) sedang berkembang menjadi raksasa di bidang 3D NAND. NAND dapat membantu DeepSeek menghindari perhitungan ulang KV. Sebaliknya, DeepSeek juga menciptakan pasar besar untuk NAND dan SSD—hal ini tidak hanya akan menguntungkan Yangtze Memory Technologies, tetapi juga produsen terkait lainnya.

ChangXin Memory

Namun, ini tidak hanya tentang NAND dan SSD.

Memori LPDDR juga memiliki potensi besar. Ini dapat digunakan sebagai tempat penyimpanan bobot model, dan memindahkan bobot-bobot tersebut secara streaming ke HBM saat diperlukan, sehingga mengurangi tekanan terhadap kebutuhan HBM. Tim SGLang pernah merilis blog yang sangat baik yang menjelaskan hal ini. Gambar di bawah ini menunjukkan cara kerja solusi ini.

Meskipun DeepSeek tidak dirancang secara khusus untuk solusi ini, arsitektur MoE-nya, jumlah besar model ahli yang dimilikinya, serta fitur bobot 4 bit membuat solusi ini lebih mudah diimplementasikan.

ChangXin Memory

Diagram ini menunjukkan bagaimana memori mungkin digunakan, serta bagaimana bobot model distreamkan dari LPDDR ke HBM. Sangat disarankan untuk membaca blog SGLang.

Inovasi ini, jika dikombinasikan dengan KV Cache yang sangat kompak dan tanpa kehilangan kualitas, akan secara signifikan mengurangi kebutuhan akan HBM.

Jadi, siapa yang memproduksi LPDDR di Tiongkok? Jawabannya adalah CXMT, atau ChangXin Memory Technologies. Mereka hanya tertinggal sekitar setengah generasi dalam kecepatan LPDDR dan satu generasi dalam kepadatan, sehingga jaraknya tidak terlalu besar.

Selain pasokan NAND yang cukup, ekosistem AI Tiongkok juga akan memiliki pasokan LPDDR yang cukup dalam waktu dekat. Apakah ini dapat meredakan tekanan komputasi? Jawabannya: ya. Lanjutkan membaca.

ChangXin Memory

Penggunaan memori yang cerdas juga dapat mengurangi beban pada GPU / ASIC

Menggunakan NAND untuk menyimpan KV Cache sebenarnya mudah dipahami: hal ini memungkinkan KV Cache tetap disimpan lebih lama, mengurangi tekanan pada HBM, sekaligus menghindari perhitungan ulang KV Cache, sehingga meringankan beban komputasi pada GPU dan ASIC.

Lalu, apakah LPDDR juga dapat berfungsi dengan cara serupa? Selain berperan sebagai lokasi penyimpanan yang dapat 'secara instan sesuai permintaan' melakukan streaming bobot ke HBM, apakah ia juga dapat lebih mengurangi beban komputasi?

Jawabannya: Bisa.

LPDDR dapat digunakan untuk menyimpan sejumlah besar konten yang disebut Engram. Dalam paper Engram DeepSeek, mereka menunjukkan bahwa MoE dapat memperluas kapasitas model melalui komputasi bersyarat, tetapi Transformer sendiri tidak memiliki mekanisme 'pencarian pengetahuan' bawaan. Oleh karena itu, Transformer sering harus secara tidak efisien mensimulasikan proses pencarian melalui komputasi.

Untuk menyelesaikan masalah ini, DeepSeek mengusulkan modul Engram. Modul ini memodernisasi embedding N-gram klasik menjadi mekanisme pencarian O(1) berbasis hash, menciptakan jalur sparsifikasi komplementer yang mereka sebut conditional memory.

Cara ini dapat menghemat komputasi, tetapi memerlukan memori untuk menyimpan tabel embedding, yang mungkin sangat besar.

Pada dasarnya, ini adalah solusi klasik "mengganti memori dengan komputasi". Namun, wawasan kuncinya adalah: dari sudut pandang biaya pembacaan setiap bit data, sisi "memori" jauh lebih murah—satu pencarian LPDDR jauh lebih murah daripada membuat data melewati beberapa lapis Transformer untuk satu perhitungan forward. Oleh karena itu, dalam skala besar, ini adalah pertukaran yang sangat menguntungkan.

Ini adalah cara DeepSeek menghemat komputasi dengan mengorbankan sebagian memori.

ChangXin Memory

Kompromi yang layak dibuat

Karena tidak memiliki kepadatan transistor chip yang setara dan tidak memiliki EUV, GPU dan ASIC Tiongkok kemungkinan akan tertinggal jauh dalam daya FLOPs mentah dibandingkan GPU Barat. Mereka juga masih memiliki kesenjangan yang jelas dalam hal packaging canggih. Oleh karena itu, kompromi semacam ini sangat layak dilakukan, terutama dengan asumsi Tiongkok mampu memproduksi NAND dan memori LPDDR dalam jumlah besar.

Mengulas strategi jangka panjang DeepSeek

Dari inovasi-inovasi ini, tampaknya tujuan DeepSeek bukanlah menghasilkan keuntungan ratusan juta dolar AS sekarang. Banyak keputusan yang diambilnya di masa lalu menunjukkan hal ini: hingga kini belum memiliki model multimodal, belum ada model suara, apalagi model video.

Yang sebenarnya ia ikuti adalah permainan jangka panjang yang penuh kesabaran, dengan potensi skala hingga 10 triliun dolar AS: mendorong terbentuknya ekosistem perangkat keras AI alternatif.

Ini tidak hanya bertujuan menjadikan produsen memori Tiongkok sebagai pemain kunci di pasar perangkat keras AI di Tiongkok bahkan secara global, tetapi juga untuk secara mendasar mengurangi kebutuhan sumber daya, sehingga pelatihan dan layanan model AI menjadi lebih efisien dari segi biaya. Dengan demikian, banyak produsen GPU, ASIC, serta produsen chip jaringan memiliki peluang untuk menjadi pilihan yang layak.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the new generation of hardware manufacturers.

Semua tanda sebenarnya sudah muncul. Mari kita tinjau kembali inovasi-inovasi yang diajukan DeepSeek hingga kini:

1. Model campuran ahli (MoE) dan MLA yang diperkenalkan di DeepSeek V2

DeepSeek memperkenalkan MoE dan MLA di V2. MoE mengurangi jumlah komputasi yang diperlukan untuk melatih model berkecerdasan tinggi sekitar 40% hingga 50%; MLA mengurangi KV Cache sebesar 90%.

Ini membuat pengunduhan KV Cache ke SSD menjadi cukup efisien.

Gagasan-gagasan ini pertama kali muncul dalam makalah DeepSeek V2 yang dirilis oleh DeepSeek pada Mei 2024. Kemudian, gagasan-gagasan ini juga menjadi dasar pelatihan DeepSeek V3. Pada saat itu, DeepSeek hanya menggunakan 2048 GPU H800 dengan kinerja yang dilemahkan untuk melatih sistem yang performanya mendekati tingkat model tertutup.

ChangXin Memory

2. DSA: Diperkenalkan di DeepSeek V3.2 Exp untuk mengurangi beban komputasi dalam skenario konteks panjang, sekaligus meredakan tekanan pada bandwidth HBM.

Peran inti DSA adalah memastikan beban komputasi tidak terus meningkat seiring dengan pertambahan panjang konteks. Lihat grafik di bawah ini: seiring dengan peningkatan panjang konteks, waktu pemrosesan DeepSeek-V3.2 tetap stabil.

ChangXin Memory

3. mHC: Diperkenalkan oleh DeepSeek pada Desember 2025 dalam makalah berjudul “mHC: Manifold-Constrained Hyper-Connections”.

mHC adalah inovasi DeepSeek pada tingkat arsitektur makro, yang mendesain ulang cara aliran informasi antar lapisan Transformer.

Di masa lalu, sejak ResNet, model biasanya menggunakan koneksi residual standar, yaitu x + F(x). Pendekatan mHC memperluas aliran residual menjadi beberapa saluran informasi paralel, dan memungkinkan model untuk melakukan pencampuran yang dapat dipelajari di antara saluran-saluran ini. Kuncinya adalah, matriks pencampuran dibatasi menjadi matriks double stochastic, yaitu dengan membatasinya pada Birkhoff polytope melalui proyeksi Sinkhorn-Knopp. Dengan cara ini, secara matematis dijamin bahwa amplitudo sinyal tetap stabil, terlepas seberapa dalam model tersebut ditumpuk.

Ini menyelesaikan masalah ketidakstabilan kritis yang dihadapi Hyper-Connections tanpa batas. Hyper-Connections awalnya diajukan oleh ByteDance, tetapi tanpa batasan, penguatan sinyal meningkat hingga 3000 kali lipat pada skala 27 miliar parameter, yang akhirnya menyebabkan pelatihan gagal total.

Biaya komputasi mHC sangat rendah: ia hanya menambahkan overhead waktu pelatihan sekitar 6,7%, karena tidak mengubah FLOPs pada lapisan perhatian atau lapisan FFN, hanya mengubah cara routing output lapisan tersebut di antara lapisan-lapisan.

Namun, peningkatan kinerja yang dihasilkan cukup signifikan: pada skala 27 miliar parameter, mHC meningkat 7,2 poin pada tugas inferensi BIG-Bench Hard, 3,2 poin pada DROP, 2,8 poin pada tugas matematika GSM8K, dan 1,4 poin pada tugas pengetahuan umum MMLU. Semua peningkatan ini dicapai dengan ukuran model yang sama dan anggaran komputasi yang hampir identik.

Pada dasarnya, mHC mencapai kecerdasan per parameter yang lebih tinggi dengan menyediakan topologi routing informasi lintas lapisan yang lebih kaya dan lebih ekspresif, hampir tanpa menambah FLOPs tambahan.

ChangXin Memory

mHC adalah desain arsitektur yang kompleks, tetapi mampu memberikan proses pelatihan yang lebih stabil dan kecerdasan per parameter yang lebih tinggi.

4, CSA, HSA: DeepSeek diperkenalkan di V4 pada April 2026.

Tujuan CSA dan HSA adalah mengurangi kebutuhan KV Cache sebesar 90% melalui kompresi KV Token, sekaligus secara signifikan mengurangi FLOPs yang diperlukan, sehingga meredakan tekanan pada HBM serta GPU/ASIC secara bersamaan.

ChangXin Memory

5. Engram: Diperkenalkan oleh DeepSeek pada kuartal pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti ditunjukkan pada grafik rinci di bawah ini, Engram membawa peningkatan kinerja yang signifikan dengan anggaran parameter total yang sama.

ChangXin Memory

6. Engram: Diperkenalkan oleh DeepSeek pada kuartal pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti ditunjukkan pada grafik rinci di bawah ini, Engram membawa peningkatan kinerja yang signifikan dengan anggaran parameter total yang sama.

ChangXin Memory

Ini adalah saran yang DeepSeek bagikan kepada produsen perangkat keras dalam paper V4. Saya yakin, dalam diskusi langsung, umpan balik yang mereka berikan akan jauh lebih banyak.

7. Investasi pada TileLang juga menunjukkan arah yang sama: DeepSeek tidak hanya menyelesaikan bottleneck kekuatan komputasi sendiri, tetapi juga mendorong ekosistem perangkat keras Tiongkok untuk memiliki kemampuan bersaing dengan ekosistem Barat.

Dengan TileLang, pengembang dapat menulis kernel sekali saja, yaitu kode dasar untuk perhitungan, lalu menjalankannya di berbagai platform perangkat keras, asalkan platform tersebut telah mendukung backend TileLang yang sesuai.

Saya memperkirakan laboratorium AI Tiongkok lainnya juga akan bergabung secara bertahap. Ini akan membantu produsen perangkat keras Tiongkok mengatasi "moat CUDA" secara tidak langsung. Sekaligus, ini juga akan melepaskan potensi lebih besar dari perangkat keras Barat, seperti AMD.

Perlu dicatat bahwa sejumlah platform perangkat keras AI di Tiongkok telah menyediakan kompatibilitas CUDA atau lapisan terjemahan CUDA. Misalnya, Moore Threads, Muxi, Biren, dan TianShu Zhixin adalah produsen chip Tiongkok yang mencapai kompatibilitas CUDA tinggi melalui lapisan terjemahan. Oleh karena itu, secara teori, mereka tidak selalu memerlukan TileLang.

ChangXin Memory

Pembelajaran penguatan skala besar dan RSI

Dengan DeepSeek memperoleh lebih banyak sumber daya komputasi, yaitu semakin banyak pilihan perangkat keras, sekaligus kebutuhan model itu sendiri terhadap sumber daya komputasi menurun, ia dapat memajukan proyek pelatihan yang lebih ambisius, terutama pelatihan lanjutan berbasis pembelajaran penguatan.

Pembelajaran penguatan memerlukan generasi sejumlah besar trajektori, yaitu triliunan Token. Proses ini akan segera menjadi sangat mahal. Lebih lanjut, jika ingin melatih model dengan panjang konteks 1 juta, diperlukan generasi trajektori dengan panjang yang sama. Hanya dengan melatih model pada trajektori super panjang ini, model benar-benar dapat mendukung tugas jangka panjang.

Selain itu, dengan peningkatan pilihan perangkat keras, sumber daya perangkat keras yang dapat diakses oleh DeepSeek juga akan bertambah, yang akan mendorong penelitian otomatisasi, yaitu RSI. RSI merujuk pada AI yang merancang dan menjalankan eksperimen sendiri. Pendekatan ini akan melibatkan banyak percobaan dan kesalahan, serta biaya yang akan cepat meningkat. Namun, RSI sangat penting untuk mengeksplorasi ruang desain model secara lengkap. Sebelum menuju AGI, dan selanjutnya menuju ASI, DeepSeek harus memiliki kemampuan RSI.

Yang dilakukan DeepSeek hari ini, seluruh industri akan mengikuti besok

Inovasi DeepSeek di sekitar arah model campuran ahli, MLA, DSA, dll., secara bertahap telah diadopsi oleh laboratorium AI lain di seluruh dunia dan di Tiongkok.

Misalnya, pengembang model seri GLM, ZAI, menggunakan MLA dan DSA. Kimi, yang merupakan Moonshot, juga mengadopsi MLA dan secara terbuka menyatakan bahwa arsitekturnya dirancang berdasarkan arsitektur DeepSeek. Sebaliknya, DeepSeek juga menggunakan optimizer Muon, yang pertama kali diadopsi oleh Kimi (Moonshot) dalam pelatihan berskala besar.

Perlu ditekankan bahwa:

MoE pertama kali diajukan oleh Google pada tahun 2017, dengan penulis utama Noam Shazeer. Kontribusi DeepSeek terletak pada penerapan MoE secara skala besar dan penemuan teknik pendukungnya sendiri.

Muon, yaitu Optimizer MomentUm Orthogonalized by Newton-Schulz, diajukan oleh peneliti machine learning Keller Jordan pada akhir 2024. Tim Kimi (Moonshot) adalah tim pertama yang menggunakannya untuk pelatihan skala besar.

Lalu bagaimana dengan masalah keuntungan?

Kita bisa melihat contoh menarik dari OpenAI ini.

OpenAI memperoleh warrant/opsi untuk membeli saham AMD dan Cerebras dengan harga lebih rendah, yang terkait dengan tonggak penggunaan daya komputasi mereka. Bagi AMD dan Cerebras, ini adalah kesepakatan yang sangat menguntungkan, karena sekali OpenAI berkomitmen untuk menggunakan perangkat keras mereka, kemungkinan kesuksesan jangka panjang mereka akan meningkat secara signifikan.

AMD memiliki pernyataan berikut dalam pengumumannya:

Sebagai bagian dari perjanjian, untuk lebih menyelaraskan kepentingan strategis kedua belah pihak, AMD menerbitkan warrant kepada OpenAI yang memberikan hak untuk membeli hingga 160 juta saham biasa AMD, yang akan secara bertahap menjadi milik OpenAI berdasarkan pencapaian tonggak tertentu. Batch pertama akan menjadi milik OpenAI setelah penyelesaian penerapan awal 1 gigawatt, sedangkan batch berikutnya akan secara bertahap menjadi milik OpenAI seiring peningkatan pembelian hingga 6 gigawatt. Kondisi kepemilikan juga terkait dengan pencapaian target harga saham tertentu oleh AMD, serta pencapaian tonggak teknis dan bisnis oleh OpenAI yang diperlukan untuk penerapan skala besar oleh AMD.

ChangXin Memory

Saya memperkirakan DeepSeek juga akan mencapai kesepakatan serupa dengan sejumlah produsen Tiongkok di bidang memori, ASIC, CPU, dan tumpukan teknologi jaringan, serta bekerja sama secara mendalam agar tumpukan perangkat keras mereka mampu menangani beban kerja AI terkemuka.

Mengingat total kapitalisasi pasar saham AI dari semua negara Barat, termasuk sekutu Asia Timur, telah jauh melebihi 10 triliun dolar AS, pendekatan "mendapatkan imbalan ekuitas melalui kerja sama" ini akan memberi DeepSeek kesempatan untuk membantu Tiongkok membangun industri sebesar yang sama, serta memperoleh bagiannya, pada akhirnya mencapai valuasi 1 triliun dolar AS.

Ini tidak hanya akan membuat DeepSeek menghasilkan pendapatan jauh lebih besar daripada bisnis langganan aplikasi tradisional, tetapi juga mewujudkan tujuannya untuk “membuat AGI dapat dinikmati oleh semua orang.” Liang Wenhong adalah penggemar setia Jim Simons dan pemain modal yang cukup cerdas, sehingga ia tidak mungkin melewatkan hal ini.

Jika Anda melihat kembali semua yang telah dilakukan DeepSeek hingga sekarang, hanya satu penjelasan yang paling masuk akal.

ChangXin Memory

Ini adalah saham AI kunci. Gambar belum mencakup hyperscalers, yaitu penyedia cloud skala besar, serta banyak perusahaan terkait lainnya.

Original link