Strategi DeepSeek: Membangun Ekosistem Perangkat Keras AI Senilai $10 Triliun

Strategi besar DeepSeek senilai 10 triliun USD

Penulis asli: @bookwormengr

Peggy, BlockBeats

Editor's Note: Selama setahun terakhir, diskusi seputar DeepSeek sebagian besar berfokus pada kinerja model, strategi open-source, dan perang harga. Namun, jika memahami DeepSeek hanya dari sudut pandang “apakah menjual langganan”, “apakah memiliki multimodal”, atau “apakah bisa menjadi coding agent”, Anda mungkin meremehkan hal-hal sebenarnya yang ingin diubahnya.

Artikel ini mengusulkan sebuah penilaian yang lebih radikal: tujuan DeepSeek belum tentu adalah monetisasi jangka pendek melalui lapisan aplikasi, tetapi melalui serangkaian inovasi arsitektur dasar untuk membentuk ulang struktur biaya pelatihan dan inferensi AI, serta secara tidak langsung mendorong terbentuknya ekosistem perangkat keras baru. Dari MoE, MLA hingga DSA, CSA, mHC, Engram, hingga Dual Path dan TileLang, jalur teknologi DeepSeek selalu berpusat pada satu pertanyaan inti: bagaimana cara menjalankan model yang lebih kuat dengan kekuatan komputasi tinggi yang lebih sedikit, dalam kondisi HBM, proses maju, packaging, dan ekosistem CUDA terbatas.

Yang paling patut diperhatikan dari artikel ini bukanlah apakah DeepSeek dapat menghasilkan ratusan juta dolar AS melalui API atau langganan, tetapi apakah ia sedang mengikat kemampuan model, sistem memori, dan ekosistem perangkat keras domestik menjadi satu kesatuan. Kompresi KV Cache mengurangi ketergantungan pada HBM, NAND dan SSD dapat menangani penyimpanan jangka panjang, LPDDR dapat digunakan untuk pemuatan streaming bobot dan penyimpanan Engram, sementara TileLang berusaha melemahkan parit pelindung CUDA. Jika inovasi-inovasi ini terus menyebar, pihak yang diuntungkan tidak hanya DeepSeek sendiri, tetapi juga industri penyimpanan, ASIC, GPU, chip jaringan, serta seluruh rantai infrastruktur AI.

Tentu, penilaian mengenai "ekosistem industri senilai 10 triliun dolar AS" dan "valuasi 1 triliun dolar AS" dalam teks ini masih bersifat spekulatif. Namun, ia menyediakan jalur penting untuk memahami DeepSeek: open source tidak selalu berarti melepaskan komersialisasi, dan harga rendah tidak selalu hanya subsidi pasar. Bagi DeepSeek, bisnis sejati mungkin bukan berada di lapisan aplikasi, melainkan dalam membantu lebih banyak perangkat keras menjadi dapat digunakan, serta membuat pasokan AI dengan biaya lebih rendah menjadi mungkin. Dengan kata lain, yang dijualnya mungkin bukan model itu sendiri, melainkan kelayakan infrastruktur AI generasi berikutnya.

Berikut adalah teks aslinya:

Apakah Anda pernah memikirkan bagaimana DeepSeek bisa menghasilkan uang, bahkan mungkin banyak uang?

Ia tidak memiliki paket langganan pemrograman yang kompetitif seperti GLM, MoonShot, dan MiniMax; juga tidak memiliki model multimodal, audio, atau video. Sejauh ini, ia bahkan belum memiliki harness sendiri—yaitu kerangka eksternal untuk pemanggilan model, integrasi alat, dan eksekusi tugas—meskipun baru-baru ini mereka mulai merekrut posisi terkait untuk membangun sistem ini.

Sementara itu, DeepSeek tampaknya juga secara konsisten berpihak pada sumber terbuka, bahkan bersedia membagikan "rahasia" mereka secara terbuka. Bukankah ini gila? Bukankah ini hanya membuang-buang uang? Apakah para investor yang bersiap menginvestasikan 10 miliar dolar AS kepadanya benar-benar membuang uang mereka ke selokan?

Saya pribadi berpendapat, jawabannya justru sebaliknya.

Selanjutnya, saya akan mengemukakan beberapa observasi berdasarkan hal-hal yang telah dilakukan DeepSeek hingga kini, serta menganalisis strategi yang tampaknya sedang diikuti olehnya. Tujuan梁文锋, CEO DeepSeek, mungkin jauh melampaui persaingan model saat ini. Yang menjadi sasaran mungkin adalah hadiah yang lebih besar: DeepSeek berpeluang mencapai valuasi 1 triliun dolar AS, sekaligus mendorong terbentuknya industri baru dengan skala 10 triliun dolar AS.

TechInAsia melaporkan putaran pendanaan terbaru DeepSeek

Kunjungi kembali "Perjalanan Pahlawan" DeepSeek

DeepSeek terus melawan arus. Alih-alih terus meluncurkan model yang sedikit lebih kuat, lalu terburu-buru mengemasnya menjadi aplikasi yang langsung bisa diuangkan, seperti langganan pemrograman, DeepSeek memilih jalan lain. Pada 27 Januari 2025, saya pernah mengirimkan tweet yang sangat viral tentang "perjalanan pahlawan" DeepSeek menurut pandangan saya. Kini, kisah ini menjadi semakin menarik.

Saat orang lain masih mencoba membangun model padat, DeepSeek memilih model campuran ahli (Mixture of Experts, MoE) yang lebih sulit dilatih.

Mereka menggunakan pendekatan "first principles" untuk menciptakan algoritma GRPO baru yang menggantikan algoritma pembelajaran penguatan PPO yang saat itu dominan namun memiliki biaya implementasi lebih tinggi.

Mereka menemukan bahwa reinforcement learning dari verified rewards (RLVR) merupakan strategi kunci untuk meningkatkan kemampuan penalaran model.

Mereka juga mengusulkan strategi dekoding spekulatif sederhana melalui «Multi Token Prediction», sekaligus membuat sinyal pelatihan menjadi lebih padat.

Mereka menyempurnakan jalur produksi "ZERO bubble" untuk meningkatkan efisiensi pemanfaatan sumber daya GPU yang terbatas.

Mereka meluncurkan expert load balancer yang membuat penerapan model MoE menjadi lebih mudah bagi semua orang. Terutama melalui strategi «Wide Expert Parallel», model dapat melayani dengan batch yang lebih besar, sehingga secara signifikan menurunkan biaya inferensi.

Mereka menciptakan mekanisme seperti MLA, DSA, CSA, dan HCA untuk mengurangi kebutuhan KV Cache dan menjaga permintaan komputasi yang meningkat seiring dengan panjang konteks tetap sedekat mungkin dengan konstan.

Mereka menciptakan Engram, menukar memori dengan efisiensi komputasi.

Mereka juga menciptakan mHC, yang memungkinkan pelatihan stabil meskipun ukuran model diperbesar. Masih banyak contoh serupa.

Dalam struktur narasi paling umum, "Perjalanan Pahlawan", sang pahlawan tidak pernah memutuskan tujuan perjalanannya sejak awal. Ia belajar sepanjang perjalanan, secara bertahap menemukan misi agung yang sebenarnya, dan menyelesaikannya di tengah berbagai hambatan. Ia akan bertemu banyak penentang, tetapi memilih mengabaikan mereka. Ia juga akan bertemu banyak pelaku jahat. Ia memiliki kelemahan atau kekurangan yang jelas, tetapi akhirnya mengatasi masalah-masalah tersebut dan menyelesaikan misinya. Ia menghadapi tantangan yang tampak tak mungkin dilalui, namun mampu menemukan cara untuk membentuk aliansi dan belajar menggunakan sumber daya yang terbatas dan berharga secara bijak. Inilah yang membuat penonton bersorak mendukung sang pahlawan. Ini pula yang membuat DeepSeek memenangkan pengikut, penghormatan global, serta lawan-lawannya.

Seperti yang akan saya jelaskan lebih rinci selanjutnya, DeepSeek telah lama berjalan di jalan ini dan secara bertahap menemukan takdir akhirnya: tujuannya bukanlah menjual langganan pemrograman, tetapi mendorong ekosistem perangkat keras AI Tiongkok senilai 10 triliun dolar AS dan mencapai valuasi senilai 1 triliun dolar AS. Dalam proses ini, ia juga akan menciptakan peluang bagi banyak pemain baru dalam ekosistem perangkat keras Barat.

Mulailah dengan beberapa perhitungan KV Cache yang menarik

Silakan lihat tweet terbaru dari @SemiAnalysis_:

DeepSeek telah menyelesaikan masalah ini lebih baik daripada siapa pun!

Mari kita lakukan perhitungan KV Cache yang menarik terlebih dahulu. Jangan khawatir, bahkan jika Anda tidak suka matematika. Kami akan menggunakan kalkulator KV Cache yang baru dirilis untuk melihat seberapa banyak penghematan KV Cache yang dapat dibawa oleh DeepSeek V4 Pro, serta membandingkannya dengan model GLM dan Qwen terbaru.

Di sini saya menghitung dengan panjang konteks 1 juta, dengan asumsi presisi KV 8 bit dan presisi indexer 16 bit. Anda juga dapat membuka kalkulator ini sendiri: https://kvcache.ai/tools/kv-cache-calculator/

Anda juga bisa membuka kalkulator sendiri untuk mencobanya!

Dengan panjang konteks 1 juta:

·DeepSeek V4 hanya memerlukan 5,48 GB HBM;

·GLM-5 memerlukan 60GB HBM;

·Qwen3-235B-A22B memerlukan hingga 89 GB HBM.

Perlu diperhatikan:

·DeepSeek adalah model dengan 1,6 triliun parameter;

·GLM-5 sekitar 700 miliar parameter dan telah mengadopsi MLA dan DSA dari DeepSeek, tetapi belum menggunakan mekanisme perhatian kompresi terbaru;

·Qwen3-235B-A22B memiliki sekitar 235 miliar parameter dan menggunakan mekanisme perhatian GQA.

DeepSeek telah memberikan kontribusi mendasar dalam mengurangi tekanan memori. Jika inovasi semacam ini diadopsi secara luas, biaya operasional Agent siklus panjang akan berkurang secara signifikan dan membuka serangkaian aplikasi baru berikutnya.

Perbandingan penggunaan KV Cache di bawah konteks 1 juta token dan skala model

Metodologi di balik "Gila"

Alasan ukuran KV Cache bisa sangat kecil tanpa mengorbankan kualitas model adalah karena DeepSeek mampu menyediakan cache jangka panjang dengan harga sangat rendah—harganya bahkan kurang dari 3% dari harga cache hit Sonnet 4.6, dan DeepSeek dapat menyimpan cache selama beberapa jam.

Untuk tugas jangka panjang, KV Cache yang lebih kecil berarti dapat lebih ekonomis dimuat ke SSD dan dimuat ulang saat diperlukan. Hal ini mengurangi ketergantungan pada HBM. Dari sudut pandang industri perangkat keras AI Tiongkok, HBM tidak hanya pasokannya terbatas, tetapi juga salah satu jenis memori paling sulit untuk diproduksi.

Selain itu, DeepSeek juga mengembangkan teknologi untuk memuat KV Cache lebih cepat dari SSD, seperti yang telah dijelaskan dalam paper Dual Path mereka.

DeepSeek V4 sangat besar dalam kompresi KV Cache, sehingga langkah ini bahkan mungkin tidak lagi diperlukan.

Lalu, siapa penerima manfaat paling langsung dari kompresi KV Cache?

Siapa yang memasok SSD dalam skala besar? Jangan lupa, YMTC (Yangtze Memory Technologies) sedang berkembang menjadi raksasa di bidang 3D NAND. NAND dapat membantu DeepSeek menghindari perhitungan ulang KV. Sebaliknya, DeepSeek juga menciptakan pasar besar untuk NAND dan SSD—hal ini tidak hanya akan menguntungkan Yangtze Memory Technologies, tetapi juga produsen terkait lainnya.

Namun, ini tidak hanya tentang NAND dan SSD.

Memori LPDDR juga memiliki potensi besar. Ia dapat digunakan sebagai tempat penyimpanan bobot model, dan mengalirkan bobot-bobot tersebut ke HBM saat diperlukan, sehingga mengurangi tekanan terhadap kebutuhan HBM. Tim SGLang pernah merilis blog yang sangat baik yang menjelaskan hal ini. Gambar di bawah ini menunjukkan cara kerja solusi ini.

Meskipun DeepSeek tidak dirancang secara khusus untuk solusi ini, arsitektur MoE-nya, jumlah besar model ahli yang dimilikinya, serta fitur bobot 4 bit membuat solusi ini lebih mudah diimplementasikan.

Diagram ini menunjukkan bagaimana memori mungkin digunakan, serta bagaimana bobot model ditransmisikan secara streaming dari LPDDR ke HBM. Sangat disarankan untuk membaca blog SGLang.

Inovasi ini, jika dikombinasikan dengan KV Cache yang sangat kompak dan tanpa kehilangan kualitas, akan secara signifikan mengurangi kebutuhan akan HBM.

Jadi, siapa yang memproduksi LPDDR di Tiongkok? Jawabannya adalah CXMT, atau Chexin Storage. Mereka hanya tertinggal sekitar setengah generasi dalam kecepatan LPDDR dan satu generasi dalam kepadatan, sehingga selisihnya tidak terlalu besar.

Selain pasokan NAND yang cukup, ekosistem AI Tiongkok juga akan memiliki pasokan LPDDR yang cukup dalam waktu dekat. Apakah ini dapat meredakan tekanan komputasi? Jawabannya: bisa. Lanjutkan membaca.

Menggunakan memori secara cerdas juga dapat mengurangi beban pada GPU / ASIC

Menggunakan NAND untuk menyimpan KV Cache sebenarnya mudah dipahami: hal ini memungkinkan KV Cache tetap tersimpan lebih lama, mengurangi tekanan pada HBM, sekaligus menghindari perhitungan ulang KV Cache, sehingga meringankan beban komputasi pada GPU dan ASIC.

Lalu, apakah LPDDR juga dapat berfungsi dengan cara serupa? Selain berperan sebagai lokasi penyimpanan yang dapat 'on-demand instant' melakukan streaming bobot ke HBM, apakah ia juga dapat lebih mengurangi beban komputasi?

Jawabannya: Bisa.

LPDDR dapat digunakan untuk menyimpan sejumlah besar konten yang disebut Engram. Dalam paper Engram DeepSeek, mereka menunjukkan bahwa MoE dapat memperluas kapasitas model melalui komputasi bersyarat, tetapi Transformer sendiri tidak memiliki mekanisme 'pencarian pengetahuan' bawaan. Oleh karena itu, Transformer sering kali harus secara tidak efisien mensimulasikan proses pencarian melalui komputasi.

Untuk menyelesaikan masalah ini, DeepSeek mengusulkan modul Engram. Modul ini memodernisasi embedding N-gram klasik menjadi mekanisme pencarian O(1) berbasis hash, menciptakan jalur sparsifikasi komplementer yang mereka sebut conditional memory.

Cara ini dapat menghemat komputasi, tetapi memerlukan memori untuk menyimpan tabel embedding, yang mungkin sangat besar.

Pada dasarnya, ini adalah solusi klasik "mengorbankan memori untuk menggantikan komputasi". Namun, wawasan kuncinya adalah: dari sudut pandang biaya pembacaan setiap bit data, sisi "memori" jauh lebih murah—satu pencarian LPDDR jauh lebih murah daripada membuat data melewati seluruh lapisan Transformer untuk satu operasi forward. Oleh karena itu, dalam skala besar, ini merupakan pertukaran yang sangat menguntungkan.

Ini adalah cara DeepSeek menghemat komputasi dengan mengorbankan sebagian memori.

Kompromi yang layak dibuat

Karena tidak memiliki kepadatan transistor chip yang setara dan tidak memiliki EUV, GPU dan ASIC Tiongkok kemungkinan akan tertinggal jauh dalam daya FLOPs mentah dibandingkan GPU Barat. Mereka juga masih memiliki kesenjangan yang jelas dalam hal packaging canggih. Oleh karena itu, kompromi semacam ini sangat layak dilakukan, terutama dengan asumsi Tiongkok mampu memproduksi memori NAND dan LPDDR dalam jumlah besar.

Mengulas strategi jangka panjang DeepSeek

Dari inovasi-inovasi ini, tampaknya tujuan DeepSeek bukanlah untuk segera menghasilkan keuntungan ratusan juta dolar AS. Banyak keputusan yang telah diambilnya di masa lalu menunjukkan hal ini: hingga kini belum memiliki model multimodal, belum ada model suara, apalagi model video.

Yang benar-benar ia ikuti adalah permainan jangka panjang yang penuh kesabaran, dengan potensi skala hingga 10 triliun dolar AS: mendorong terbentuknya ekosistem perangkat keras AI alternatif.

Ini tidak hanya bertujuan menjadikan produsen memori Tiongkok sebagai pemain kunci di pasar perangkat keras AI di Tiongkok maupun secara global, tetapi juga untuk secara mendasar mengurangi kebutuhan sumber daya, sehingga pelatihan dan layanan model AI menjadi lebih efisien dari segi biaya. Dengan demikian, banyak produsen GPU, ASIC, serta produsen chip jaringan memiliki peluang untuk menjadi pilihan yang layak.

Meanwhile, these innovations will also benefit the Western open-source ecosystem and the new generation of hardware manufacturers.

Semua tanda sebenarnya sudah muncul. Mari kita tinjau kembali inovasi-inovasi yang diajukan DeepSeek hingga kini:

1. Model campuran ahli (MoE) dan MLA yang diperkenalkan di DeepSeek V2

DeepSeek memperkenalkan MoE dan MLA di V2. MoE mengurangi kebutuhan komputasi untuk melatih model berkecerdasan tinggi sekitar 40% hingga 50%; MLA mengurangi KV Cache sebesar 90%.

Ini membuat pengunduhan KV Cache ke SSD menjadi cukup efisien.

Gagasan-gagasan ini pertama kali muncul dalam paper DeepSeek V2 yang dirilis oleh DeepSeek pada Mei 2024. Kemudian, gagasan-gagasan ini juga menjadi dasar pelatihan DeepSeek V3. Pada saat itu, DeepSeek hanya menggunakan 2048 GPU H800 dengan kinerja yang dilemahkan untuk melatih sistem yang performanya mendekati tingkat model tertutup.

2. DSA: Diperkenalkan di DeepSeek V3.2 Exp untuk mengurangi beban komputasi dalam skenario konteks panjang sekaligus meringankan tekanan bandwidth HBM.

Peran utama DSA adalah memastikan bahwa beban komputasi tidak terus meningkat seiring dengan pertambahan panjang konteks. Lihat grafik di bawah ini: seiring dengan peningkatan panjang konteks, waktu pemrosesan DeepSeek-V3.2 tetap stabil.

3. mHC: Diperkenalkan oleh DeepSeek pada Desember 2025 dalam paper berjudul “mHC: Manifold-Constrained Hyper-Connections”.

mHC adalah inovasi DeepSeek pada tingkat arsitektur makro, yang mendesain ulang cara aliran informasi antar lapisan Transformer.

Di masa lalu, sejak ResNet, model biasanya menggunakan koneksi residual standar, yaitu x + F(x). Pendekatan mHC adalah memperluas aliran residual menjadi beberapa saluran informasi paralel dan memungkinkan model untuk melakukan pencampuran yang dapat dipelajari di antara saluran-saluran ini. Kuncinya adalah membatasi matriks pencampuran menjadi matriks double stochastic, yaitu dengan membatasinya pada Birkhoff polytope melalui proyeksi Sinkhorn-Knopp. Dengan cara ini, secara matematis dijamin bahwa amplitudo sinyal tetap stabil, terlepas seberapa dalam model tersebut ditumpuk.

Ini menyelesaikan masalah ketidakstabilan kritis yang dihadapi Hyper-Connections tanpa batas. Hyper-Connections awalnya diajukan oleh ByteDance, tetapi tanpa batasan, penguatan sinyal meningkat hingga 3000 kali lipat pada skala 27 miliar parameter, yang akhirnya menyebabkan pelatihan gagal total.

Biaya komputasi mHC sangat rendah: ia hanya menambahkan overhead waktu pelatihan sekitar 6,7%, karena tidak mengubah FLOPs pada lapisan perhatian atau lapisan FFN, hanya mengubah cara routing output lapisan tersebut di antara lapisan-lapisan.

Namun, peningkatan kinerja yang dihasilkan cukup signifikan: pada skala 27 miliar parameter, mHC meningkat 7,2 poin pada tugas inferensi BIG-Bench Hard, 3,2 poin pada DROP, 2,8 poin pada tugas matematika GSM8K, dan 1,4 poin pada tugas pengetahuan umum MMLU. Semua peningkatan ini dicapai dengan ukuran model yang sama dan anggaran komputasi yang hampir identik.

Pada dasarnya, mHC mencapai kecerdasan per parameter yang lebih tinggi dengan menyediakan topologi routing informasi lintas lapisan yang lebih kaya dan lebih ekspresif, hampir tanpa menambah FLOPs tambahan.

mHC adalah desain arsitektur yang kompleks, tetapi mampu memberikan proses pelatihan yang lebih stabil dan kecerdasan per parameter yang lebih tinggi.

4, CSA, HSA: DeepSeek diperkenalkan di V4 pada April 2026.

Tujuan CSA dan HSA adalah mengurangi kebutuhan KV Cache sebesar 90% melalui kompresi KV Token, sekaligus secara signifikan mengurangi FLOPs yang diperlukan, sehingga secara bersamaan meredakan tekanan pada HBM serta GPU/ASIC.

5. Engram: Diperkenalkan oleh DeepSeek pada kuartal pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti ditunjukkan pada diagram rinci di bawah ini, Engram membawa peningkatan kinerja yang signifikan dengan anggaran parameter total yang sama.

6. Engram: Diperkenalkan oleh DeepSeek pada kuartal pertama 2026, pada dasarnya menukar efisiensi komputasi dengan memori, yaitu memori LPDDR.

Seperti ditunjukkan pada diagram rinci di bawah ini, Engram membawa peningkatan kinerja yang signifikan dengan anggaran parameter total yang sama.

Ini adalah saran yang DeepSeek bagikan kepada produsen perangkat keras dalam makalah V4. Saya sangat yakin, dalam diskusi langsung, umpan balik yang mereka berikan akan lebih banyak lagi.

7. Investasi pada TileLang juga menunjukkan arah yang sama: DeepSeek tidak hanya menyelesaikan bottleneck daya komputasi sendiri, tetapi juga mendorong ekosistem perangkat keras Tiongkok untuk memiliki kemampuan bersaing dengan ekosistem Barat.

Dengan TileLang, pengembang dapat menulis kernel sekali saja, yaitu kode dasar untuk komputasi, lalu menjalankannya di berbagai platform perangkat keras, asalkan platform tersebut telah mendukung backend TileLang yang sesuai.

Saya memperkirakan laboratorium AI Tiongkok lainnya juga akan bergabung secara bertahap. Ini akan membantu produsen perangkat keras Tiongkok mengatasi "moat CUDA" secara tidak langsung. Se同时, ini juga akan melepaskan potensi lebih banyak perangkat keras Barat, seperti AMD.

Perlu dicatat bahwa sejumlah platform perangkat keras AI di Tiongkok telah menyediakan kompatibilitas CUDA atau lapisan terjemahan CUDA. Misalnya, Moore Threads, Muxi, Birun, dan TianShu ZhiXin adalah produsen chip Tiongkok yang mencapai kompatibilitas CUDA tinggi melalui lapisan terjemahan. Oleh karena itu, secara teoritis, mereka tidak selalu memerlukan TileLang.

Pembelajaran penguatan skala besar dan RSI

Dengan DeepSeek memperoleh lebih banyak sumber daya komputasi, yaitu semakin banyak pilihan perangkat keras, sekaligus kebutuhan model itu sendiri terhadap sumber daya komputasi menurun, ia dapat memajukan proyek pelatihan yang lebih ambisius, terutama pelatihan lanjutan berbasis pembelajaran penguatan.

Pembelajaran penguatan memerlukan generasi sejumlah besar trajektori, yaitu triliunan Token. Proses ini akan segera menjadi sangat mahal. Lebih lanjut, jika ingin melatih model dengan panjang konteks 1 juta, diperlukan generasi trajektori dengan panjang yang sama. Hanya dengan melatih model pada trajektori super panjang ini, model benar-benar dapat mendukung tugas jangka panjang.

Selain itu, dengan peningkatan opsi perangkat keras, sumber daya perangkat keras yang dapat diakses oleh DeepSeek juga akan bertambah, yang akan mendorong penelitian otomatisasi, atau RSI. RSI merujuk pada AI yang merancang dan menjalankan eksperimen sendiri. Pendekatan ini melibatkan banyak percobaan dan kesalahan, serta biaya yang akan meningkat dengan cepat. Namun, RSI sangat penting untuk menjelajahi ruang desain model secara lengkap. Sebelum mencapai AGI, dan selanjutnya ASI, DeepSeek harus memiliki kemampuan RSI.

Yang dilakukan DeepSeek hari ini, seluruh industri akan mengikuti besok

Inovasi DeepSeek di sekitar arsitektur mixture-of-experts, MLA, DSA, dll., telah secara bertahap diadopsi oleh laboratorium AI lain di seluruh dunia dan di Tiongkok.

Sebagai contoh, ZAI, pengembang seri model GLM, menggunakan MLA dan DSA. Kimi, yang merupakan Moonshot, juga mengadopsi MLA dan secara terbuka menyatakan bahwa arsitekturnya dirancang berdasarkan arsitektur DeepSeek. Sebaliknya, DeepSeek juga menggunakan optimizer Muon, yang pertama kali diadopsi oleh Kimi (Moonshot) dalam pelatihan berskala besar.

Perlu ditekankan bahwa:

MoE pertama kali diajukan oleh Google pada tahun 2017, dengan penulis utama Noam Shazeer. Kontribusi DeepSeek terletak pada penerapan MoE secara skala besar dan penemuan teknik pendukungnya sendiri.

Muon, yaitu Optimizer MomentUm Orthogonalized by Newton-Schulz, diajukan oleh peneliti machine learning Keller Jordan pada akhir 2024. Tim Kimi (Moonshot) adalah tim pertama yang menggunakannya untuk pelatihan berskala besar.

Lalu bagaimana dengan masalah keuntungan?

Kita bisa melihat contoh menarik dari OpenAI ini.

OpenAI memperoleh warrant/opsi untuk membeli saham AMD dan Cerebras dengan harga lebih rendah, yang terkait dengan tonggak penggunaan daya komputasi mereka. Bagi AMD dan Cerebras, ini adalah kesepakatan yang sangat menguntungkan, karena sekali OpenAI berkomitmen untuk menggunakan perangkat keras mereka, kemungkinan kesuksesan jangka panjang mereka akan meningkat secara signifikan.

AMD memiliki pernyataan berikut dalam pengumumannya:

Sebagai bagian dari perjanjian, untuk lebih menyelaraskan kepentingan strategis kedua belah pihak, AMD menerbitkan warrant kepada OpenAI yang memberikan hak untuk membeli hingga 160 juta saham biasa AMD, yang akan menjadi milik secara bertahap berdasarkan pencapaian tonggak tertentu. Batch pertama akan menjadi milik setelah penyelesaian deploy awal 1 GW, dan batch selanjutnya akan menjadi milik secara bertahap seiring peningkatan pembelian hingga 6 GW. Kondisi kepemilikan juga terkait dengan pencapaian target harga saham tertentu oleh AMD, serta pencapaian tonggak teknis dan bisnis oleh OpenAI yang diperlukan untuk deploy skala besar AMD.

Saya memperkirakan DeepSeek juga akan mencapai kesepakatan serupa dengan sejumlah produsen Tiongkok di bidang memori, ASIC, CPU, dan tumpukan teknologi jaringan, serta bekerja sama secara mendalam agar tumpukan perangkat keras mereka mampu menangani beban kerja AI terkemuka.

Dengan mempertimbangkan bahwa total kapitalisasi pasar saham AI dari semua negara Barat, termasuk sekutu Asia Timur, telah jauh melebihi 10 triliun dolar AS, pendekatan "mendapatkan imbal hasil ekuitas melalui kerja sama" ini akan memberi DeepSeek kesempatan untuk membantu Tiongkok membangun industri sebesar yang sama, serta mendapatkan bagian darinya, pada akhirnya mencapai valuasi 1 triliun dolar AS.

Ini tidak hanya akan membuat DeepSeek menghasilkan pendapatan jauh lebih besar daripada bisnis langganan aplikasi tradisional, tetapi juga mencapai tujuannya untuk “membuat AGI dapat dinikmati oleh semua orang.” Liang Wenhong adalah penggemar setia Jim Simons dan pemain modal yang cukup cerdas; ia tidak mungkin melewatkan hal ini.

Jika Anda menengok kembali semua yang telah dilakukan DeepSeek hingga sekarang, hanya satu penjelasan yang paling masuk akal.

Ini adalah saham AI kunci. Gambar belum mencakup hyperscalers, yaitu penyedia cloud skala besar, serta banyak perusahaan terkait lainnya.

Original link