DeepSeek'in 10 Trilyon Dolarlık Stratejisi: Açık Kaynak ve Yapay Zeka Donanım Ekosistemi

DeepSeek'in 10 trilyon ABD doları büyük stratejisi

Yazar: @bookwormengr

Peggy, BlockBeats

Editör Notu: Geçen yıl, DeepSeek ile ilgili tartışmalar çoğunlukla model performansı, açık kaynak stratejisi ve fiyat savaşları üzerine odaklanmıştı. Ancak DeepSeek'i yalnızca «abonelik satıyor mu», «çok modallı mı» ve «kodlama ajanı yapabilir mi» gibi sorularla anlamaya çalışmak, gerçekten değiştirmek istediğini alt değerleyebilir.

Bu makale, DeepSeek'in hedefinin kısa vadeli uygulama katmanı kazancı değil, bir dizi alt yapı yeniliğiyle AI eğitimi ve çıkarım maliyet yapısını yeniden şekillendirmek ve dolaylı olarak yeni bir donanım ekosistemi oluşturmak olduğunu öne sürüyor. MoE, MLA'dan DSA, CSA, mHC, Engram'a, ardından Dual Path ve TileLang'e kadar DeepSeek'in teknik yolu her zaman şu temel soru etrafında dönmektedir: HBM, ileri üretim süreçleri, paketleme ve CUDA ekosistemi sınırlı olduğunda, daha az yüksek performanslı hesaplama gücüyle daha güçlü modeller nasıl çalıştırılır?

Makalenin en dikkat edilmesi gereken noktası, «DeepSeek’in API veya abonelik yoluyla milyarlarca dolar kazanıp kazanamayacağı» değil, model yeteneklerini, bellek sistemini ve yerel donanım ekosistemini birbirine bağlamaya çalışıp çalışmadığı. KV Cache sıkıştırma, HBM’e olan bağımlılığı azaltırken, NAND ve SSD uzun süreli önbellekleme için kullanılabilir; LPDDR, ağırlık akışlı yüklemesi ve Engram saklaması için kullanılabilir; TileLang ise CUDA’nın koruma alanını zayıflamayı amaçlıyor. Bu yenilikler sürekli yayılırsa, sadece DeepSeek değil, depolama, ASIC, GPU, ağ çipleri ve tüm AI altyapı zinciri de fayda görecektir.

Elbette, "10 trilyon dolarlık endüstri ekosistemi" ve "1 trilyon dolarlık değerleme" hakkında yapılan yargılar hâlâ güçlü bir tahmine dayanmaktadır. Ancak bu, DeepSeek'i anlamak için önemli bir yol sunar: açık kaynak kodlu olmak, ticari amaçlardan vazgeçmek anlamına gelmez; düşük fiyatlı olmak sadece pazarı desteklemek anlamına da gelmez. DeepSeek için gerçek iş, uygulama katmanında değil, daha fazla donanımın kullanılabilir hale getirilmesi ve daha düşük maliyetli AI sağlamanın mümkün kılınmasıdır. Başka bir deyişle, DeepSeek'in sattığı şey muhtemelen model kendisi değil, bir sonraki nesil AI altyapısının gerçekleştirilebilirliğidir.

Aşağıda orijinal metin yer almaktadır:

ChangXin Memory

DeepSeek'in nasıl para kazanabileceğini ve belki de çok para kazanabileceğini düşündünüz mü?

GLM, MoonShot ve MiniMax gibi rekabetçi bir programlama abonelik planı sunmuyor; çok modalli, ses ve video modelleri de yok. Şu ana kadar kendi harness'ini, yani model çağırma, araç entegrasyonu ve görev yürütme için dış çalışma çerçevesini dahi oluşturmamıştı—ancak son zamanlarda bu sistemi kurmak için ilgili pozisyonlara başlamışlar.

Aynı zamanda, DeepSeek açık kaynak tarafında uzun vadeli olarak kararlı görünüyor ve hatta «sırlarını» açıkça paylaşmaya bile istekli. Bu çılgınlık değil mi? Para harcamak mı? 10 milyar dolar yatırım yapmayı planlayan yatırımcılar, paralarını çöpe mi atıyorlar?

Kendi görüşüme göre, cevap tam tersi.

Sonrasında, DeepSeek'in şimdiye kadar yaptığı işlere dayanarak bazı gözlemler sunacak ve izlediği gibi görünen bir stratejiyi analiz edeceğim. DeepSeek CEO'su Liang Wenhong'un hedefi, sadece mevcut model rekabetini aşabilir. Hedefi belki de daha büyük bir ödül: DeepSeek, 1 trilyon dolarlık bir değerlemeye ulaşma ve 10 trilyon dolarlık yeni bir endüstriyi başlatma fırsatına sahip.

ChangXin Memory

TechInAsia, DeepSeek'in en son sermaye toplama turu hakkında rapor veriyor

DeepSeek'in "Kahramanın Yolculuğu"nu Yeniden Ziyaret Edin

DeepSeek, zorluklarla başa çıkıyor. Sürekli biraz daha güçlü modeller çıkartıp bunları hemen kodlama abonelik gibi doğrudan kazanç sağlayabilecek uygulamalara dönüştürmek yerine, 27 Ocak 2025'te, DeepSeek'in "kahramanın yolculuğu" hakkında geniş çapta paylaştığım bir tweet attım. Bugün, bu hikâye daha da ilginç hale geldi.

Diğerleri yoğun modeller oluşturmakla uğraşırken, DeepSeek daha zor eğitilen Uzman Karışımı (Mixture of Experts, MoE) modelini seçti.

Onlar, o dönemde yaygın olmakla birlikte uygulama maliyeti daha yüksek olan PPO güçlendirilmiş öğrenme algoritmasını değiştirmek için "birinci ilkeler" yöntemini kullanarak yeni bir GRPO algoritması geliştirdiler.

Onlar, doğrulanmış ödüllere dayalı pekiştirmeli öğrenme (Reinforcement Learning from Verified Rewards, RLVR)'nin modelin çıkarım yeteneğini artırmak için kilit strateji olduğunu keşfettiler.

Ayrıca, «Çoklu Token Tahmini» (Multi Token Prediction) aracılığıyla basit bir tahmini dekodlama stratejisi önererek eğitim sinyallerini daha yoğun hale getirdiler.

"Sıfır kabarcık" (ZERO bubble) hattını, sınırlı GPU kaynaklarının verimliliğini artırmak için geliştirdiler.

Uzman yük dengeleyicilerini yayınladılar ve MoE modellerinin dağıtımını herkes için daha kolay hale getirdiler. Özellikle "Geniş Uzman Paralelliği" (Wide Expert Parallel) stratejisiyle modeller, daha büyük batch ile hizmet vererek çıkarım maliyetlerini büyük ölçüde düşürebilir.

MLA, DSA, CSA, HCA gibi mekanizmalar, KV Cache ihtiyacını azaltmak ve bağlam uzunluğu arttıkça artan hesaplama talebini mümkün olduğunca sabit tutmak için geliştirildi.

Engram'ı, bellek ile hesaplama verimliliği değiş tokuş ederek geliştirdiler.

Ayrıca model ölçeği büyürken bile kararlı eğitimi mümkün kılan mHC'yi de icat ettiler. Benzer örnekler çoktur.

En yaygın hikâye yapısı olan "Kahramanın Yolculuğu"nda, kahraman her zaman yolculuğunun nereye gideceğini baştan bilmaz. Yol boyunca öğrenirken, gerçek büyük görevini keşfeder ve engellerin üstesinden gelir. Birçok şüpheciyle karşılaşır, ancak onları görmezden gelir. Aynı zamanda birçok kötü niyetli aktörle de karşılaşır. Belirgin eksiklikleri veya zayıf yanları vardır, ancak sonunda bu sorunları aşar ve görevini tamamlar. Görünüşte aşılamaz gibi görünen zorluklarla karşılaşıp, ittifak kurma yollarını bulur ve sınırlı ve değerli kaynakları nasıl akıllıca kullanacağını öğrenir. Tam olarak bu, izleyicilerin kahramana destek olmaya itiraz ettiği noktadır. İşte DeepSeek'in takipçilerini, küresel saygıyı ve rakipleri kazanmasının nedeni budur.

Sonraki bölümlerde detaylı olarak açıklayacağım gibi, DeepSeek bu yolda uzun süredir ilerliyor ve kendi nihai kaderini yavaş yavaş keşfediyor: amacı programlama abonelik planlarını satmak değil, 10 trilyon dolarlık bir Çinli AI donanım ekosistemi kurmak ve kendi değerini 1 trilyon dolar seviyesine çıkarmak. Bu süreçte, Batı donanım ekosistemindeki birçok yeni katılımcıya da fırsatlar yaratacak.

ChangXin Memory

Öncelikle bazı ilginç KV Cache hesaplamalarıyla başlayalım

@SemiAnalysis_'in son zamanlarda attığı bu tweete bir göz atın:

ChangXin Memory

DeepSeek, bu sorunu daha önce kimse çözmemişti!

Önce biraz eğlenceli KV Cache hesaplaması yapalım. Matematikten hoşlanmasanız da endişelenmeyin. En son yayınlanan KV Cache hesaplayıcısını kullanarak, DeepSeek V4 Pro'nun ne kadar KV Cache tasarrufu sağladığını ve bunu en son GLM ve Qwen modelleriyle karşılaştıracağız.

Burada 1 milyon bağlam uzunluğu ile hesap yapıyorum, KV hassasiyetinin 8 bit ve indeksleyicinin 16 bit olduğunu varsayıyorum. Kendi hesaplamalarınızı yapmak için bu hesaplayıcıyı da deneyebilirsiniz: https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

Kendi hesap makinenizi de açıp deneyebilirsiniz!

1 milyon bağlam uzunluğunda:

·DeepSeek V4, yalnızca 5,48 GB HBM gerektirir;

·GLM-5, 60 GB HBM gerektirir;

·Qwen3-235B-A22B, 89 GB HBM gerektirir.

Dikkat edilmesi gereken nokta:

·DeepSeek, 1,6 trilyon parametreli bir modeldir;

·GLM-5 yaklaşık 700 milyar parametreye sahiptir ve DeepSeek'in MLA ve DSA'sını benimsemiştir, ancak en son sıkıştırılmış dikkat mekanizmasını henüz kullanmamıştır;

Qwen3-235B-A22B, yaklaşık 235 milyar parametre ve GQA dikkat mekanizmasını kullanır.

DeepSeek, bellek baskısını hafifletmede temel bir katkı sağlamıştır. Bu tür yenilikler yaygın olarak benimsenirse, uzun döngülü Agent'ların çalışma maliyetleri büyük ölçüde azalacak ve yeni bir dizi uygulama senaryosu açılacaktır.

ChangXin Memory

1.000.000 Token bağlamı ve model boyutu altında KV Önbellek kullanım karşılaştırması

“Çılgınlık” arkasındaki metodoloji

KV Önbelleğinin bu kadar küçük olmasının ve aynı zamanda model kalitesini kaybetmeden bunu başarabilmesinin nedeni, DeepSeek'in uzun süreli önbellekleme hizmetini son derece düşük bir fiyata sunabilmesidir—fiyatı, Sonnet 4.6 önbellek vuruş fiyatı %3'ünden daha azdır ve DeepSeek, önbelleği saatler boyunca koruyabilir.

Uzun dönemli görevler için daha küçük KV önbelleği, SSD'ye daha ekonomik bir şekilde yüklenmesini ve gerektiğinde yeniden yüklenmesini sağlar. Bu da HBM'e olan bağımlılığı azaltır. Çin AI donanım endüstrisi açısından bakıldığında, HBM hem tedarik sıkıntısı yaşar hem de üretimi en zor bellek türlerinden biridir.

Ayrıca, DeepSeek, Dual Path makalesinde açıklanan, SSD'den KV Cache'i daha hızlı yüklemek için bir teknoloji geliştirdi.

ChangXin Memory

DeepSeek V4, KV Cache için çok büyük bir sıkıştırma oranı sağlar, bu adımda hatta gerek kalmayabilir.

Peki, KV Önbelleği sıkıştırmasının en doğrudan faydasını gören kimdir?

SSD'yi büyük ölçekli olarak kim sağlıyor? YMTC (Yangtze Memory Technologies)’nin 3D NAND alanında bir dev haline geldiğini unutmayın. NAND, DeepSeek’in KV’yi tekrar hesaplamasını önleyebilir. Bunun tersine, DeepSeek, NAND ve SSD için büyük bir pazar yaratıyor—bu sadece Yangtze Memory Technologies’i değil, ilgili diğer üreticileri de faydalandırıyor.

ChangXin Memory

Ancak bu sadece NAND ve SSD ile ilgili değil.

LPDDR belleği aynı zamanda büyük bir potansiyele sahiptir. Model ağırlıklarının depolanması için kullanılabilir ve gerekli olduğunda bu ağırlıklar HBM'ye akışlı olarak aktarılabilir, böylece HBM'e olan talep basıncı hafifletilebilir. SGLang ekibi bunu anlatan harika bir blog yazısı yayınlamıştı. Aşağıdaki şekil bu çözümün nasıl çalıştığını göstermektedir.

DeepSeek, bu çözüm için özel olarak hiçbir şey tasarlamamış olsa da, MoE mimarisi, kendisinde bulunan çok sayıda uzman model ve 4 bit ağırlık özellikleri sayesinde bu çözümün uygulanması kolaylaşmaktadır.

ChangXin Memory

Bu şema, belleğin nasıl kullanılabileceğini ve model ağırlıklarının LPDDR'den HBM'ye nasıl akıtılacağını göstermektedir. SGLang'in bu blog yazısını okumanızı şiddetle öneririz.

Bu yenilik, son derece sıkıştırılmış ve kayıpsız bir KV Cache ile birleştirildiğinde, HBM ihtiyacını önemli ölçüde azaltacaktır.

Peki Çin'de LPDDR kim üretiyor? Cevap CXMT, yani ChangXin Memory Technologies. Onlar, LPDDR hızında sadece yarım nesil geride, yoğunlukta bir nesil geride kalıyorlar, bu fark büyük değil.

Yeterli NAND'un yanı sıra, Çin AI ekosistemi yakında yeterli LPDDR tedarikine de sahip olacak. Bu, hesaplama yükünü hafifletebilir mi? Cevap: Evet. Devam edin.

ChangXin Memory

Akıllı bellek kullanımı, GPU/ASIC yükünü hafifletebilir.

KV Önbelleğini NAND üzerinde saklamak, KV önbelleğinin daha uzun süre korunmasını sağlar, HBM üzerindeki yükü azaltır ve KV önbelleğinin tekrar hesaplanmasını önler; bu da GPU ve ASIC'in hesaplama yükünü hafifletir.

Peki, LPDDR de benzer şekilde işlev görebilir mi? Ağırlıkları "istendiğinde anında" HBM'ye akıtan bir depolama konumu olarak yanı sıra, hesaplama yükünü daha da azaltabilir mi?

Cevap: Evet.

LPDDR, Engram adı verilen büyük miktarda içerik saklamak için kullanılabilir. DeepSeek'in Engram makalesinde, MoE'nin koşullu hesaplama yoluyla model kapasitesini genişletebileceği ancak Transformer'ın kendisinde doğuştan bir «bilgi arama» mekanizmasının bulunmadığı belirtilmiştir. Bu nedenle, Transformer genellikle arama sürecini verimsiz bir şekilde hesaplama yoluyla simüle etmek zorunda kalır.

Bu sorunu çözmek için DeepSeek, Engram modülünü önerdi. Klasik N-gram gömmeyi, hash tabanlı O(1) arama mekanizmasına dönüştürerek, koşullu bellek adını verdikleri bir tamamlayıcı seyreltme yolu yarattı.

Bu yöntem hesaplama kaynaklarını tasarruf eder, ancak gömmeler tablosunu tutmak için bellek gerektirir ve bu tablo kendisi çok büyük olabilir.

Temelde, bu tipik bir «bellek ile hesaplama değiştirme» çözümüdür. Ancak ana içgörüsü şudur: her bit verinin okuma maliyeti açısından, «bellek» tarafı çok daha ucuzdur—bir LPDDR araması, verinin çok katmanlı bir Transformer üzerinden tamamen ileri geçiş yapmasına kıyasla çok daha ucuzdur. Bu nedenle büyük ölçekli senaryolarda, bu çok karlı bir değişimdir.

Bu, DeepSeek'in bir miktar belleği fedakârlık ederek hesaplama tasarrufu sağlamasıdır.

ChangXin Memory

Yapılacak olan tercihler

Eşdeğer düzeyde çip transistör yoğunluğu ve EUV olmadan, Çin GPU'ları ve ASIC'leri orijinal FLOPs performansında Batı GPU'larından uzun vadeli olarak geride kalabilir. İleri paketleme konusunda da hala açık bir fark bulunmaktadır. Bu nedenle, Çin'in NAND ve LPDDR belleklerini büyük ölçekli olarak üretebilmesi durumunda, bu tür tercihler yapmak oldukça değerlidir.

DeepSeek'in uzun vadeli stratejisini gözden geçirin

Bu yeniliklerden hareketle, DeepSeek’in amacı şimdilik milyarlarca dolarlık kâr elde etmek değil. Bunun birçok kanıtı var: şimdiye kadar çoklu modellilik yok, ses modeli yok, video modeli ise tamamen söz konusu değil.

Gerçekten katıldığı, 10 trilyon dolar boyutunda olabilecek ve alternatif bir AI donanım ekosistemi oluşturmaya yönelik uzun vadeli bir oyundur.

Bu, Çinli bellek üreticilerinin Çin'de ve dünya çapında AI donanım pazarında kilit bir oyuncu haline gelmesi için değil, aynı zamanda AI modellerinin eğitimi ve hizmeti için kaynak gereksinimlerini temel düzeyde azaltmak için de yapılmaktadır. Bu sayede birçok GPU, ASIC ve ağ çipi üreticisi, uygun bir seçenek haline gelebilir.

Aynı zamanda bu yenilikler, Batı açık kaynak ekosistemine ve yeni nesil donanım üreticilerine de fayda sağlayacaktır.

Tüm işaretler aslında zaten ortaya çıkmıştı. DeepSeek'in şimdiye kadar sunduğu bu yenilikleri ayrıntılı bir şekilde gözden geçirelim:

1. DeepSeek V2'de tanıtılan Uzman Karışık Model (MoE) ve MLA

DeepSeek, V2'de MoE ve MLA'yı tanıttı. MoE, yüksek zekâlı modelleri eğitmek için gerekli hesaplama gücünü yaklaşık %40 ila %50 azalttı; MLA ise KV Cache'i %90 azalttı.

Bu, KV önbelleğini SSD'ye çıkarmayı oldukça verimli hale getiriyor.

Bu fikirler, DeepSeek'in 2024 Mayıs'ta yayınladığı DeepSeek V2 makalesinde ilk kez ortaya çıkmıştır. Daha sonra, bu fikirler DeepSeek V3'ün eğitimi için temel oluşturmuştur. O dönemde, DeepSeek yalnızca 2048 adet performansı kısıtlanmış H800 GPU kullanarak, kapalı kaynaklı modellerin seviyesine yakın bir sistem eğitmiştir.

ChangXin Memory

2. DSA: Uzun bağlam senaryolarında hesaplama yükünü azaltmak ve HBM bant genişliği baskısını hafifletmek için DeepSeek V3.2 Exp'de tanıtıldı.

DSA'nın temel rolü, hesaplama miktarının bağlam uzunluğu arttıkça sürekli artmasını engellemektir. Aşağıdaki grafiği inceleyin: Bağlam uzunluğu arttıkça, DeepSeek-V3.2'nin işleme süresi neredeyse sabit kalır.

ChangXin Memory

3. mHC: DeepSeek, 2025 yılında “mHC: Manifold-Constrained Hyper-Connections” adlı makalede ortaya çıkarmıştır.

mHC, DeepSeek'in makro mimari düzeyinde yaptığı bir yenilik olup, Transformer katmanları arasındaki bilgi akışını yeniden tasarlar.

Geçmişte, ResNet'ten beri modeller genellikle x + F(x) şeklinde standart kalıntı bağlantılarını kullanıyordu. mHC'nin yaklaşımı, kalıntı akışını birden fazla paralel bilgi kanalına genişletmek ve modelin bu kanallar arasında öğrenilebilir bir karışım yapmasına izin vermektir. Anahtar nokta, karışım matrisini çift rastgele bir matris olarak sınırlamaktır, yani Sinkhorn-Knopp projeksiyonu aracılığıyla Birkhoff çokyüzlüsüne kısıtlamaktır. Bu sayede matematiksel olarak garanti altına alınır ki, model ne kadar derin olursa olsun, sinyal genliği sabit kalır.

Bu, daha önce sınırsız Hyper-Connections tarafından karşılaşılan kritik istikrarsızlık sorununu çözmüştür. Hyper-Connections, ilk olarak Bytedance tarafından önerilmişti, ancak sınırsız durumda sinyal genleşmesi 27 milyar parametre ölçeğinde 3000 katına çıkarak eğitimi tamamen çökertmişti.

mHC'nin hesaplama maliyeti çok düşüktür: dikkat katmanları veya FFN katmanlarının FLOPs'larını değiştirmeksizin, bu katmanların çıktılarının katmanlar arasında rota değiştirme şeklini değiştirdiği için yalnızca yaklaşık %6,7 gerçek eğitim süresi maliyeti getirir.

Ancak getirdiği performans artışı oldukça belirgin: 27 milyar parametre boyutunda, mHC, BIG-Bench Hard mantıksal görevlerde 7,2 puan, DROP'ta 3,2 puan, GSM8K matematik görevlerinde 2,8 puan ve MMLU genel bilgi görevlerinde 1,4 puan artış sağlıyor. Bu artışlar, aynı model boyutunda ve neredeyse aynı hesaplama bütçesiyle elde edilmiştir.

Temel olarak, mHC, neredeyse ek FLOP artışı olmadan, ağa daha zengin ve ifade gücü yüksek bir katmanlar arası bilgi rota topolojisi sağlayarak daha yüksek bir birim parametre akıllılığı sağlar.

ChangXin Memory

mHC, karmaşık bir mimari tasarım olmakla birlikte, daha istikrarlı bir eğitim süreci ve daha yüksek bir birim parametre zekâsı sağlar.

4, CSA, HSA: DeepSeek, 2026 yılı Nisan ayında V4'te tanıtıldı.

CSA ve HSA'nın amacı, KV Token'ları sıkıştırarak KV Cache gereksinimini %90 oranında daha da azaltmak ve gerekli FLOPs'leri büyük ölçüde azaltarak HBM ile GPU/ASIC yükünü aynı anda hafifletmektir.

ChangXin Memory

5. Engram: DeepSeek, 2026 birinci çeyrekte, temel olarak bellek, yani LPDDR belleği, hesaplama verimliliği için değiştirecek.

Aşağıdaki ayrıntılı grafikte gösterildiği gibi, toplam parametre bütçesi aynı kalırken Engram, belirgin bir performans artışı sağladı.

ChangXin Memory

6. Engram: DeepSeek, 2026 birinci çeyrekte, temel olarak bellek, yani LPDDR belleği ile hesaplama verimliliği arasında bir değiş tokuş yapar.

Aşağıdaki ayrıntılı grafikte gösterildiği gibi, toplam parametre bütçesi aynı kalırken Engram, belirgin bir performans artışı sağladı.

ChangXin Memory

Bu, DeepSeek'in V4 makalesinde donanım üreticilerine verdiği öneridir. Çevrimdışı görüşmelerde daha fazla geri bildirim verdiklerinden eminim.

7, TileLang'a yapılan yatırımlar da aynı yöne işaret ediyor: DeepSeek, yalnızca kendi hesaplama kapasitesi darboğazını çözmekle kalmıyor, aynı zamanda Çin donanım ekosistemine Batı ekosistemiyle rekabet edebilme kapasitesi kazandırmayı hedefliyor.

TileLang sayesinde geliştiriciler, hesaplama için kullanılan temel kod olan kernel'i yalnızca bir kez yazabilir ve bu platformlar için TileLang arka ucunun zaten desteklendiği sürece, bu kodu birden fazla donanım platformunda başarıyla çalıştırabilir.

Diğer Çinli AI laboratuvarlarının da sırayla katılması bekleniyor. Bu, Çinli donanım üreticilerinin所谓的「CUDA護城河」na dolaylı bir şekilde karşı koymasına yardımcı olacak. Aynı zamanda, AMD gibi Batılı donanımların potansiyelini de serbest bırakacak.

Açıklanması gereken, Çin'de birçok AI donanım platformunun CUDA uyumluluğu veya CUDA çevirme katmanı sağlamasıdır. Örneğin, Moore Threads, Musen, Biren ve TianShu Zhixin, yüksek CUDA uyumluluğunu çevirme katmanları aracılığıyla sağlayan Çinli çip üreticileridir. Bu nedenle teorik olarak, bunların TileLang'a gerekleri yoktur.

ChangXin Memory

Büyük ölçekli makine öğrenmesi ve RSI

DeepSeek, daha fazla hesaplama kaynağına, yani daha fazla donanım seçeneğine sahip olurken, modelin kendisi hesaplama kaynaklarına olan ihtiyacını azaltarak, özellikle pekiştirmeli öğrenme sonrası eğitimi gibi daha ambitiyöz eğitim projelerini ilerletebilir.

Güçlendirilmiş öğrenme, milyarlarca token üretimi gerektirir. Bu süreç çok hızlı bir şekilde son derece pahalı hale gelir. Daha da ileriye giderek, 1 milyon bağlam uzunluğuna sahip bir modeli eğitmek için aynı uzunlukta trajektoryler üretmek gerekir. Sadece bu aşırı uzun trajektoryler üzerinde modeli eğiterek uzun dönemli görevleri gerçekten desteklemek mümkündür.

Ayrıca, donanım seçeneklerinin artmasıyla birlikte DeepSeek'in erişebileceği donanım kaynakları da artacak ve bu da otomatikleştirilmiş araştırmayı, yani RSI'yi teşvik edecektir. RSI, AI'nın kendi kendine deneyler tasarlaması ve uygulaması anlamına gelir. Bu yöntem, büyük miktarda deneme-yanılma içerir ve maliyetler hızla artar. Ancak RSI, tam model tasarım uzayını keşfetmek için kritik öneme sahiptir. AGI'ye ve ardından ASI'ye doğru ilerlerken DeepSeek'in RSI yeteneğine sahip olması gerekir.

DeepSeek'in bugün yaptığı şey, tüm sektör yarın takip edecektir.

DeepSeek'in uzman karışımlı modeller, MLA, DSA gibi alanlarda yaptığı yenilikler, dünya çapında ve Çin'deki diğer AI laboratuvarları tarafından sırayla benimsenmiştir.

Örneğin, GLM serisi modellerini geliştiren ZAI, MLA ve DSA kullandı. Kimi, yani Moonshot, MLA'yı benimsedi ve mimarisinin DeepSeek mimarisine dayandığını açıkça belirtti. Tersine, DeepSeek de Muon optimizatörünü kullandı ve Muon, en başta Kimi (Moonshot) tarafından büyük ölçekli eğitimde kullanıldı.

Şunu belirtmek gerekir:

MoE, 2017 yılında Google tarafından öne sürüldü ve ana yazarı Noam Shazeer'dir. DeepSeek'in katkısı, MoE'yi ölçeklendirerek uygulamak ve kendi eşlik eden tekniklerini icat etmektir.

Muon, yani Newton-Schulz optimizasyonu ile dikleştirilmiş MomentUm, 2024 sonunda makine öğrenimi araştırmacısı Keller Jordan tarafından önerildi. Kimi (Moonshot) ekibi, bunu büyük ölçekli eğitimde kullanan ilk ekipti.

Peki kazanç sorunu nasıl çözülür?

İlginç bir örnek olarak OpenAI'yi inceleyebiliriz.

OpenAI, hesaplama tüketim aşamalarıyla ilişkili olarak AMD ve Cerebras hisselerini daha düşük fiyata satın alma hakkı kazandı. AMD ve Cerebras için bu çok avantajlı bir anlaşma çünkü OpenAI'nin donanımlarını kullanma sözü vermesi, uzun vadeli başarı olasılıklarını büyük ölçüde artırır.

AMD duyurusunda şu cümle yer alıyor:

Sözleşmenin bir parçası olarak, tarafların stratejik çıkarlarını daha iyi uyumlu hale getirmek amacıyla AMD, OpenAI'ye en fazla 160 milyon AMD hissesi satın alma hakkı veren opsiyonlar verdi ve bu opsiyonlar belirli kilit noktaların tamamlanmasıyla zamanla hak kazanacak. İlk grup, ilk 1 gigavatlık kurulum tamamlandığında hak kazanacak; sonraki gruplar ise satın alma hacminin 6 gigavata çıkarılmasıyla sırayla hak kazanacak. Hak kazanma koşulları, AMD'nin belirli hisse fiyatı hedeflerine ulaşması ve OpenAI'nin AMD'nin büyük ölçekli kurulumu için gerekli olan teknik ve ticari kilit noktaları tamamlamasıyla da ilişkili.

ChangXin Memory

DeepSeek'in aynı şekilde Çinli bellek, ASIC, CPU ve ağ teknoloji tedarikçileriyle anlaşmalar yapacağını ve bu tedarikçilerin donanım yığınlarının önde gelen AI iş yüklerini karşılayabilmesi için derinlemesine iş birliği yapacağını tahmin ediyorum.

Tüm Batı, Doğu Asya müttefikleri dahil olmak üzere, AI hisselerinin toplam piyasa değeri 1 trilyon ABD dolarını aşmış durumda; bu "işbirliği yoluyla hisse kazanma" yaklaşımı, DeepSeek'in Çin'de benzer bir endüstri kurmasına ve bu endüstride kendi payını kazanmasına, nihayetinde 1 trilyon ABD doları değerlemeye ulaşmasına olanak tanıyacaktır.

Bu, DeepSeek'in geleneksel uygulama abonelik iş modelinden çok daha fazla gelir elde etmesini sağlayacak ve aynı zamanda "AGI'nin herkese ulaşmasını" hedeflemesini sağlayacaktır. Liang Wenhong, Jim Simons'ın büyük bir hayranı ve yeterince zeki bir sermaye oyuncusu olup, bu noktayı kaçırmamıştır.

DeepSeek'in şimdiye kadar yaptığı her şeyi geriye doğru bakarsanız, bunun tek mantıklı açıklaması budur.

ChangXin Memory

Bu anahtar AI hisseleridir. Şekilde büyük bulut sağlayıcılar ve diğer birçok ilgili şirket henüz dahil edilmemiştir.

Kaynak bağlantı