DeepSeek'in 10 trilyon USD'lik büyük stratejisi
Yazar: @bookwormengr
Peggy, BlockBeats
Editör Notu: Geçen yıl, DeepSeek ile ilgili tartışmalar çoğunlukla model performansı, açık kaynak stratejisi ve fiyat savaşları üzerinde odaklanmıştı. Ancak DeepSeek'i yalnızca «abonelik satıyor mu», «çok modallı mı» veya «kodlama ajanı yapabilir mi» gibi sorularla anlamak, gerçekten değiştirmek istediğini alt değerleyebilir.
Bu makale, DeepSeek'in hedefinin kısa vadeli uygulama katmanı kazancı değil, bir dizi alt yapı yeniliğiyle AI eğitimi ve çıkarım maliyet yapısını yeniden şekillendirmek ve dolaylı olarak yeni bir donanım ekosistemi oluşturmak olduğunu öne sürüyor. MoE, MLA'dan DSA, CSA, mHC, Engram'a, ardından Dual Path ve TileLang'e kadar DeepSeek'in teknik yolu, HBM, ileri üretim prosesi, paketleme ve CUDA ekosistemi sınırlıken, daha az yüksek performanslı hesaplama gücüyle daha güçlü modeller çalıştırmak nasıl mümkün olur? sorusu etrafında dönmektedir.
Makalenin en dikkat edilmesi gereken noktası, «DeepSeek’in API veya abonelik yoluyla milyarlarca dolar kazanıp kazanamayacağı» değil, model yeteneklerini, bellek mimarisini ve yerel donanım ekosistemini birbirine bağlamaya çalışıp çalışmadığı. KV Cache sıkıştırması, HBM’e olan bağımlılığı azaltıyor, NAND ve SSD uzun süreli önbellekleme için kullanılabilir, LPDDR ağırlık akışlı yüklemesi ve Engram saklaması için kullanılabilir, TileLang ise CUDA’nın koruma duvarını zayıflamayı amaçlıyor. Bu yenilikler sürekli yayılırsa, sadece DeepSeek değil, depolama, ASIC, GPU, ağ çipleri ve tüm AI altyapı zinciri de fayda görecektir.
Elbette, "10 trilyon dolarlık endüstri ekosistemi" ve "1 trilyon dolarlık değerleme" hakkında yapılan yargılar hâlâ güçlü bir tahmine dayanmaktadır. Ancak bu, DeepSeek'i anlamak için önemli bir yol sunar: açık kaynak kodlu olmak, ticari amaçlardan vazgeçmek anlamına gelmez; düşük fiyatlı olmak sadece pazarı desteklemek anlamına da gelmez. DeepSeek için gerçek iş, uygulama katmanında değil, daha fazla donanımın kullanılabilir hale getirilmesi ve daha düşük maliyetli bir AI tedarikinin mümkün kılınmasıdır. Başka bir deyişle, DeepSeek'in sattığı muhtemelen model kendisi değil, bir sonraki nesil AI altyapısının mümkün olma potansiyelidir.
Aşağıda orijinal metin yer almaktadır:

DeepSeek'in nasıl para kazanabileceğini ve belki de çok para kazanabileceğini hiç düşündünüz mü?
GLM, MoonShot ve MiniMax gibi rekabetçi bir programlama abonelik planı sunmamıştır; çok modallik, ses ve video modelleri de yoktur. Şu ana kadar kendi harness’ini, yani model çağırımı, araç entegrasyonu ve görev yürütmesi için kullanılan dış çalışma çerçevesini dahi oluşturmadı—ancak son zamanlarda bu sistemi kurmak için ilgili pozisyonlara başlamışlardır.
Aynı zamanda, DeepSeek açık kaynak tarafında uzun vadeli olarak kararlı görünüyor ve hatta «sırlarını» açıkça paylaşmaya bile istekli. Bu çılgınlık değil mi? Para harcamak mı? 10 milyar dolar yatırım yapmayı planlayan yatırımcılar, paralarını çöpe mi atıyorlar?
Kendi görüşüme göre, cevap tam tersi.
Sonrasında, DeepSeek'in şimdiye kadar yaptığı işlere dayanarak bazı gözlemler sunacak ve izlediği gibi görünen bir stratejiyi analiz edeceğim. DeepSeek CEO'su Liang Wenhong'un hedefi, sadece mevcut model rekabetini aşabilir. Hedefi belki de daha büyük bir ödül: DeepSeek, 1 trilyon dolarlık bir değerlemeye ulaşma ve 10 trilyon dolarlık yeni bir endüstriyi başlatma fırsatına sahip.

TechInAsia, DeepSeek'in en son sermaye toplama turu hakkında rapor veriyor
DeepSeek'in "Kahramanın Yolculuğu"nu Yeniden Ziyaret Edin
DeepSeek, zorluklarla başa çıkıyor. Sürekli biraz daha güçlü modeller çıkartıp bunları hemen kodlama abonelik gibi doğrudan kazanç sağlayabilecek uygulamalara dönüştürmek yerine, farklı bir yol seçti. 27 Ocak 2025'te, DeepSeek'in «kahraman yolculuğunu» kendi gözümle anlattığım bir tweet çok yayılmıştı. Bugün, bu hikâye daha da ilginç hale geldi.
Diğerleri yoğun modeller oluşturmakla uğraşırken, DeepSeek daha zor eğitilen Uzman Karışımı (Mixture of Experts, MoE) modelini seçti.
Onlar, o dönemde yaygın olan ancak uygulama maliyeti daha yüksek olan PPO güçlendirilmiş öğrenme algoritmasını değiştirmek için "birinci ilkeler" yöntemini kullanarak yeni bir GRPO algoritması geliştirdiler.
Onlar, doğrulanmış ödüllere dayalı pekiştirmeli öğrenme (Reinforcement Learning from Verified Rewards, RLVR)'nin modelin çıkarım yeteneğini artırmak için kilit strateji olduğunu keşfettiler.
Ayrıca, «Çoklu Token Tahmini» (Multi Token Prediction) aracılığıyla basit bir tahminsel dekodlama stratejisi önererek eğitim sinyallerini daha yoğun hale getirdiler.
"Sıfır kabarcık" (ZERO bubble) hattını, sınırlı GPU kaynaklarının verimliliğini artırmak için geliştirdiler.
Uzman yük dengeleyicilerini yayınladılar ve MoE modellerinin dağıtımını herkes için daha kolay hale getirdiler. Özellikle "Geniş Uzman Paralelliği" (Wide Expert Parallel) stratejisiyle modeller, daha büyük batch'lerle hizmet verebilir ve bu da çıkarım maliyetlerini büyük ölçüde azaltır.
MLA, DSA, CSA, HCA gibi mekanizmalar, KV Cache ihtiyacını azaltmak ve bağlam uzunluğu arttıkça artan hesaplama talebini mümkün olduğunca sabit tutmak için geliştirildi.
Engram'ı, bellek karşılığında hesaplama verimliliği elde ederek icat ettiler.
Ayrıca model ölçeği büyürken bile kararlı eğitim sağlayabilen mHC'yi de icat ettiler. Benzer örnekler çoktur.
En yaygın hikâye yapısı olan "Kahramanın Yolculuğu"nda, kahraman ilk başta yolculuğunun nereye gideceğini asla belirlemez. Yol boyunca öğrenerek gerçek büyük görevini keşfeder ve engellerin üstesinden gelir. Birçok şüpheciyle karşılaşır, ancak onları görmezden gelmeyi seçer. Aynı zamanda birçok kötü niyetli aktörle de karşılaşır. Belirgin eksiklikleri veya zayıf yönleri vardır, ancak sonunda bu sorunları aşar ve görevini tamamlar. Görünüşte aşılamaz gibi görünen zorluklarla karşılaşıp, ittifak kurma yollarını bulur ve sınırlı ve değerli kaynakları nasıl akıllıca kullanacağını öğrenir. Tam olarak bu, izleyicilerin kahramana destek olmaya ittirdiği noktadır. Aynı şekilde, DeepSeek'in takipçilerini, küresel saygıyı ve karşıtları kazanmasının nedenidir.
İlerleyen bölümlerde detaylı olarak açıklayacağım gibi, DeepSeek bu yolda uzun süredir ilerliyor ve kendi nihai kaderini yavaş yavaş keşfediyor: amacı programlama abonelik paketlerini satmak değil, 10 trilyon dolarlık bir Çinli AI donanım ekosistemi oluşturmak ve kendi değerini 1 trilyon dolar seviyesine çıkarmak. Bu süreçte, Batı donanım ekosistemindeki birçok yeni katılımcıya da fırsatlar yaratacak.

Öncelikle bazı ilginç KV Cache hesaplamalarıyla başlayalım
@SemiAnalysis_'in son zamanlarda attığı bu tweete bir göz atın:

DeepSeek, bu sorunu daha önce kimse çözmemişti!
Öncelikle ilginç bir KV Cache hesaplaması yapalım. Matematikten hoşlanmasanız da endişelenmeyin. En son yayınlanan KV Cache hesaplayıcısını kullanarak, DeepSeek V4 Pro'nun ne kadar KV Cache tasarrufu sağladığını ve bunu en yeni GLM ve Qwen modelleriyle karşılaştıracağız.
Burada 1 milyon bağlam uzunluğunu hesaplıyorum, KV hassasiyeti 8 bit ve indeksleyici hassasiyeti 16 bit olarak varsayarak. Kendi hesaplayıcınızı de deneyebilirsiniz: https://kvcache.ai/tools/kv-cache-calculator/

Kendi hesap makinenizi de açıp deneyebilirsiniz!
1 milyon bağlam uzunluğunda:
·DeepSeek V4, yalnızca 5,48 GB HBM gerektirir;
·GLM-5, 60 GB HBM gerektirir;
·Qwen3-235B-A22B, 89 GB HBM gerektirir.
Dikkat edilmesi gereken nokta:
·DeepSeek, 1,6 trilyon parametreli bir modeldir;
·GLM-5 yaklaşık 700 milyar parametreye sahiptir ve DeepSeek'in MLA ve DSA teknolojilerini kullanmaktadır, ancak en son sıkıştırılmış dikkat mekanizmasını henüz kullanmamaktadır;
Qwen3-235B-A22B yaklaşık 235 milyar parametreye sahiptir ve GQA dikkat mekanizmasını kullanır.
DeepSeek, bellek baskısını hafifletmede temel bir katkı sağlamıştır. Bu tür yenilikler yaygın olarak benimsenirse, uzun döngülü Agent'ların çalışma maliyetleri büyük ölçüde düşürülecek ve yeni bir dizi uygulama senaryosu açılabilecektir.

1.000.000 Token bağlamı ve model boyutu altında KV Önbellek kullanım karşılaştırması
“Çılgınlık” arkasındaki metodoloji
KV Önbelleğinin bu kadar küçük olmasının ve aynı zamanda model kalitesini kaybetmeden bunu başarabilmenin nedeni, DeepSeek'in uzun süreli önbellekleme hizmetini Sonnet 4.6'nın önbellek vuruş fiyatı %3'ünden daha düşük bir fiyata sunabilmesidir; DeepSeek, önbelleği saatler boyunca koruyabilir.
Uzun periyotlu görevler için daha küçük KV önbelleği, onları SSD'ye daha ekonomik bir şekilde çıkarıp gerekirse yeniden yüklemeyi sağlar. Bu da HBM'e olan bağımlılığı azaltır. Çin AI donanım endüstrisi açısından bakıldığında, HBM hem tedarik sıkıntısı yaşıyor hem de üretimi en zor bellek türlerinden biridir.
Ayrıca, DeepSeek, Dual Path makalesinde açıklanan, SSD'den KV Cache'i daha hızlı yüklemek için bir teknoloji geliştirdi.

DeepSeek V4, KV Cache için çok büyük bir sıkıştırma oranı sağlar, bu adımda hatta gerek kalmayabilir.
Peki, KV Cache sıkıştırmasının en doğrudan faydasını gören kimdir?
SSD'yi büyük ölçekli olarak kim tedarik ediyor? YMTC (Yangtze Memory Technologies)’in 3D NAND alanında bir dev haline geldiğini unutmayın. NAND, DeepSeek’in KV’yi tekrar hesaplamasını önleyebilir. Bunun tersine, DeepSeek, NAND ve SSD için büyük bir pazar yaratıyor—bu, yalnızca Yangtze Memory Technologies’e değil, ilgili diğer üreticilere de fayda sağlayacak.

Ancak bu sadece NAND ve SSD ile ilgili değil.
LPDDR belleği aynı zamanda büyük bir potansiyele sahiptir. Model ağırlıklarının saklanabileceği bir yer olarak kullanılabilir ve bu ağırlıklar gerekli olduğunda HBM'ye akışlı olarak aktarılabilir, böylece HBM'e olan talep basıncı hafifletilebilir. SGLang ekibi bunu anlatan harika bir blog yazısı yayınlamıştı. Aşağıdaki şekil bu çözümün nasıl çalıştığını göstermektedir.
DeepSeek, bu çözüm için özel olarak herhangi bir tasarım yapmamış olsa da, MoE mimarisi, kendisindeki büyük sayıda uzman model ve 4 bit ağırlık özellikleri sayesinde bu çözümün uygulanması kolaylaşmıştır.

Bu şema, belleğin nasıl kullanılabileceğini ve model ağırlıklarının LPDDR'den HBM'ye nasıl akıtılacağını göstermektedir. SGLang'in bu blog yazısını okumayı şiddetle öneriyoruz.
Bu yenilik, son derece sıkıştırılmış ve kayıpsız bir KV Cache ile birleştirildiğinde, HBM ihtiyacı önemli ölçüde azaltacaktır.
Peki Çin'de LPDDR kim üretiyor? Cevap CXMT, yani ChangXin Memory Technologies. Onlar, LPDDR hızında sadece yarım nesil geride, yoğunlukta ise bir nesil geride kalıyorlar, bu fark büyük değil.
Yeterli NAND’in yanı sıra, Çin AI ekosistemi yakında yeterli LPDDR tedarikine de sahip olacak. Bu, hesaplama yükünü hafifletebilir mi? Cevap: Evet. Devam edin.

Akıllı bellek kullanımı, GPU/ASIC yükünü hafifletebilir.
KV Önbelleğini NAND üzerinde saklamak, KV önbelleğinin daha uzun süre korunmasını sağlar, HBM üzerindeki yükü azaltır ve KV önbelleğinin tekrar hesaplanmasını önler; bu da GPU ve ASIC'in hesaplama yükünü hafifletir.
Peki, LPDDR de benzer şekilde işlev görebilir mi? Ağırlıkları HBM'ye «istendiğinde anında» akıtan bir depolama konumu olarak görevinin yanı sıra, hesaplama yükünü daha da azaltabilir mi?
Cevap: Evet.
LPDDR, Engram adı verilen büyük miktarda içerik saklamak için kullanılabilir. DeepSeek'in Engram makalesinde, MoE'nin koşullu hesaplama yoluyla model kapasitesini genişletebileceği belirtilmiştir, ancak Transformer'ın kendisinde doğrudan bir «bilgi arama» mekanizması yoktur. Bu nedenle, Transformer genellikle arama sürecini verimsiz bir şekilde hesaplama yoluyla simüle etmek zorundadır.
Bu sorunu çözmek için DeepSeek, Engram modülünü önerdi. Klasik N-gram gömmeyi, bir hash tabanlı O(1) arama mekanizmasına dönüştürerek, koşullu bellek adını verdikleri tamamlayıcı seyreltme yolunu oluşturdu.
Bu yöntem hesaplama tasarrufu sağlar, ancak gömmeler tablosunu tutmak için bellek gerektirir ve bu tablo kendisi çok büyük olabilir.
Temelde, bu tipik bir «bellek ile hesaplama değiştirme» çözümüdür. Ancak ana içgörüsü şudur: her bit verinin okuma maliyeti açısından, «bellek» tarafı çok daha ucuzdur — bir LPDDR araması, verinin çok katmanlı bir Transformer üzerinden tamamen ileri geçiş yapmasına kıyasla çok daha ucuzdur. Bu nedenle büyük ölçekli senaryolarda, bu çok karlı bir değişimdir.
Bu, DeepSeek'in bir miktar belleği fedakârlık ederek hesaplama tasarrufu sağlamasıdır.

Yapılacak değerli tercihler
Eşdeğer düzeyde çip transistör yoğunluğu ve EUV olmadan, Çin GPU'ları ve ASIC'leri orijinal FLOPs performansı açısından uzun vadeli olarak Batı GPU'larından geride kalacaktır. İleri paketleme konusunda da hala açık bir fark bulunmaktadır. Bu nedenle, Çin'in NAND ve LPDDR belleklerini büyük ölçekli olarak üretebilmesi durumunda, bu tür tercihler yapmak çok değerlidir.
DeepSeek'in uzun vadeli stratejisini gözden geçirin
Bu yeniliklerden hareketle, DeepSeek’in amacı şu anda milyarlarca dolarlık kâr elde etmek değil. Bunun birçok kanıtı var: Şimdiye kadar çoklu modellilik yok, ses modeli yok, video modeli ise tamamen söz konusu değil.
Gerçekten katıldığı, 10 trilyon dolar boyutunda olabilecek ve alternatif bir AI donanım ekosistemi oluşturmaya yönelik uzun vadeli bir oyundur.
Bu, Çinli bellek üreticilerinin Çin'de ve dünya çapında AI donanım pazarında kilit bir oyuncu haline gelmesi için değil, aynı zamanda AI modellerinin eğitimi ve hizmeti için kaynak gereksinimlerini temel düzeyde azaltmak amacıyladır. Bu sayede birçok GPU, ASIC ve ağ çipi üreticisi, uygun bir seçenek haline gelebilir.
Aynı zamanda bu yenilikler, Batı açık kaynak ekosistemine ve yeni nesil donanım üreticilerine de fayda sağlayacaktır.
Tüm işaretler zaten ortaya çıkmıştı. DeepSeek'in şimdiye kadar sunduğu bu yenilikleri ayrıntılı bir şekilde gözden geçirelim:
1. DeepSeek V2'de tanıtılan Uzman Karışık Model (MoE) ve MLA
DeepSeek, V2'de MoE ve MLA'yı tanıttı. MoE, yüksek zekâlı modelleri eğitmek için gerekli hesaplama gücünü yaklaşık %40 ile %50 azaltıyor; MLA ise KV Cache'i %90 azaltıyor.
Bu, KV Önbelleğini SSD'ye yüklemeyi oldukça verimli hale getiriyor.
Bu fikirler, DeepSeek'in 2024 Mayıs'ta yayınladığı DeepSeek V2 makalesinde ilk kez ortaya çıkmıştır. Daha sonra, bu fikirler DeepSeek V3'ün eğitimi için temel oluşturmuştur. O dönemde, DeepSeek yalnızca 2048 adet performansı kısıtlanmış H800 GPU kullanarak, kapalı kaynaklı modeller seviyesine yakın bir sistem eğitmiştir.

2. DSA: Uzun bağlam senaryolarında hesaplama yükünü azaltmak ve HBM bant genişliği baskısını hafifletmek amacıyla DeepSeek V3.2 Exp'de tanıtıldı.
DSA'nın temel rolü, hesaplama miktarının bağlam uzunluğu arttıkça sürekli artmasını önlemektir. Aşağıdaki grafiği inceleyin: Bağlam uzunluğu arttıkça, DeepSeek-V3.2'nin işleme süresi neredeyse sabit kalır.

3. mHC: DeepSeek, 2025 yılında “mHC: Manifold-Constrained Hyper-Connections” adlı makalede ortaya çıkarmıştır.
mHC, DeepSeek'in makro mimari düzeyinde yaptığı bir yenilik olup, Transformer katmanları arasındaki bilgi akışını yeniden tasarlar.
Geçmişte, ResNet'ten beri modeller genellikle x + F(x) şeklinde standart kalıntı bağlantılarını kullanıyordu. mHC'nin yaklaşımı, kalıntı akışını birden fazla paralel bilgi kanalına genişletmek ve modelin bu kanallar arasında öğrenilebilir bir karışım yapmasına izin vermektir. Anahtar nokta, karışım matrisini çift rastgele bir matris olarak sınırlamaktır, yani Sinkhorn-Knopp projeksiyonu aracılığıyla Birkhoff çokyüzlüsü üzerinde tutar. Bu sayede matematiksel olarak garanti altına alınır ki, model ne kadar derin olursa olsun, sinyal genliği sabit kalır.
Bu, önceki sınırsız Hyper-Connections'un karşılaştığı kritik istikrarsızlık sorununu çözmüştür. Hyper-Connections, ilk olarak Bytedance tarafından önerilmişti, ancak sınırsız durumda sinyal genleşmesi 27 milyar parametre boyutunda 3000 katına kadar çıkıyor ve nihayetinde eğitimi tamamen çökertiyordu.
mHC'nin hesaplama maliyeti çok düşüktür: Dikkat katmanları ve FFN katmanlarındaki FLOPs'leri değiştirmeksizin, yalnızca bu katmanların çıktılarının katmanlar arasında rota atamasını değiştirerek, gerçek eğitim süresi maliyetini yaklaşık %6,7 oranında artırır.
Ancak getirdiği performans artışı oldukça belirgin: 27 milyar parametre boyutunda, mHC, BIG-Bench Hard mantıksal görevlerde 7,2 puan, DROP'ta 3,2 puan, GSM8K matematik görevlerinde 2,8 puan ve MMLU genel bilgi görevlerinde 1,4 puan artış sağlıyor. Bu artışlar, aynı model boyutunda ve neredeyse aynı hesaplama bütçesiyle elde edilmiştir.
Temel olarak, mHC, neredeyse ek FLOP artışı olmadan, ağa daha zengin ve ifade gücü yüksek bir katmanlar arası bilgi rota topolojisi sağlayarak daha yüksek bir birim parametre akıllılığı sağlar.

mHC, karmaşık bir mimari tasarımıdır, ancak daha istikrarlı bir eğitim süreci ve daha yüksek bir birim parametre zekâsı sağlar.
4, CSA, HSA: DeepSeek, 2026 yılında Nisan'da V4'te tanıtıldı.
CSA ve HSA'nın amacı, KV Token'ları sıkıştırarak KV Cache gereksinimini %90 oranında daha da azaltmak ve gerekli FLOPs'leri büyük ölçüde düşürerek HBM ile GPU/ASIC yükünü aynı anda hafifletmektir.

5. Engram: DeepSeek, 2026 yılının birinci çeyreğinde, temel olarak bellek, yani LPDDR belleği, hesaplama verimliliğiyle değiştirmeyi amaçlıyor.
Aşağıdaki ayrıntılı grafikte gösterildiği gibi, toplam parametre bütçesi aynı kaldığında Engram, belirgin bir performans artışı sağlamaktadır.

6. Engram: DeepSeek, 2026 birinci çeyrekte, temel olarak bellek, yani LPDDR belleği ile hesaplama verimliliği arasında bir değiş tokuş yaparak tanıtılmıştır.
Aşağıdaki ayrıntılı grafikte gösterildiği gibi, toplam parametre bütçesi aynı kaldığında Engram, belirgin bir performans artışı sağlamaktadır.

Bu, DeepSeek'in V4 makalesinde donanım üreticilerine verdiği öneridir. Çevrimdışı görüşmelerde daha fazla geri bildirim verdiklerinden eminim.
7, TileLang'a yapılan yatırımlar da aynı yöne işaret ediyor: DeepSeek, yalnızca kendi hesaplama kapasitesi darboğazını çözmekle kalmıyor, aynı zamanda Çin donanım ekosistemine Batı ekosistemiyle rekabet etme kapasitesi kazandırmayı hedefliyor.
TileLang sayesinde geliştiriciler, hesaplama için kullanılan temel kod olan kernel'i yalnızca bir kez yazabilir ve bu platformlar için TileLang arka ucu mevcutse, bu kodu birden fazla donanım platformunda başarıyla çalıştırabilir.
Diğer Çinli AI laboratuvarlarının da sırayla katılması bekleniyor. Bu, Çinli donanım üreticilerinin所谓的「CUDA護城河」'a dolaylı bir şekilde karşı koymasına yardımcı olacak. Aynı zamanda, AMD gibi Batılı donanımların potansiyelini de serbest bırakacaktır.
Açıklanması gereken, Çin'de birçok AI donanım platformunun CUDA uyumluluğu veya CUDA çevirme katmanı sağlamasıdır. Örneğin, Moore Threads, MemXplore, BiRen ve TianShu ZhiXin, yüksek CUDA uyumluluğunu çevirme katmanları aracılığıyla sağlayan Çinli çip üreticileridir. Bu nedenle teorik olarak, bu şirketlerin TileLang'a gerekleri yoktur.

Büyük ölçekli makine öğrenmesi ve RSI
DeepSeek, daha fazla hesaplama kaynağına, yani daha fazla donanım seçeneğine sahip olurken, modelin kendisi hesaplama kaynaklarına olan ihtiyacı azaldıkça, özellikle pekiştirmeli öğrenme sonrası eğitimi gibi daha ambisyonlu eğitim projelerini ilerletebilir.
Güçlendirilmiş öğrenme, milyarlarca token üretimi gerektirir. Bu süreç çok hızlı bir şekilde son derece pahalı hale gelir. Daha da ileri olarak, 1 milyon bağlam uzunluğuna sahip bir model eğitmek istiyorsanız, aynı uzunlukta trajektoryler üretmeniz gerekir. Sadece bu aşırı uzun trajektoryler üzerinde modeli eğiterek uzun dönemli görevleri gerçekten destekleyebilirsiniz.
Ayrıca, donanım seçeneklerinin artmasıyla birlikte DeepSeek'in kullanabileceği donanım kaynakları da artacak ve bu da otomatikleştirilmiş araştırmayı, yani RSI'yi teşvik edecektir. RSI, AI'nın kendi deneylerini tasarlamasını ve gerçekleştirmesini ifade eder. Bu yöntem, büyük miktarda deneme-yanılma içerir ve maliyetler hızla artar. Ancak RSI, tam model tasarım uzayını keşfetmek için kritik öneme sahiptir. AGI'ye ve ardından ASI'ye doğru ilerlemeden önce DeepSeek, RSI yeteneğine sahip olmalıdır.
DeepSeek'in bugün yaptığı şey, tüm sektör yarın takip edecektir.
DeepSeek'in uzman karışımlı modeller, MLA, DSA gibi alanlarda yaptığı yenilikler, dünya çapında ve Çin'deki diğer AI laboratuvarları tarafından sırayla benimsenmiştir.
Örneğin, GLM serisi modellerinin geliştiricisi ZAI, MLA ve DSA kullanmıştır. Kimi, yani Moonshot, MLA'yı benimsemiş ve mimarisinin DeepSeek mimarisine dayandığını açıkça belirtmiştir. Tersine, DeepSeek de Muon optimizatörünü kullanmaktadır ve Muon, en başta Kimi (Moonshot) tarafından büyük ölçekli eğitimde kullanılmıştır.
Şunu belirtmek gerekir:
MoE, 2017 yılında Google tarafından öne sürüldü ve ana yazarı Noam Shazeer'dir. DeepSeek'in katkısı, MoE'yi ölçeklendirerek uygulamak ve kendi eşlik eden tekniklerini icat etmektir.
Muon, yani Newton-Schulz optimizasyonu ile dikleştirilmiş MomentUm, 2024 sonunda makine öğrenimi araştırmacısı Keller Jordan tarafından önerildi. Kimi (Moonshot) ekibi, bunu büyük ölçekli eğitimde kullanan ilk ekip oldu.
Peki kazanç sorunu nasıl çözülür?
İlginç bir örnek olarak OpenAI'yi inceleyebiliriz.
OpenAI, hesaplama tüketim miletleriyle ilişkili olarak AMD ve Cerebras hisselerini daha düşük fiyattan satın alma hakkı elde etti. AMD ve Cerebras için bu çok avantajlı bir anlaşma çünkü OpenAI'nin donanımlarını kullanma sözü vermesi durumunda uzun vadeli başarı olasılıkları büyük ölçüde artacaktır.
AMD duyurusunda şu şekilde bir ifade yer alıyor:
Sözleşmenin bir parçası olarak, tarafların stratejik çıkarlarını daha iyi uyumlu hale getirmek amacıyla AMD, OpenAI'ye en fazla 160 milyon AMD hissesi satın alma hakkı veren opsiyonlar verdi ve bu opsiyonlar belirli kilit noktaların tamamlanmasıyla zamanla kazanılacaktır. İlk grup, başlangıçta 1 gigawattlık kurulum tamamlandığında kazanılacak; sonraki gruplar ise satın alma hacminin 6 gigawatt'a çıkarılmasıyla sırayla kazanılacaktır. Kazanım koşulları, AMD'nin belirli hisse fiyatı hedeflerine ulaşması ve OpenAI'nin AMD'nin büyük ölçekli kurulumu için gerekli olan teknik ve ticari kilit noktaları tamamlamasıyla da bağlantılıdır.

DeepSeek'in aynı şekilde Çinli bellek, ASIC, CPU ve ağ teknoloji sağlayıcıları ile anlaşmalar yapacağını ve bu sağlayıcıların donanım yığınlarının öncü AI iş yüklerini karşılayabilecek şekilde derinlemesine iş birliği yapacağını tahmin ediyorum.
Tüm Batı, Doğu Asya müttefiklerini de dahil ederek, AI hisselerinin toplam piyasa değeri zaten 1 trilyon doları aşmıştır; bu «işbirliği yoluyla hisse kazanma» yaklaşımı, DeepSeek'in Çin'de benzer ölçüde büyük bir endüstri kurmaya ve kendi payını elde etmeye, nihayetinde 1 trilyon dolarlık değerlemesine ulaşmaya fırsat tanıyacaktır.
Bu, DeepSeek'in geleneksel uygulama abonelik iş modelinden çok daha fazla gelir elde etmesini sağlayacak ve aynı zamanda "AGI'nin herkese ulaşmasını" hedeflemesini sağlayacaktır. Liang Wenhong, Jim Simons'ın sadık bir hayranı ve yeterince zeki bir sermaye oyuncusu olarak bu noktayı kaçırmayacaktır.
DeepSeek'in şimdiye kadar yaptığı her şeyi geriye doğru gözden geçirirseniz, bunun tek mantıklı açıklaması budur.

Bu ana AI hisseleridir. Şekilde hyperscalers, yani süper ölçekli bulut sağlayıcıları ve birçok diğer ilgili şirket henüz dahil edilmemiştir.
