กลยุทธ์ขนาด 10 ล้านล้านดอลลาร์สหรัฐของ DeepSeek
ผู้เขียนต้นฉบับ: @bookwormengr
Peggy, BlockBeats
บรรณาธิการ: ในปีที่ผ่านมา การอภิปรายเกี่ยวกับ DeepSeek ส่วนใหญ่มุ่งเน้นไปที่ประสิทธิภาพของโมเดล กลยุทธ์การเปิดแหล่งที่มา และการแข่งขันด้านราคา แต่หากเข้าใจ DeepSeek แค่จากมุมมองว่า “จะขายแบบสมัครสมาชิกหรือไม่” “มีความสามารถแบบมัลติโมดัลหรือไม่” “สามารถทำหน้าที่เป็นตัวแทนการเขียนโค้ดได้หรือไม่” อาจทำให้ประเมินต่ำเกินไปถึงสิ่งที่มันต้องการเปลี่ยนแปลงอย่างแท้จริง
บทความนี้เสนอการตีความที่รุนแรงกว่า: เป้าหมายของ DeepSeek อาจไม่ใช่การสร้างรายได้ผ่านชั้นแอปพลิเคชันในระยะสั้น แต่คือการเปลี่ยนโครงสร้างต้นทุนของการฝึกอบรมและการอนุมาน AI ผ่านนวัตกรรมด้านสถาปัตยกรรมพื้นฐาน และส่งเสริมการเกิดขึ้นของระบบนิเวศฮาร์ดแวร์ใหม่อย่างอ้อมๆ ตั้งแต่ MoE, MLA ไปจนถึง DSA, CSA, mHC, Engram รวมถึง Dual Path และ TileLang เส้นทางเทคโนโลยีของ DeepSeek ยังคงหมุนรอบคำถามหลักเดียว: ในเมื่อ HBM, เทคโนโลยีการผลิตขั้นสูง, การแพ็คเกจ และระบบนิเวศ CUDA มีข้อจำกัด ควรใช้พลังการประมวลผลระดับสูงน้อยลงอย่างไรจึงจะสามารถรันโมเดลที่แข็งแกร่งกว่าได้
สิ่งที่น่าจับตามองที่สุดในบทความนี้ ไม่ใช่ “DeepSeek จะสามารถหารายได้หลายพันล้านดอลลาร์สหรัฐจาก API หรือการสมัครสมาชิกได้หรือไม่” แต่คือการที่มันกำลังผูกความสามารถของโมเดล ระบบหน่วยความจำ และระบบนิเวศฮาร์ดแวร์ภายในประเทศเข้าด้วยกัน การบีบอัด KV Cache ลดการพึ่งพา HBM NAND และ SSD สามารถรับหน้าที่เก็บแคชระยะยาว LPDDR สามารถใช้สำหรับการโหลดน้ำหนักแบบสตรีมและเก็บ Engram ส่วน TileLang พยายามลดความได้เปรียบของ CUDA หากนวัตกรรมเหล่านี้ยังคงแพร่กระจายต่อไป ผู้ได้รับประโยชน์จะไม่ใช่แค่ DeepSeek เอง แต่ยังรวมถึงอุตสาหกรรมการจัดเก็บข้อมูล ASIC GPU ชิปเครือข่าย และทั้งห่วงโซ่โครงสร้างพื้นฐานด้าน AI
แน่นอน การประเมินเกี่ยวกับ “ระบบนิเวศอุตสาหกรรมมูลค่า 10 ล้านล้านดอลลาร์สหรัฐ” และ “มูลค่าบริษัท 1 ล้านล้านดอลลาร์สหรัฐ” ยังคงมีลักษณะการคาดการณ์ค่อนข้างสูง แต่มันให้เส้นทางสำคัญในการเข้าใจ DeepSeek: การเปิดแหล่งรหัสไม่ได้หมายความว่าต้องละทิ้งการสร้างรายได้ และราคาต่ำไม่ได้หมายความว่าเป็นเพียงการอุดหนุนตลาดเท่านั้น สำหรับ DeepSeek ธุรกิจที่แท้จริงอาจไม่อยู่ที่ชั้นแอปพลิเคชัน แต่อยู่ที่การช่วยให้อุปกรณ์ฮาร์ดแวร์จำนวนมากสามารถใช้งานได้ และทำให้การจัดหา AI ต้นทุนต่ำกว่าเป็นไปได้ พูดอีกแบบหนึ่ง ผลิตภัณฑ์ที่มันขายอาจไม่ใช่โมเดลเอง แต่คือความเป็นไปได้ของโครงสร้างพื้นฐาน AI รุ่นถัดไป
以下为原文:

คุณเคยคิดไหมว่า DeepSeek จะทำเงินได้อย่างไร และอาจทำเงินได้มากเลยทีเดียว?
มันไม่มีแผนการสมัครสมาชิกสำหรับการเขียนโปรแกรมที่แข่งขันได้เทียบเท่า GLM, MoonShot และ MiniMax; ไม่มีโมเดลหลายโมดัลities, เสียง หรือวิดีโอ จนถึงขณะนี้ มันยังไม่มี harness ของตัวเอง ซึ่งเป็นกรอบการทำงานชั้นนอกสำหรับการเรียกใช้โมเดล การเชื่อมต่อเครื่องมือ และการดำเนินงานงาน — แม้ว่าพวกเขาเพิ่งเริ่มรับสมัครตำแหน่งที่เกี่ยวข้องเพื่อสร้างระบบนี้
ในขณะเดียวกัน DeepSeek ดูเหมือนจะยังคงยืนหยัดอย่างมั่นคงบนฝั่งโอเพนซอร์ส จนถึงขั้นยินดีแบ่งปัน “เคล็ดลับ” ของตนเองอย่างเปิดเผย นี่ไม่ใช่เรื่องบ้าบอหรือ? ไม่ใช่การเผาเงินโดยไม่ได้ผลหรือ? นักลงทุนที่เตรียมลงทุน 10,000 ล้านดอลลาร์สหรัฐกับมัน กำลังทิ้งเงินลงท่อระบายน้ำหรือ?
ฉันคิดว่าคำตอบกลับกัน
ต่อไปนี้ ผมจะนำเสนอการสังเกตบางประการและวิเคราะห์กลยุทธ์ที่ DeepSeek ดูเหมือนกำลังดำเนินตาม ซึ่งอิงจากสิ่งที่ DeepSeek ได้ทำมาจนถึงตอนนี้ เป้าหมายของหลี่ เวิ่นเฟิง ซีอีโอของ DeepSeek อาจไม่ได้จำกัดอยู่แค่การแข่งขันของโมเดลในปัจจุบัน แต่เขาอาจมุ่งไปที่รางวัลที่ใหญ่กว่านั้น: DeepSeek มีโอกาสก้าวเข้าสู่มูลค่าบริษัท 1 ล้านล้านดอลลาร์สหรัฐ พร้อมผลักดันให้เกิดอุตสาหกรรมใหม่ขนาด 10 ล้านล้านดอลลาร์สหรัฐ

TechInAsia รายงานเกี่ยวกับการระดมทุนรอบล่าสุดของ DeepSeek
กลับไปเยี่ยมชม «การเดินทางของวีรบุรุษ» ของ DeepSeek
DeepSeek 一直在逆风而行。它没有选择不断推出稍强一点的模型,然后急于将它们包装成可直接变现的应用,例如编程订阅方案。2025 年 1 月 27 日,我曾发布一条广为传播的推文,讲述我眼中 DeepSeek 的「英雄之旅」。如今,这个故事变得更加有趣了。
ขณะที่ผู้อื่นยังคงพยายามพัฒนาโมเดลหนาแน่น DeepSeek ได้เลือกใช้โมเดลแบบผสมผสานผู้เชี่ยวชาญ (Mixture of Experts, MoE) ที่ยากกว่าในการฝึกอบรม
พวกเขาใช้วิธีการตามหลักการพื้นฐานแรก สร้างอัลกอริธึม GRPO ใหม่ เพื่อแทนที่อัลกอริธึมการเรียนรู้แบบเสริมแรง PPO ที่เป็นที่นิยมในขณะนั้นแต่มีต้นทุนการดำเนินการสูงกว่า
พวกเขาพบว่า การเรียนรู้ผ่านการเสริมแรงจากรางวัลที่ตรวจสอบได้ (Reinforcement Learning from Verified Rewards, RLVR) เป็นกลยุทธ์หลักในการเพิ่มความสามารถในการให้เหตุผลของโมเดล
พวกเขายังเสนอกลยุทธ์การเดาแบบง่ายผ่านการคาดการณ์หลายโทเค็น (Multi Token Prediction) พร้อมกับทำให้สัญญาณการฝึกอบรมเข้มข้นขึ้น
พวกเขาได้ปรับปรุงสายการผลิต «ZERO bubble» เพื่อเพิ่มประสิทธิภาพการใช้งานทรัพยากร GPU ที่มีจำกัด
พวกเขาเปิดตัวผู้เชี่ยวชาญด้านการกระจายโหลด ทำให้ทุกคนสามารถปรับใช้โมเดล MoE ได้ง่ายขึ้น โดยเฉพาะผ่านกลยุทธ์ “Wide Expert Parallel” โมเดลสามารถให้บริการด้วย batch ขนาดใหญ่ขึ้น ซึ่งช่วยลดต้นทุนการอนุมานอย่างมาก
พวกเขาได้พัฒนา cơ chếต่างๆ เช่น MLA, DSA, CSA, HCA เพื่อลดความต้องการ KV Cache และทำให้ความต้องการการคำนวณที่เพิ่มขึ้นตามความยาวของบริบทยังคงใกล้เคียงกับค่าคงที่
พวกเขาได้คิดค้น Engram ซึ่งแลกหน่วยความจำเพื่อเพิ่มประสิทธิภาพการคำนวณ
พวกเขายังพัฒนา mHC ซึ่งช่วยให้สามารถฝึกโมเดลได้อย่างมั่นคงแม้จะขยายขนาดโมเดล ตัวอย่างอื่นๆ อีกมากมาย
ในโครงเรื่องที่พบได้บ่อยที่สุดคือ “การเดินทางของวีรบุรุษ” วีรบุรุษไม่เคยตัดสินใจตั้งแต่เริ่มต้นว่าการเดินทางของตนจะนำไปสู่ที่ใด เขาค่อยๆ ค้นพบภารกิจอันยิ่งใหญ่แท้จริงของตนผ่านการเรียนรู้ตลอดทาง และบรรลุมันแม้จะเผชิญอุปสรรคมากมาย เขาจะพบผู้ตั้งคำถามมากมาย แต่เขาเลือกที่จะไม่สนใจพวกเขา เขายังจะพบผู้กระทำในทางที่ไม่ดีมากมาย เขามีจุดอ่อนหรือข้อบกพร่องที่ชัดเจน แต่สุดท้ายก็สามารถเอาชนะปัญหาเหล่านั้นและ hoàn thànhภารกิจของตน เขาเผชิญกับความท้าทายที่ดูเหมือนไม่สามารถข้ามพ้นได้ แต่กลับสามารถหาพันธมิตรและเรียนรู้วิธีใช้ทรัพยากรที่มีจำกัดและมีค่าอย่างชาญฉลาด นี่เองคือสิ่งที่ทำให้ผู้ชมอยากเชียร์วีรบุรุษ นี่คือเหตุผลที่ DeepSeek ได้รับผู้ติดตาม ความเคารพจากทั่วโลก และแม้แต่ผู้คัดค้าน
ดังที่ฉันจะอธิบายอย่างละเอียดในขั้นตอนต่อไป DeepSeek ได้เดินทางมาบนเส้นทางนี้มานานแล้ว และค่อยๆ ค้นพบชะตากรรมอันสุดท้ายของมัน: เป้าหมายของมันไม่ใช่การขายแผนสมัครใช้งานด้านการเขียนโปรแกรม แต่คือการผลักดันระบบนิเวศฮาร์ดแวร์ AI ของจีนที่มีมูลค่าถึง 10 ล้านล้านดอลลาร์สหรัฐ และทำให้ตัวมันเองมีมูลค่าถึง 1 ล้านล้านดอลลาร์สหรัฐ ในกระบวนการนี้ มันยังจะสร้างโอกาสให้กับผู้เข้าใหม่จำนวนมากในระบบนิเวศฮาร์ดแวร์ของตะวันตก

เริ่มต้นด้วยการคำนวณ KV Cache ที่น่าสนใจบางอย่าง
โปรดดูทวีตล่าสุดที่ทันเวลาของ @SemiAnalysis_:

DeepSeek ได้แก้ปัญหานี้ได้ดีกว่าใครๆ แล้ว!
มาคำนวณ KV Cache กันสักนิดก่อน อย่ากังวล แม้ว่าคุณจะไม่ชอบคณิตศาสตร์ก็ตาม เราจะใช้เครื่องคำนวณ KV Cache ที่เพิ่งเปิดตัว เพื่อดูว่า DeepSeek V4 Pro จะช่วยประหยัด KV Cache ได้เท่าใด และเปรียบเทียบกับโมเดล GLM และ Qwen รุ่นล่าสุด
ที่นี่ฉันคำนวณด้วยความยาวบริบท 1 ล้าน สมมติว่าความแม่นยำของ KV คือ 8 บิต และความแม่นยำของตัวดัชนีคือ 16 บิต คุณสามารถเปิดเครื่องคำนวณนี้เองได้:https://kvcache.ai/tools/kv-cache-calculator/

คุณยังสามารถเปิดเครื่องคิดเลขของตัวเองเพื่อลองดูได้!
ที่ความยาวบริบท 1 ล้าน:
·DeepSeek V4 ต้องการเพียง 5.48GB HBM;
·GLM-5 ต้องการ HBM 60GB;
·Qwen3-235B-A22B ต้องการ HBM สูงถึง 89GB
โปรดสังเกตว่า:
·DeepSeek เป็นโมเดลพารามิเตอร์ 1.6 ล้านล้านตัว;
·GLM-5 มีพารามิเตอร์ประมาณ 7 แสนล้าน และได้รับการใช้งาน MLA และ DSA ของ DeepSeek แล้ว แต่ยังไม่ได้ใช้กลไกการกดทับความสนใจรุ่นล่าสุด;
·Qwen3-235B-A22B มีพารามิเตอร์ประมาณ 235,000 ล้านตัว และใช้กลไกการให้ความสำคัญแบบ GQA
DeepSeek ได้สร้างผลงานพื้นฐานในการลดภาระหน่วยความจำ หากนวัตกรรมประเภทนี้ได้รับการนำไปใช้อย่างแพร่หลาย จะช่วยลดต้นทุนการดำเนินงานของ Agent ระยะยาวอย่างมาก และเปิดโอกาสให้เกิดแอปพลิเคชันใหม่ๆ ชุดถัดไป

เปรียบเทียบการใช้งาน KV Cache ภายใต้บริบท Token 1 ล้านและขนาดโมเดล
วิธีการเบื้องหลังความบ้าคลั่ง
เหตุผลที่ KV Cache สามารถมีขนาดเล็กมากได้โดยไม่ลดทอนคุณภาพของโมเดล คือ DeepSeek สามารถให้บริการแคชระยะยาวในราคาต่ำมาก—ราคาต่ำกว่า 3% ของราคาแคชที่ Sonnet 4.6 เรียกเก็บ และ DeepSeek สามารถเก็บแคชไว้ได้นานหลายชั่วโมง
สำหรับงานที่มีช่วงเวลายาว การใช้ KV Cache ขนาดเล็กหมายถึงสามารถปลดโหลดลง SSD ได้อย่างมีประสิทธิภาพมากขึ้นและโหลดกลับมาเมื่อจำเป็น ซึ่งช่วยลดการพึ่งพา HBM จากมุมมองของอุตสาหกรรมฮาร์ดแวร์ AI ของจีน HBM ไม่เพียงแต่มีอุปทานจำกัด แต่ยังเป็นหนึ่งในประเภทหน่วยความจำที่ยากที่สุดในการผลิต
นอกจากนี้ DeepSeek ยังพัฒนาเทคโนโลยีในการโหลด KV Cache จาก SSD ได้เร็วขึ้น ซึ่งได้รับการอธิบายไว้ในบทความ Dual Path

DeepSeek V4 บีบอัด KV Cache ได้มากจนขั้นตอนนี้อาจไม่จำเป็นอีกต่อไป
แล้วผู้ได้รับประโยชน์โดยตรงจากการบีบอัด KV Cache คือใคร?
ใครกำลังจัดหา SSD ในปริมาณใหญ่? อย่าลืมว่า YMTC (Yangtze Memory Technologies) กำลังเติบโตขึ้นเป็นผู้นำในด้าน 3D NAND NAND สามารถช่วย DeepSeek หลีกเลี่ยงการคำนวณซ้ำของ KV ทั้งนี้ DeepSeek ก็สร้างตลาดขนาดใหญ่สำหรับ NAND และ SSD — ซึ่งไม่เพียงแต่จะได้รับประโยชน์จาก Yangtze Memory Technologies เท่านั้น แต่ยังรวมถึงผู้ผลิตที่เกี่ยวข้องอื่นๆ อีกด้วย

อย่างไรก็ตาม สิ่งนี้ไม่ได้เกี่ยวข้องแค่ NAND และ SSD เท่านั้น
หน่วยความจำ LPDDR ก็มีศักยภาพที่ยิ่งใหญ่เช่นกัน มันสามารถใช้เป็นที่เก็บน้ำหนักโมเดล และส่งน้ำหนักเหล่านี้แบบสตรีมไปยัง HBM เมื่อจำเป็น เพื่อลดภาระความต้องการต่อ HBM ทีม SGLang ได้เผยแพร่บล็อกโพสต์ที่ดีมากเกี่ยวกับหัวข้อนี้ รูปด้านล่างแสดงหลักการทำงานของแนวทางนี้
แม้ว่า DeepSeek จะไม่ได้ออกแบบมาโดยเฉพาะสำหรับแผนการนี้ แต่สถาปัตยกรรม MoE ของมัน ซึ่งมีโมเดลผู้เชี่ยวชาญจำนวนมากอยู่แล้ว รวมถึงคุณสมบัติของน้ำหนัก 4 บิต ทำให้แผนการนี้สามารถนำไปใช้งานได้ง่ายขึ้น

แผนภาพนี้แสดงให้เห็นว่าหน่วยความจำอาจถูกใช้งานอย่างไร และน้ำหนักของโมเดลจะถูกสตรีมจาก LPDDR ไปยัง HBM อย่างไร ขอแนะนำให้ทุกคนอ่านบล็อกของ SGLang
การนวัตกรรมนี้ หากผสานกับ KV Cache ที่มีขนาดเล็กมากและไม่สูญเสียข้อมูล จะลดความต้องการ HBM อย่างมีนัยสำคัญ
ดังนั้น ใครในจีนผลิต LPDDR? คำตอบคือ CXMT หรือที่รู้จักในชื่อ ChangXin Memory Technologies พวกเขาล้าหลังเพียงประมาณครึ่งรุ่นในความเร็วของ LPDDR และล้าหลังหนึ่งรุ่นในความหนาแน่น ช่องว่างไม่ได้ใหญ่มาก
นอกจาก NAND ที่เพียงพอแล้ว ระบบนิเวศ AI ของจีนในอนาคตอันใกล้นี้也将มีปริมาณ LPDDR ที่เพียงพอ ซึ่งสามารถบรรเทาแรงกดดันด้านกำลังการประมวลผลได้หรือไม่? คำตอบคือ: ได้ โปรดอ่านต่อ

การใช้หน่วยความจำอย่างชาญฉลาดยังสามารถลดภาระของ GPU / ASIC ได้
การใช้ NAND เพื่อจัดเก็บ KV Cache มีจุดประสงค์ที่เข้าใจได้ง่าย: มันช่วยให้ KV Cache ถูกเก็บไว้นานขึ้น ลดภาระบน HBM และหลีกเลี่ยงการคำนวณ KV Cache ซ้ำซ้อน ซึ่งช่วยลดภาระการคำนวณของ GPU และ ASIC
แล้ว LPDDR สามารถทำงานในลักษณะเดียวกันนี้ได้ไหม? นอกจากจะทำหน้าที่เป็นตำแหน่งการจัดเก็บที่สามารถสตรีมน้ำหนักไปยัง HBM แบบ “ตามต้องการทันที” แล้ว มันยังสามารถลดภาระการคำนวณเพิ่มเติมได้อีกไหม?
คำตอบคือ: ได้
LPDDR สามารถใช้เก็บข้อมูลจำนวนมากที่เรียกว่า Engram ได้ ในบทความ Engram ของ DeepSeek พวกเขาชี้ให้เห็นว่า MoE สามารถขยายความจุของโมเดลผ่านการคำนวณตามเงื่อนไข แต่ Transformer เองนั้นขาดกลไกการ “ค้นหาความรู้” แบบดั้งเดิม ดังนั้น Transformer มักจะต้องจำลองกระบวนการค้นหาอย่างไม่มีประสิทธิภาพผ่านการคำนวณ
เพื่อแก้ไขปัญหานี้ DeepSeek ได้เสนอโมดูล Engram ซึ่งทันสมัย hóa N-gram embedding แบบดั้งเดิมให้กลายเป็นกลไกการค้นหา O(1) ที่อิงจากแฮช สร้างเส้นทางการลดความหนาแน่นที่เสริมกัน ซึ่งพวกเขาเรียกว่า conditional memory
วิธีนี้สามารถช่วยประหยัดการคำนวณ แต่ต้องใช้หน่วยความจำเพื่อรองรับตาราง embedding ซึ่งตารางนี้อาจมีขนาดใหญ่มาก
โดยพื้นฐานแล้ว นี่คือแนวทางแบบคลาสสิกที่แลกหน่วยความจำเพื่อแลกการคำนวณ แต่การค้นพบที่สำคัญคือ: เมื่อพิจารณาจากต้นทุนการอ่านข้อมูลแต่ละบิต ด้าน “หน่วยความจำ” ถูกกว่ามาก — การค้นหา LPDDR หนึ่งครั้ง ถูกกว่ามากเมื่อเทียบกับการให้ข้อมูลผ่านหลายชั้นของ Transformer เพื่อทำการคำนวณแบบฟอร์เวิร์ดหนึ่งครั้ง ดังนั้น ในบริบทขนาดใหญ่ นี่คือการแลกเปลี่ยนที่คุ้มค่ามาก
นี่คือวิธีที่ DeepSeek แลกการประหยัดการคำนวณด้วยการสละหน่วยความจำบางส่วน

การแลกเปลี่ยนที่คุ้มค่า
เนื่องจากไม่มีความหนาแน่นของทรานซิสเตอร์ชิปในระดับเดียวกัน และไม่มี EUV ชิป GPU และ ASIC ของจีนจึงมีแนวโน้มที่จะตามหลัง GPU ของตะวันตกในแง่ของพลังการประมวลผล FLOPs อย่างต่อเนื่อง พวกมันยังคงมีช่องว่างที่ชัดเจนในด้านการแพ็กเกจขั้นสูง ดังนั้น การแลกเปลี่ยนเช่นนี้จึงคุ้มค่ามาก โดยเฉพาะอย่างยิ่งเมื่อจีนสามารถผลิตหน่วยความจำ NAND และ LPDDR ได้ในปริมาณมาก
ทบทวนกลยุทธ์ระยะยาวของ DeepSeek
จากนวัตกรรมเหล่านี้ เป็นที่ชัดเจนว่าเป้าหมายของ DeepSeek ไม่ใช่การสร้างกำไรหลายพันล้านดอลลาร์ในขณะนี้ ตัวเลือกหลายอย่างที่พวกเขาเคยเลือกในอดีตแสดงให้เห็นถึงสิ่งนี้: จนถึงตอนนี้ยังไม่มีโมเดลแบบมัลติโมดัล ไม่มีโมเดลเสียง และยิ่งแต่จะพูดถึงโมเดลวิดีโอแล้วก็ยิ่งไม่มี
สิ่งที่มันมีส่วนร่วมอย่างแท้จริง คือเกมระยะยาวที่ต้องใช้ความอดทน และอาจมีขนาดถึง 10 ล้านล้านดอลลาร์สหรัฐ: การผลักดันให้เกิดระบบนิเวศฮาร์ดแวร์ AI ทางเลือก
สิ่งนี้ไม่เพียงแต่ช่วยให้ผู้ผลิตหน่วยความจำของจีนกลายเป็นผู้เล่นหลักในตลาดฮาร์ดแวร์ AI ทั้งในจีนและทั่วโลก แต่ยังช่วยลดความต้องการทรัพยากรโดยพื้นฐาน ทำให้การฝึกอบรมและการให้บริการโมเดล AI มีประสิทธิภาพด้านต้นทุนมากขึ้น ด้วยวิธีนี้ ผู้ผลิต GPU, ASIC และชิปเครือข่ายต่างๆ จึงมีโอกาสกลายเป็นทางเลือกที่เป็นไปได้
ในขณะเดียวกัน นวัตกรรมเหล่านี้ยังจะเป็นประโยชน์ต่อระบบนิเวศโอเพนซอร์สของตะวันตก รวมถึงผู้ผลิตฮาร์ดแวร์รุ่นใหม่
ทุกสัญญาณที่เกี่ยวข้องได้ปรากฏขึ้นแล้ว ลองย้อนกลับไปพิจารณาความสร้างสรรค์ที่ DeepSeek ได้เสนอมาจนถึงตอนนี้:
1. โมเดลผสมผสานผู้เชี่ยวชาญ (MoE) และ MLA ที่นำเข้าสู่ DeepSeek V2
DeepSeek ได้แนะนำ MoE และ MLA ใน V2 โดย MoE ช่วยลดปริมาณการคำนวณที่จำเป็นสำหรับการฝึกโมเดลที่มีปัญญาสูงลงประมาณ 40% ถึง 50% ในขณะที่ MLA ช่วยลด KV Cache ลง 90%
ทำให้การถ่ายโอน KV Cache ไปยัง SSD มีประสิทธิภาพค่อนข้างสูง
ความคิดเหล่านี้ปรากฏครั้งแรกในเอกสารวิจัย DeepSeek V2 ที่ DeepSeek เปิดตัวในเดือนพฤษภาคม 2024 ต่อมา ความคิดเหล่านี้ยังเป็นพื้นฐานในการฝึก DeepSeek V3 ในขณะนั้น DeepSeek สามารถฝึกระบบซึ่งมีประสิทธิภาพใกล้เคียงกับโมเดลแบบปิดโดยใช้ GPU H800 ที่มีประสิทธิภาพลดลงเพียง 2048 ตัวเท่านั้น

2. DSA: ถูกนำมาใช้ใน DeepSeek V3.2 Exp เพื่อลดภาระการคำนวณในสถานการณ์บริบทยาว และช่วยบรรเทาแรงดันบนแบนด์วิดธ์ของ HBM
บทบาทหลักของ DSA คือการรับประกันว่าปริมาณการคำนวณจะไม่เพิ่มขึ้นอย่างต่อเนื่องตามความยาวของบริบท ดูกราฟด้านล่าง: เมื่อความยาวของบริบทเพิ่มขึ้น เวลาในการประมวลผลของ DeepSeek-V3.2 ยังคงอยู่ในระดับคงที่

3. mHC: DeepSeek ได้เสนอในปี 2025 บนบทความวิจัยเรื่อง “mHC: Manifold-Constrained Hyper-Connections”
mHC เป็นนวัตกรรมของ DeepSeek ในระดับสถาปัตยกรรมหลัก ที่ออกแบบการไหลของข้อมูลระหว่างชั้น Transformer ใหม่ทั้งหมด
ในอดีต ตั้งแต่ ResNet มา โมเดลมักใช้การเชื่อมต่อแบบ residual มาตรฐาน นั่นคือ x + F(x) แต่แนวทางของ mHC คือการขยายการไหลแบบ residual ให้เป็นช่องทางข้อมูลแบบขนานหลายช่องทาง และอนุญาตให้โมเดลผสมผสานระหว่างช่องทางเหล่านี้อย่างเรียนรู้ได้ จุดสำคัญคือ มันจะจำกัดเมทริกซ์การผสมให้เป็นเมทริกซ์แบบสองสุ่ม โดยการจำกัดให้อยู่บน Birkhoff polytope ผ่านการฉายผล Sinkhorn-Knopp ด้วยวิธีนี้ จึงสามารถรับประกันทางคณิตศาสตร์ได้ว่า ไม่ว่าโมเดลจะถูกวางซ้อนลึกแค่ไหน แอมพลิจูดของสัญญาณจะยังคงมีความเสถียร
สิ่งนี้แก้ไขปัญหาความไม่เสถียรแบบหายนะที่เกิดขึ้นกับ Hyper-Connections ที่ไม่มีข้อจำกัดก่อนหน้านี้ โดย Hyper-Connections เดิมถูกเสนอโดย ByteDance แต่ในกรณีที่ไม่มีข้อจำกัด สัญญาณจะขยายตัวขึ้นถึง 3,000 เท่าเมื่อขนาดพารามิเตอร์อยู่ที่ 27 พันล้าน ทำให้การฝึกอบรมล้มเหลวอย่างสมบูรณ์
ต้นทุนการคำนวณของ mHC ต่ำมาก: มันเพิ่มค่าใช้จ่ายเวลาในการฝึกอบรมเพียงประมาณ 6.7% เนื่องจากไม่ได้เปลี่ยน FLOPs ของชั้นความสนใจหรือชั้น FFN แต่เปลี่ยนเพียงวิธีการส่งผ่านผลลัพธ์ของชั้นเหล่านี้ระหว่างชั้น
แต่การปรับปรุงประสิทธิภาพที่เกิดขึ้นนั้นชัดเจนมาก: ในขนาดพารามิเตอร์ 27 พันล้าน ค่า mHC เพิ่มขึ้น 7.2 คะแนนในงานสรุปผล BIG-Bench Hard, เพิ่มขึ้น 3.2 คะแนนใน DROP, เพิ่มขึ้น 2.8 คะแนนในงานคณิตศาสตร์ GSM8K และเพิ่มขึ้น 1.4 คะแนนในงานความรู้ทั่วไป MMLU โดยการปรับปรุงเหล่านี้เกิดขึ้นภายใต้ขนาดโมเดลเดียวกันและงบประมาณการคำนวณใกล้เคียงกัน
โดยพื้นฐานแล้ว mHC บรรลุความฉลาดต่อพารามิเตอร์หนึ่งหน่วยที่สูงขึ้น โดยการจัดให้มีโครงสร้างการส่งข้อมูลข้ามชั้นที่หลากหลายและสื่อสารได้ดีขึ้น โดยแทบไม่เพิ่ม FLOPs เพิ่มเติม

mHC เป็นการออกแบบสถาปัตยกรรมที่ซับซ้อน แต่สามารถให้กระบวนการฝึกอบรมที่เสถียรยิ่งขึ้น และปัญญาต่อพารามิเตอร์หน่วยสูงขึ้น
4, CSA, HSA: DeepSeek ได้แนะนำใน V4 เมื่อเดือนเมษายน 2026
เป้าหมายของ CSA และ HSA คือการลดความต้องการ KV Cache อีก 90% โดยการบีบอัด KV Token พร้อมทั้งลด FLOPs ที่จำเป็นอย่างมาก เพื่อบรรเทาภาระบน HBM รวมถึง GPU/ASIC

5. Engram: ถูกนำเข้าโดย DeepSeek ในไตรมาสแรกของปี 2026 โดยพื้นฐานแล้วเป็นการแลกเปลี่ยนประสิทธิภาพการคำนวณด้วยหน่วยความจำ นั่นคือหน่วยความจำ LPDDR
ดังแสดงในตารางรายละเอียดด้านล่าง ในกรณีที่งบประมาณพารามิเตอร์ทั้งหมดเท่ากัน Engram ได้นำเสนอการปรับปรุงประสิทธิภาพอย่างชัดเจน

6. Engram: ถูกนำเข้าโดย DeepSeek ในไตรมาสแรกของปี 2026 โดยพื้นฐานแล้วเป็นการแลกเปลี่ยนประสิทธิภาพการคำนวณด้วยหน่วยความจำ นั่นคือหน่วยความจำ LPDDR
ดังแสดงในตารางรายละเอียดด้านล่าง ในกรณีที่งบประมาณพารามิเตอร์ทั้งหมดเท่ากัน Engram ได้นำเสนอการปรับปรุงประสิทธิภาพอย่างชัดเจน

นี่คือคำแนะนำที่ DeepSeek แชร์กับผู้ผลิตฮาร์ดแวร์ในเอกสาร V4 ฉันแน่ใจว่าในการพูดคุยแบบตัวต่อตัว พวกเขาจะให้ข้อเสนอแนะเพิ่มเติมอีก
7. การลงทุนใน TileLang ก็ชี้ไปในทิศทางเดียวกัน: DeepSeek ไม่ได้แค่แก้ปัญหาข้อจำกัดด้านกำลังการประมวลผลของตนเอง แต่กำลังผลักดันให้ระบบนิเวศฮาร์ดแวร์ของจีนสามารถแข่งขันกับระบบนิเวศของตะวันตกได้
ด้วย TileLang นักพัฒนาสามารถเขียน kernel ซึ่งเป็นรหัสพื้นฐานสำหรับการคำนวณเพียงครั้งเดียว จากนั้นให้มันทำงานได้บนแพลตฟอร์มฮาร์ดแวร์หลายแห่ง โดยมีเงื่อนไขว่าแพลตฟอร์มเหล่านั้นมีการสนับสนุน TileLang backend ที่เหมาะสม
ฉันคาดว่าห้องปฏิบัติการ AI ของจีนอื่นๆ จะตามเข้าร่วมทีละแห่ง ซึ่งจะช่วยให้ผู้ผลิตฮาร์ดแวร์ของจีนรับมือกับ “แนวป้องกัน CUDA” อย่างไม่เป็นทางการ พร้อมกันนี้ยังจะปลดปล่อยศักยภาพของฮาร์ดแวร์ตะวันตกเพิ่มเติม เช่น AMD
ควรระบุว่า แพลตฟอร์มฮาร์ดแวร์ AI หลายแห่งในจีนได้ให้ความสามารถที่เข้ากันได้กับ CUDA หรือชั้นแปลง CUDA แล้ว เช่น Moore Threads, Musen, Birun และ TianShu Zhixing ล้วนเป็นผู้ผลิตชิปจีนที่บรรลุความเข้ากันได้กับ CUDA ผ่านชั้นแปลง ดังนั้นในเชิงทฤษฎี พวกเขาจึงไม่จำเป็นต้องใช้ TileLang

การเรียนรู้แบบเสริมแรงในระดับใหญ่และ RSI
เมื่อ DeepSeek ได้รับแหล่งพลังการคำนวณเพิ่มเติม หรือมีฮาร์ดแวร์ทางเลือกมากขึ้น พร้อมกับความต้องการทรัพยากรการคำนวณของโมเดลลดลง มันจึงสามารถขับเคลื่อนโครงการฝึกอบรมที่ทะเยอทะยานมากขึ้น โดยเฉพาะการฝึกอบรมหลังการเรียนรู้แบบเสริมแรง
การเรียนรู้แบบเสริมแรงต้องการการสร้างเส้นทางจำนวนมาก ซึ่งหมายถึงการสร้างทรัพยากรจำนวนหลายล้านล้านโทเค็น กระบวนการนี้จะกลายเป็นค่าใช้จ่ายสูงมากอย่างรวดเร็ว ยิ่งไปกว่านั้น หากต้องการฝึกโมเดลที่มีความยาวบริบท 1 ล้าน จำเป็นต้องสร้างเส้นทางที่มีความยาวเท่ากัน เฉพาะบนเส้นทางที่ยาวพิเศษเหล่านี้เท่านั้นที่โมเดลจะสามารถรองรับงานระยะยาวได้อย่างแท้จริง
นอกจากนี้ เนื่องจากตัวเลือกฮาร์ดแวร์เพิ่มขึ้น DeepSeek จะสามารถเข้าถึงทรัพยากรฮาร์ดแวร์ได้มากขึ้น ซึ่งจะผลักดันการวิจัยอัตโนมัติ หรือที่เรียกว่า RSI RSI หมายถึง AI ที่ออกแบบและดำเนินการทดลองด้วยตนเองเอง วิธีการนี้จะเกี่ยวข้องกับการทดลองผิดพลาดจำนวนมาก และค่าใช้จ่ายจะเพิ่มขึ้นอย่างรวดเร็ว แต่ RSI มีความสำคัญอย่างยิ่งต่อการสำรวจพื้นที่การออกแบบโมเดลอย่างครบถ้วน ก่อนที่ DeepSeek จะก้าวสู่ AGI และต่อมาสู่ ASI จำเป็นต้องมีความสามารถด้าน RSI
สิ่งที่ DeepSeek ทำวันนี้ ทั้งอุตสาหกรรมจะตามมาพรุ่งนี้
การสร้างนวัตกรรมของ DeepSeek ในด้านโมเดลแบบผสมผสานผู้เชี่ยวชาญ MLA DSA ฯลฯ ได้รับการนำไปใช้โดยห้องปฏิบัติการ AI อื่นๆ ทั่วโลกและในจีนตามลำดับ
ตัวอย่างเช่น ZAI ผู้พัฒนาโมเดลซีรีส์ GLM ได้ใช้ MLA และ DSA เช่นกัน Kimi หรือที่รู้จักในชื่อ Moonshot ก็ใช้ MLA และเปิดเผยอย่างชัดเจนว่าสถาปัตยกรรมของมันถูกออกแบบมาบนพื้นฐานของสถาปัตยกรรม DeepSeek ในทางกลับกัน DeepSeek ก็ใช้ตัวปรับแต่ง Muon ซึ่ง Muon ถูกใช้ครั้งแรกโดย Kimi (Moonshot) ในการฝึกขนาดใหญ่
โปรดทราบว่า:
MoE ถูกเสนอครั้งแรกโดย Google ในปี 2017 โดยผู้เขียนหลักคือ Noam Shazeer บทบาทของ DeepSeek คือการประยุกต์ใช้ MoE ในขนาดใหญ่ และคิดค้นเทคนิคเฉพาะของตนเอง
Muon คือ Optimizer ที่ถูกปรับให้เป็นออร์โธโกนอลโดย Newton-Schulz ซึ่งถูกเสนอโดยนักวิจัยด้านการเรียนรู้ของเครื่อง Keller Jordan ในปลายปี 2024 ทีม Kimi (Moonshot) เป็นทีมแรกที่นำมันไปใช้ในการฝึกขนาดใหญ่
แล้วปัญหาเรื่องการหารายได้ล่ะ?
เราสามารถดูตัวอย่างที่น่าสนใจของ OpenAI ได้
OpenAI ได้รับตัวเลือกซื้อหุ้นของ AMD และ Cerebras ในราคาต่ำกว่า ซึ่งผูกกับระยะทางการใช้พลังการประมวลผลของพวกเขา สำหรับ AMD และ Cerebras นี่เป็นข้อตกลงที่คุ้มค่ามาก เพราะเมื่อ OpenAI สัญญาใช้ฮาร์ดแวร์ของพวกเขา ความเป็นไปได้ในการประสบความสำเร็จในระยะยาวของพวกเขาจะเพิ่มขึ้นอย่างมาก
ในประกาศของ AMD มีข้อความดังนี้:
ในฐานะส่วนหนึ่งของข้อตกลง เพื่อประสานผลประโยชน์เชิงกลยุทธ์ระหว่างสองฝ่ายเพิ่มเติม AMD ได้ออกใบเรียกเก็บหุ้นสามัญของ AMD จำนวนสูงสุด 160 ล้านหุ้น ซึ่งจะค่อยๆ ตกเป็นของ OpenAI ตามการบรรลุเป้าหมายเฉพาะบางประการ ชุดแรกจะตกเป็นของเมื่อการติดตั้งเริ่มต้น 1 กิกะวัตต์เสร็จสมบูรณ์ และชุดถัดไปจะค่อยๆ ตกเป็นของเมื่อการซื้อเพิ่มขึ้นถึง 6 กิกะวัตต์ เงื่อนไขการตกเป็นของยังเชื่อมโยงกับการที่ AMD บรรลุเป้าหมายราคาหุ้นเฉพาะ และการที่ OpenAI บรรลุเป้าหมายทางเทคโนโลยีและธุรกิจที่จำเป็นสำหรับการติดตั้งขนาดใหญ่ของ AMD

ฉันคาดว่า DeepSeek จะบรรลุข้อตกลงแบบเดียวกันกับผู้ผลิตฮาร์ดแวร์จีนหลายรายที่เกี่ยวข้องกับหน่วยความจำ ASIC CPU และสแต็กเทคโนโลยีเครือข่าย และร่วมมืออย่างลึกซึ้งกับพวกเขาเพื่อให้สแต็กฮาร์ดแวร์ของผู้ผลิตเหล่านี้สามารถรองรับภาระงาน AI ชั้นนำได้
เมื่อพิจารณาถึงมูลค่าตลาดรวมของหุ้น AI ทั้งหมดจากตะวันตก รวมถึงพันธมิตรในเอเชียตะวันออก ซึ่งได้เกิน 10 ล้านล้านดอลลาร์สหรัฐแล้ว วิธีการ “ร่วมมือเพื่อรับผลตอบแทนจากหุ้น” นี้จะให้โอกาส DeepSeek ช่วยจีนสร้างอุตสาหกรรมที่มีขนาดใหญ่เทียบเท่ากัน และได้รับส่วนแบ่งของตนเองในอุตสาหกรรมนี้ เพื่อให้บรรลุมูลค่าการประเมิน 1 ล้านล้านดอลลาร์สหรัฐ
สิ่งนี้ไม่เพียงแต่จะทำให้ DeepSeek ทำเงินได้มากกว่ารายได้จากธุรกิจการสมัครใช้งานแอปพลิเคชันแบบดั้งเดิมอย่างมาก แต่ยังสามารถบรรลุเป้าหมายที่กล่าวว่า “ทำให้ AGI เข้าถึงทุกคน” ได้อีกด้วย หลิว เหวินเฟิงเป็นแฟนตัวยงของ Jim Simons และเป็นนักลงทุนที่ฉลาดพอที่จะไม่พลาดจุดนี้
ถ้าคุณย้อนกลับไปดูสิ่งที่ DeepSeek ได้ทำมาจนถึงตอนนี้ การตีความเดียวที่มีเหตุผลที่สุดคือ

นี่คือหุ้น AI หลักๆ ยังไม่ได้รวมถึง hyperscalers หรือผู้ให้บริการคลาวด์ขนาดใหญ่มาก และบริษัทที่เกี่ยวข้องอีกหลายแห่ง
