กลยุทธ์มูลค่า 10 ล้านล้านดอลลาร์ของ DeepSeek: แหล่งเปิดและระบบนิเวศฮาร์ดแวร์ปัญญาประดิษฐ์

กลยุทธ์ขนาด 10 ล้านล้านดอลลาร์สหรัฐของ DeepSeek

ผู้เขียนต้นฉบับ: @bookwormengr

Peggy, BlockBeats

บรรณาธิการ: ในปีที่ผ่านมา การอภิปรายเกี่ยวกับ DeepSeek ส่วนใหญ่มุ่งเน้นไปที่ประสิทธิภาพของโมเดล กลยุทธ์การเปิดแหล่งที่มา และการแข่งขันด้านราคา แต่หากเข้าใจ DeepSeek แค่จากมุมมองว่า “จะขายแบบสมัครสมาชิกหรือไม่” “มีความสามารถแบบมัลติโมดัลหรือไม่” “สามารถทำหน้าที่เป็นตัวแทนการเขียนโค้ดได้หรือไม่” อาจทำให้ประเมินต่ำเกินไปถึงสิ่งที่มันต้องการเปลี่ยนแปลงอย่างแท้จริง

บทความนี้เสนอการตีความที่รุนแรงกว่า: เป้าหมายของ DeepSeek อาจไม่ใช่การสร้างรายได้ผ่านชั้นแอปพลิเคชันในระยะสั้น แต่คือการเปลี่ยนโครงสร้างต้นทุนของการฝึกอบรมและการอนุมาน AI ผ่านนวัตกรรมด้านสถาปัตยกรรมพื้นฐาน และส่งเสริมการเกิดขึ้นของระบบนิเวศฮาร์ดแวร์ใหม่อย่างอ้อมๆ ตั้งแต่ MoE, MLA ไปจนถึง DSA, CSA, mHC, Engram รวมถึง Dual Path และ TileLang เส้นทางเทคโนโลยีของ DeepSeek ยังคงหมุนรอบคำถามหลักเดียว: ในเมื่อ HBM, เทคโนโลยีการผลิตขั้นสูง, การแพ็คเกจ และระบบนิเวศ CUDA มีข้อจำกัด ควรใช้พลังการประมวลผลระดับสูงที่น้อยลงอย่างไรจึงจะสามารถรันโมเดลที่แข็งแกร่งกว่าได้

สิ่งที่น่าจับตามองที่สุดในบทความนี้ ไม่ใช่ “DeepSeek จะสามารถหารายได้หลายพันล้านดอลลาร์สหรัฐผ่าน API หรือการสมัครสมาชิกได้หรือไม่” แต่คือการที่มันกำลังผูกความสามารถของโมเดล ระบบหน่วยความจำ และระบบนิเวศฮาร์ดแวร์ภายในประเทศเข้าด้วยกัน การบีบอัด KV Cache ลดการพึ่งพา HBM NAND และ SSD สามารถรับหน้าที่เก็บแคชระยะยาว LPDDR สามารถใช้สำหรับการโหลดน้ำหนักแบบสตรีมและเก็บ Engram ส่วน TileLang พยายามลดความได้เปรียบของ CUDA หากนวัตกรรมเหล่านี้ยังคงแพร่กระจายต่อไป ผู้ได้รับประโยชน์จะไม่ใช่แค่ DeepSeek เอง แต่ยังรวมถึงอุตสาหกรรมการจัดเก็บข้อมูล ASIC GPU ชิปเครือข่าย และทั้งห่วงโซ่โครงสร้างพื้นฐานด้าน AI

แน่นอน การประเมินเกี่ยวกับ "ระบบนิเวศอุตสาหกรรมมูลค่า 10 ล้านล้านดอลลาร์สหรัฐ" และ "มูลค่าบริษัท 1 ล้านล้านดอลลาร์สหรัฐ" ยังคงมีลักษณะการคาดการณ์ค่อนข้างสูง แต่มันให้เส้นทางสำคัญในการเข้าใจ DeepSeek: การเปิดแหล่งรหัสไม่ได้หมายความว่าต้องละทิ้งการสร้างรายได้ และราคาต่ำไม่ได้หมายความว่าเป็นเพียงการอุดหนุนตลาดเท่านั้น สำหรับ DeepSeek ธุรกิจที่แท้จริงอาจไม่ได้อยู่ที่ชั้นแอปพลิเคชัน แต่อยู่ที่การช่วยให้อุปกรณ์ฮาร์ดแวร์จำนวนมากสามารถใช้งานได้ และทำให้การจัดหา AI ต้นทุนต่ำกว่าเป็นไปได้ พูดอีกแบบหนึ่งคือ สิ่งที่มันขายอาจไม่ใช่โมเดลโดยตรง แต่เป็นความเป็นไปได้ของโครงสร้างพื้นฐาน AI รุ่นถัดไป

以下为原文：

ChangXin Memory

คุณเคยคิดไหมว่า DeepSeek จะทำเงินได้อย่างไร และอาจทำเงินได้มากเสียด้วย?

มันไม่มีแผนการสมัครสมาชิกสำหรับการเขียนโปรแกรมที่มีความสามารถแข่งขันได้เหมือน GLM, MoonShot และ MiniMax; ยังไม่มีโมเดลหลายโมดัล, เสียง หรือวิดีโอ จนถึงตอนนี้ มันยังไม่มี harness ของตัวเอง ซึ่งเป็นกรอบการทำงานชั้นนอกสำหรับการเรียกใช้โมเดล การเชื่อมต่อเครื่องมือ และการดำเนินงานภารกิจ — แม้ว่าพวกเขาเพิ่งเริ่มรับสมัครตำแหน่งที่เกี่ยวข้องเพื่อสร้างระบบนี้

ในขณะเดียวกัน DeepSeek ดูเหมือนจะยังคงยืนหยัดอย่างมั่นคงบนฝั่งโอเพนซอร์ส จนถึงขั้นยินดีแบ่งปัน “เคล็ดลับ” ของตนเองอย่างเปิดเผย นี่ไม่ใช่เรื่องบ้าบอหรือ? ไม่ใช่การเผาเงินโดยไม่ได้ผลหรือ? นักลงทุนที่เตรียมลงทุน 10,000 ล้านดอลลาร์สหรัฐกับมัน ไม่ใช่กำลังทิ้งเงินลงสู่ท่อระบายน้ำหรือ?

ฉันคิดว่าคำตอบกลับกัน

ต่อไปนี้ ผมจะนำเสนอข้อสังเกตบางประการเกี่ยวกับสิ่งที่ DeepSeek ได้ทำมาจนถึงตอนนี้ และวิเคราะห์กลยุทธ์ที่ดูเหมือนว่าพวกเขากำลังดำเนินตาม เป้าหมายของหัวหน้า DeepSeek เหลียง เวิ่นฟง อาจไม่ได้จำกัดอยู่แค่การแข่งขันของโมเดลในปัจจุบัน แต่เขาอาจมุ่งไปที่รางวัลที่ใหญ่กว่านั้น: DeepSeek มีโอกาสก้าวเข้าสู่มูลค่าบริษัท 1 ล้านล้านดอลลาร์สหรัฐ พร้อมผลักดันให้เกิดอุตสาหกรรมใหม่ที่มีขนาดถึง 10 ล้านล้านดอลลาร์สหรัฐ

ChangXin Memory

TechInAsia รายงานเกี่ยวกับการระดมทุนรอบล่าสุดของ DeepSeek

กลับไปเยี่ยมชม "การเดินทางของวีรบุรุษ" ของ DeepSeek

DeepSeek 一直在逆风而行。它没有选择不断推出稍强一点的模型，然后急于将它们包装成可直接变现的应用，例如编程订阅方案。2025 年 1 月 27 日，我曾发布一条广为传播的推文，讲述我眼中 DeepSeek 的「英雄之旅」。如今，这个故事变得更加有趣了。

ขณะที่ผู้อื่นยังคงพยายามพัฒนาโมเดลที่หนาแน่น DeepSeek ได้เลือกใช้โมเดลแบบผสมผสานผู้เชี่ยวชาญ (Mixture of Experts, MoE) ที่ยากกว่าในการฝึกอบรม

พวกเขาใช้วิธีการตามหลักการพื้นฐานแรก สร้างอัลกอริธึม GRPO ใหม่ เพื่อแทนที่อัลกอริธึมการเรียนรู้แบบเสริมแรง PPO ที่เป็นที่นิยมในขณะนั้นแต่มีต้นทุนการดำเนินการสูงกว่า

พวกเขาพบว่า การเรียนรู้ผ่านการเสริมแรงจากรางวัลที่สามารถตรวจสอบได้ (Reinforcement Learning from Verified Rewards, RLVR) เป็นกลยุทธ์สำคัญในการเพิ่มความสามารถในการให้เหตุผลของโมเดล

พวกเขายังเสนอกลยุทธ์การเดาแบบง่ายผ่านการคาดการณ์หลายโทเค็น (Multi Token Prediction) พร้อมกับทำให้สัญญาณการฝึกอบรมเข้มข้นขึ้น

พวกเขาได้ปรับปรุงสายการผลิต «ZERO bubble» เพื่อเพิ่มประสิทธิภาพการใช้งานทรัพยากร GPU ที่มีจำกัด

พวกเขาเปิดตัวผู้เชี่ยวชาญด้านการกระจายโหลด ทำให้ทุกคนสามารถปรับใช้โมเดล MoE ได้ง่ายขึ้น โดยเฉพาะผ่านกลยุทธ์ “กว้างผู้เชี่ยวชาญขนาน” (Wide Expert Parallel) ซึ่งโมเดลสามารถให้บริการด้วย batch ขนาดใหญ่ขึ้น ลดต้นทุนการอนุมานอย่างมาก

พวกเขาได้พัฒนา cơ chếต่างๆ เช่น MLA, DSA, CSA, HCA เพื่อลดความต้องการ KV Cache และทำให้ความต้องการการคำนวณที่เพิ่มขึ้นตามความยาวของบริบทยังคงใกล้เคียงกับค่าคงที่

พวกเขาได้คิดค้น Engram ซึ่งแลกหน่วยความจำเพื่อเพิ่มประสิทธิภาพการคำนวณ

พวกเขายังพัฒนา mHC ซึ่งช่วยให้สามารถฝึกโมเดลได้อย่างมั่นคงแม้จะขยายขนาดโมเดล ตัวอย่างอื่นๆ อีกมากมาย

ในโครงเรื่องที่พบได้บ่อยที่สุดคือ “การเดินทางของวีรบุรุษ” วีรบุรุษไม่เคยตัดสินใจตั้งแต่แรกว่าการเดินทางของตนจะนำไปสู่ที่ใด เขาค่อยๆ ค้นพบภารกิจอันยิ่งใหญ่แท้จริงของตนผ่านการเรียนรู้ตลอดทาง และบรรลุมันแม้จะเผชิญอุปสรรคมากมาย เขาจะพบผู้ตั้งคำถามมากมาย แต่เขาเลือกที่จะไม่สนใจพวกเขา เขายังจะพบผู้กระทำในทางที่ไม่ดีมากมาย เขามีข้อบกพร่องหรือจุดอ่อนที่ชัดเจน แต่ในที่สุดก็สามารถเอาชนะปัญหาเหล่านั้นและ hoàn thànhภารกิจของตน เขาเผชิญกับความท้าทายที่ดูเหมือนไม่สามารถข้ามพ้นได้ แต่กลับสามารถหาทางสร้างพันธมิตรและเรียนรู้วิธีใช้ทรัพยากรที่จำกัดและมีค่าอย่างชาญฉลาด นี่เองคือสิ่งที่ทำให้ผู้ชมยินดีสนับสนุนวีรบุรุษ และนี่คือเหตุผลที่ DeepSeek ได้รับผู้ติดตาม ความเคารพจากทั่วโลก และความเป็นศัตรู

ดังที่ฉันจะอธิบายอย่างละเอียดในภายหลัง DeepSeek ได้เดินทางมาบนเส้นทางนี้มานานแล้ว และค่อยๆ ค้นพบ命运สุดท้ายของตัวเอง: เป้าหมายของมันไม่ใช่การขายแผนสมัครใช้งานด้านการเขียนโปรแกรม แต่คือการผลักดันระบบนิเวศฮาร์ดแวร์ AI ของจีนที่มีมูลค่า 10 ล้านล้านดอลลาร์สหรัฐ และทำให้ตัวเองมีมูลค่า 1 ล้านล้านดอลลาร์สหรัฐ ในกระบวนการนี้ มันยังจะสร้างโอกาสให้กับผู้เข้าร่วมใหม่จำนวนมากในระบบนิเวศฮาร์ดแวร์ของตะวันตก

ChangXin Memory

เริ่มต้นด้วยการคำนวณ KV Cache ที่น่าสนใจบางอย่าง

โปรดดูทวีตล่าสุดที่ทันเวลาของ @SemiAnalysis_:

ChangXin Memory

DeepSeek ได้แก้ปัญหานี้ได้ดีกว่าใครๆ แล้ว!

มาคำนวณ KV Cache กันสักนิดให้สนุกก่อน อย่ากังวล แม้ว่าคุณจะไม่ชอบคณิตศาสตร์ก็ตาม เราจะใช้เครื่องคำนวณ KV Cache ที่เพิ่งเปิดตัว เพื่อดูว่า DeepSeek V4 Pro จะช่วยประหยัด KV Cache ได้เท่าใด และเปรียบเทียบกับโมเดล GLM และ Qwen รุ่นล่าสุด

ที่นี่ฉันคำนวณด้วยความยาวบริบท 1 ล้าน สมมติว่าความแม่นยำของ KV คือ 8 บิต และความแม่นยำของตัวดัชนีคือ 16 บิต คุณสามารถเปิดเครื่องคำนวณนี้เองได้:https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

คุณยังสามารถเปิดเครื่องคิดเลขของตัวเองเพื่อทดลองดูได้!

ที่ความยาวบริบท 1 ล้าน:

·DeepSeek V4 ต้องการเพียง 5.48GB HBM;

·GLM-5 ต้องการ HBM 60GB;

·Qwen3-235B-A22B ต้องการ HBM สูงถึง 89GB

โปรดสังเกตว่า:

·DeepSeek เป็นโมเดลที่มีพารามิเตอร์ 1.6 ล้านล้านค่า;

·GLM-5 มีพารามิเตอร์ประมาณ 7 แสนล้าน และได้รับการใช้งาน MLA และ DSA ของ DeepSeek แล้ว แต่ยังไม่ได้ใช้กลไกการให้ความสำคัญแบบบีบอัดล่าสุด;

·Qwen3-235B-A22B มีพารามิเตอร์ประมาณ 235,000 ล้านตัว และใช้กลไกการให้ความสนใจแบบ GQA

DeepSeek ได้สร้างผลงานพื้นฐานในการลดภาระหน่วยความจำ หากนวัตกรรมประเภทนี้ได้รับการนำไปใช้อย่างแพร่หลาย จะช่วยลดต้นทุนการดำเนินงานของ Agent ระยะยาวอย่างมาก และเปิดโอกาสให้เกิดแอปพลิเคชันใหม่ๆ ชุดถัดไป

ChangXin Memory

เปรียบเทียบการใช้งาน KV Cache ภายใต้บริบท Token 1 ล้านและขนาดโมเดล

วิธีการเบื้องหลังความบ้าคลั่ง

เหตุผลที่ KV Cache สามารถมีขนาดเล็กมากได้โดยไม่ลดทอนคุณภาพของโมเดล คือ DeepSeek สามารถให้บริการแคชระยะยาวในราคาต่ำมาก—ราคาต่ำกว่า 3% ของราคาแคชที่ Sonnet 4.6 เรียกเก็บ และ DeepSeek สามารถเก็บแคชไว้ได้นานหลายชั่วโมง

สำหรับงานที่มีช่วงเวลายาว การใช้ KV Cache ขนาดเล็กหมายถึงสามารถถ่ายโอนไปยัง SSD ได้อย่างมีประสิทธิภาพมากขึ้นและโหลดกลับมาเมื่อจำเป็น ซึ่งจะช่วยลดการพึ่งพา HBM จากมุมมองของอุตสาหกรรมฮาร์ดแวร์ AI ของจีน HBM ไม่เพียงแต่มีอุปทานจำกัด แต่ยังเป็นหนึ่งในประเภทหน่วยความจำที่ยากที่สุดในการผลิต

นอกจากนี้ DeepSeek ยังพัฒนาเทคโนโลยีในการโหลด KV Cache จาก SSD ได้เร็วขึ้น ซึ่งได้รับการอธิบายไว้ในเอกสาร Dual Path

ChangXin Memory

DeepSeek V4 บีบอัด KV Cache ได้มากจนขั้นตอนนี้อาจไม่จำเป็นอีกต่อไป

แล้วผู้ได้รับประโยชน์โดยตรงจากความกดทับ KV Cache คือใคร?

ใครกำลังจัดหา SSD ในปริมาณใหญ่? อย่าลืมว่า YMTC (Yangtze Memory Technologies) กำลังเติบโตขึ้นเป็นผู้นำในด้าน 3D NAND NAND สามารถช่วย DeepSeek หลีกเลี่ยงการคำนวณซ้ำของ KV ทั้งนี้ DeepSeek ก็สร้างตลาดขนาดใหญ่สำหรับ NAND และ SSD — ซึ่งไม่เพียงแต่จะช่วยให้ Yangtze Memory Technologies เกิดประโยชน์เท่านั้น แต่ยังช่วยให้ผู้ผลิตที่เกี่ยวข้องอื่นๆ ได้รับประโยชน์ด้วย

ChangXin Memory

อย่างไรก็ตาม สิ่งนี้ไม่ได้เกี่ยวข้องแค่ NAND และ SSD เท่านั้น

หน่วยความจำ LPDDR ก็มีศักยภาพที่ยิ่งใหญ่เช่นกัน มันสามารถใช้เป็นที่เก็บน้ำหนักของโมเดล และถ่ายโอนน้ำหนักเหล่านี้แบบสตรีมไปยัง HBM เมื่อจำเป็น ซึ่งจะช่วยลดแรงกดดันต่อความต้องการ HBM ทีม SGLang ได้เผยแพร่บล็อกโพสต์ที่ดีมากเกี่ยวกับหัวข้อนี้ รูปด้านล่างแสดงวิธีการทำงานของแนวทางนี้

แม้ว่า DeepSeek จะไม่ได้ออกแบบมาโดยเฉพาะสำหรับแผนการนี้ แต่สถาปัตยกรรม MoE ของมัน ซึ่งมีโมเดลผู้เชี่ยวชาญจำนวนมากอยู่แล้ว รวมถึงคุณสมบัติของน้ำหนัก 4 บิต ทำให้แผนการนี้สามารถนำไปใช้งานได้ง่ายขึ้น

ChangXin Memory

แผนภาพนี้แสดงให้เห็นถึงวิธีที่หน่วยความจำอาจถูกใช้งาน และน้ำหนักของโมเดลจะถูกสตรีมจาก LPDDR ไปยัง HBM อย่างไร ขอแนะนำให้ทุกคนอ่านบล็อกของ SGLang

การนวัตกรรมนี้ หากผสานกับ KV Cache ที่มีขนาดเล็กมากและไม่สูญเสียข้อมูล จะลดความต้องการ HBM อย่างมีนัยสำคัญ

แล้วใครในจีนผลิต LPDDR? คำตอบคือ CXMT หรือที่รู้จักในชื่อ ChangXin Memory Technologies พวกเขาล้าหลังเพียงประมาณครึ่งรุ่นในความเร็วของ LPDDR และล้าหลังหนึ่งรุ่นในความหนาแน่น ช่องว่างไม่ได้ใหญ่มาก

นอกจาก NAND ที่เพียงพอแล้ว ระบบนิเวศ AI ของจีนในอนาคตอันใกล้นี้也将มีปริมาณ LPDDR ที่เพียงพอ ซึ่งสามารถบรรเทาแรงกดดันด้านการประมวลผลได้หรือไม่? คำตอบคือ: ได้ โปรดอ่านต่อ

ChangXin Memory

การใช้หน่วยความจำอย่างชาญฉลาดยังสามารถลดภาระของ GPU / ASIC ได้

การใช้ NAND เพื่อจัดเก็บ KV Cache มีจุดประสงค์ที่เข้าใจได้ง่าย: มันช่วยให้ KV Cache คงอยู่ได้นานขึ้น ลดภาระบน HBM และหลีกเลี่ยงการคำนวณ KV Cache ซ้ำซ้อน ซึ่งช่วยลดภาระการคำนวณของ GPU และ ASIC

แล้ว LPDDR สามารถทำงานในลักษณะคล้ายกันได้ไหม? นอกจากจะทำหน้าที่เป็นตำแหน่งการจัดเก็บที่สามารถสตรีมน้ำหนักไปยัง HBM แบบ “ตามต้องการทันที” แล้ว มันยังสามารถลดภาระการคำนวณเพิ่มเติมได้อีกไหม?

คำตอบคือ: ได้

LPDDR สามารถใช้เก็บข้อมูลจำนวนมากที่เรียกว่า Engram ได้ ในบทความ Engram ของ DeepSeek พวกเขาชี้ให้เห็นว่า MoE สามารถขยายความจุของโมเดลผ่านการคำนวณตามเงื่อนไข แต่ Transformer เองกลับขาดกลไกการ “ค้นหาความรู้” แบบดั้งเดิม ดังนั้น Transformer มักจะต้องจำลองกระบวนการค้นหาอย่างไม่มีประสิทธิภาพผ่านการคำนวณ

เพื่อแก้ไขปัญหานี้ DeepSeek ได้เสนอโมดูล Engram ซึ่งทันสมัย hóa N-gram embedding แบบดั้งเดิมให้กลายเป็นกลไกการค้นหา O(1) ที่อิงจากแฮช สร้างเส้นทางการจำแนกแบบกระจายที่เสริมกัน ซึ่งพวกเขาเรียกว่า conditional memory

วิธีนี้สามารถช่วยประหยัดการคำนวณ แต่ต้องใช้หน่วยความจำเพื่อรองรับตาราง embedding ซึ่งตารางนี้อาจมีขนาดใหญ่มาก

โดยพื้นฐานแล้ว นี่คือแนวทางแบบคลาสสิกที่แลกหน่วยความจำเพื่อแลกการคำนวณ แต่การค้นพบที่สำคัญคือ: เมื่อพิจารณาจากต้นทุนการอ่านข้อมูลแต่ละบิต ด้าน “หน่วยความจำ” ถูกกว่ามาก—การค้นหา LPDDR หนึ่งครั้ง ถูกกว่ามากเมื่อเทียบกับการให้ข้อมูลผ่านหลายชั้นของ Transformer เพื่อทำการคำนวณแบบฟอร์เวิร์ดหนึ่งครั้ง ดังนั้น ในบริบทขนาดใหญ่ นี่จึงเป็นการแลกเปลี่ยนที่คุ้มค่ามาก

นี่คือวิธีที่ DeepSeek แลกการประหยัดการคำนวณด้วยการสละหน่วยความจำบางส่วน

ChangXin Memory

การแลกเปลี่ยนที่คุ้มค่า

เนื่องจากไม่มีความหนาแน่นของทรานซิสเตอร์ชิปในระดับเดียวกัน และไม่มี EUV ชิป GPU และ ASIC ของจีนจึงมีแนวโน้มที่จะตามหลัง GPU ของตะวันตกในแง่ของพลังการประมวลผล FLOPs อย่างต่อเนื่อง พวกมันยังคงมีช่องว่างที่ชัดเจนในด้านการแพ็กเกจขั้นสูง ดังนั้น การแลกเปลี่ยนเช่นนี้จึงคุ้มค่ามาก โดยเฉพาะอย่างยิ่งเมื่อจีนสามารถผลิตหน่วยความจำ NAND และ LPDDR ได้ในปริมาณมาก

ทบทวนกลยุทธ์ระยะยาวของ DeepSeek

จากนวัตกรรมเหล่านี้ เป็นที่ชัดเจนว่าเป้าหมายของ DeepSeek ไม่ใช่การสร้างกำไรหลายพันล้านดอลลาร์ในตอนนี้ ตัวเลือกหลายอย่างที่พวกเขาเคยตัดสินใจในอดีตแสดงให้เห็นถึงสิ่งนี้: จนถึงขณะนี้ยังไม่มีโมเดลแบบมัลติโมดัล ไม่มีโมเดลเสียง และยิ่งแต่โมเดลวิดีโอแล้วยิ่งไม่มีทางพูดถึง

สิ่งที่มันมีส่วนร่วมอย่างแท้จริง คือเกมระยะยาวที่ต้องใช้ความอดทน และอาจมีขนาดถึง 10 ล้านล้านดอลลาร์สหรัฐ: การผลักดันให้เกิดระบบนิเวศฮาร์ดแวร์ AI ทางเลือก

นี่ไม่เพียงแต่เป็นการผลักดันให้ผู้ผลิตหน่วยความจำของจีนกลายเป็นผู้เล่นหลักในตลาดฮาร์ดแวร์ AI ทั้งในจีนและทั่วโลก แต่ยังช่วยลดความต้องการทรัพยากรอย่าง从根本上 ทำให้การฝึกอบรมและการให้บริการโมเดล AI มีประสิทธิภาพด้านต้นทุนมากขึ้น ด้วยวิธีนี้ ผู้ผลิต GPU, ASIC และชิปเครือข่ายต่างๆ จึงมีโอกาสกลายเป็นทางเลือกที่เป็นไปได้

ในขณะเดียวกัน นวัตกรรมเหล่านี้ยังจะเป็นประโยชน์ต่อระบบนิเวศโอเพ่นซอร์สของตะวันตก รวมถึงผู้ผลิตฮาร์ดแวร์รุ่นใหม่

ทุกสัญญาณที่เกี่ยวข้องได้ปรากฏขึ้นแล้ว ลองย้อนกลับไปพิจารณาความเป็นนวัตกรรมที่ DeepSeek ได้เสนอมาจนถึงตอนนี้:

1. โมเดลผสมผสานผู้เชี่ยวชาญ (MoE) และ MLA ที่แนะนำใน DeepSeek V2

DeepSeek ได้แนะนำ MoE และ MLA ใน V2 โดย MoE ช่วยลดปริมาณการคำนวณที่จำเป็นสำหรับการฝึกโมเดลที่มีปัญญาสูงลงประมาณ 40% ถึง 50% ในขณะที่ MLA ช่วยลด KV Cache ลง 90%

ทำให้การถ่ายโอน KV Cache ไปยัง SSD มีประสิทธิภาพค่อนข้างสูง

ความคิดเหล่านี้ปรากฏครั้งแรกในเอกสารวิจัย DeepSeek V2 ที่ DeepSeek เปิดตัวในเดือนพฤษภาคม 2024 ต่อมา ความคิดเหล่านี้ยังเป็นพื้นฐานสำหรับการฝึก DeepSeek V3 ในขณะนั้น DeepSeek สามารถฝึกโมเดลที่มีประสิทธิภาพใกล้เคียงกับโมเดลแบบปิดโดยใช้ GPU H800 ที่มีประสิทธิภาพลดลงเพียง 2048 ตัวเท่านั้น

ChangXin Memory

2. DSA: ถูกนำมาใช้ใน DeepSeek V3.2 Exp เพื่อลดต้นทุนการคำนวณในสถานการณ์บริบทยาว และบรรเทาแรงดันแบนด์วิดธ์ของ HBM

บทบาทหลักของ DSA คือการรับประกันว่าปริมาณการคำนวณจะไม่เพิ่มขึ้นอย่างต่อเนื่องตามความยาวของบริบท ดูกราฟด้านล่าง: เมื่อความยาวของบริบทเพิ่มขึ้น เวลาในการประมวลผลของ DeepSeek-V3.2 ยังคงอยู่ในระดับคงที่

ChangXin Memory

3. mHC: DeepSeek ได้เสนอในปี 2025 ที่เอกสารวิจัยเรื่อง “mHC: Manifold-Constrained Hyper-Connections”

mHC เป็นนวัตกรรมของ DeepSeek ในระดับสถาปัตยกรรมหลัก ที่ออกแบบการไหลของข้อมูลระหว่างชั้น Transformer ใหม่ทั้งหมด

ในอดีต ตั้งแต่ ResNet มา โมเดลมักใช้การเชื่อมต่อแบบ residual มาตรฐาน นั่นคือ x + F(x) แต่ในวิธีการของ mHC นั้น ขยายการไหลแบบ residual ให้เป็นช่องทางข้อมูลแบบขนานหลายช่องทาง และอนุญาตให้โมเดลผสมผสานระหว่างช่องทางเหล่านี้อย่างสามารถเรียนรู้ได้ จุดสำคัญคือ มันจะจำกัดเมทริกซ์การผสมให้เป็นเมทริกซ์แบบสองสุ่ม โดยการจำกัดให้อยู่บน Birkhoff polytope ผ่านการฉายผล Sinkhorn-Knopp ด้วยวิธีนี้ จึงสามารถรับประกันทางคณิตศาสตร์ได้ว่า ไม่ว่าโมเดลจะถูกสร้างขึ้นลึกเพียงใด แอมพลิจูดของสัญญาณจะยังคงคงที่

สิ่งนี้แก้ไขปัญหาความไม่เสถียรอย่างรุนแรงที่เคยเกิดขึ้นกับ Hyper-Connections ที่ไม่มีข้อจำกัด โดย Hyper-Connections เดิมถูกเสนอโดย ByteDance แต่เมื่อไม่มีข้อจำกัด สัญญาณจะขยายตัวขึ้นถึง 3,000 เท่าที่ขนาดพารามิเตอร์ 27 พันล้าน ทำให้การฝึกอบรมล้มเหลวอย่างสมบูรณ์

ต้นทุนการคำนวณของ mHC ต่ำมาก: มันเพิ่มค่าใช้จ่ายเวลาในการฝึกอบรมเพียงประมาณ 6.7% เนื่องจากไม่ได้เปลี่ยน FLOPs ของชั้นความสนใจหรือชั้น FFN แต่เปลี่ยนเพียงวิธีการส่งออกของชั้นเหล่านี้ระหว่างชั้น

แต่การปรับปรุงประสิทธิภาพที่เกิดขึ้นนั้นชัดเจนมาก: ในขนาดพารามิเตอร์ 27 พันล้าน ค่า mHC เพิ่มขึ้น 7.2 คะแนนในงานสรุปผล BIG-Bench Hard, เพิ่มขึ้น 3.2 คะแนนใน DROP, เพิ่มขึ้น 2.8 คะแนนในงานคณิตศาสตร์ GSM8K และเพิ่มขึ้น 1.4 คะแนนในงานความรู้ทั่วไป MMLU การปรับปรุงเหล่านี้เกิดขึ้นภายใต้ขนาดโมเดลเดียวกันและงบประมาณการคำนวณใกล้เคียงกัน

โดยพื้นฐานแล้ว mHC บรรลุความฉลาดต่อพารามิเตอร์หนึ่งหน่วยที่สูงขึ้น โดยการจัดหาโทโพโลยีการส่งข้อมูลข้ามชั้นที่อุดมสมบูรณ์และสื่อสารได้ดีกว่า โดยแทบไม่เพิ่ม FLOPs เพิ่มเติม

ChangXin Memory

mHC เป็นการออกแบบสถาปัตยกรรมที่ซับซ้อน แต่สามารถให้กระบวนการฝึกอบรมที่เสถียรมากขึ้น และปัญญาต่อพารามิเตอร์หน่วยสูงขึ้น

4, CSA, HSA: DeepSeek ได้แนะนำใน V4 เมื่อเดือนเมษายน 2026

เป้าหมายของ CSA และ HSA คือการลดความต้องการ KV Cache อีก 90% โดยการบีบอัด KV Token พร้อมทั้งลด FLOPs ที่จำเป็นอย่างมาก เพื่อคลี่คลายภาระบน HBM รวมถึง GPU/ASIC

ChangXin Memory

5. Engram: ถูกนำเข้าโดย DeepSeek ในไตรมาสแรกของปี 2026 โดยพื้นฐานแล้วเป็นการแลกเปลี่ยนประสิทธิภาพการคำนวณด้วยหน่วยความจำ นั่นคือหน่วยความจำ LPDDR

ดังแสดงในตารางรายละเอียดด้านล่าง ภายใต้งบประมาณพารามิเตอร์รวมที่เท่ากัน Engram ช่วยเพิ่มประสิทธิภาพอย่างชัดเจน

ChangXin Memory

6. Engram: ถูกนำเข้าโดย DeepSeek ในไตรมาสแรกของปี 2026 โดยพื้นฐานแล้วเป็นการแลกเปลี่ยนประสิทธิภาพการคำนวณด้วยหน่วยความจำ นั่นคือหน่วยความจำ LPDDR

ChangXin Memory

นี่คือคำแนะนำที่ DeepSeek แชร์กับผู้ผลิตฮาร์ดแวร์ในเอกสาร V4 ฉันแน่ใจว่าในการพูดคุยแบบตัวต่อตัว พวกเขาจะให้ข้อเสนอแนะเพิ่มเติมอีก

7. การลงทุนใน TileLang ก็ชี้ไปในทิศทางเดียวกัน: DeepSeek ไม่ได้แค่แก้ปัญหาข้อจำกัดด้านกำลังการประมวลผลของตนเอง แต่กำลังผลักดันให้ระบบนิเวศฮาร์ดแวร์ของจีนสามารถแข่งขันกับระบบนิเวศของตะวันตกได้

ด้วย TileLang นักพัฒนาสามารถเขียน kernel ซึ่งเป็นรหัสพื้นฐานสำหรับการคำนวณเพียงครั้งเดียว แล้วให้มันทำงานได้บนแพลตฟอร์มฮาร์ดแวร์หลายแห่ง โดยมีเงื่อนไขว่าแพลตฟอร์มเหล่านั้นมีการสนับสนุน TileLang backend ที่เหมาะสม

ฉันคาดว่าห้องปฏิบัติการ AI ของจีนอื่นๆ จะตามเข้าร่วมทีละแห่ง ซึ่งจะช่วยให้ผู้ผลิตฮาร์ดแวร์ของจีนรับมือกับ “แนวป้องกัน CUDA” อย่างไม่เป็นทางการ พร้อมกันนี้ยังจะปลดปล่อยศักยภาพของฮาร์ดแวร์ตะวันตกเพิ่มเติม เช่น AMD

ควรระบุว่า แพลตฟอร์มฮาร์ดแวร์ AI หลายแห่งในจีนได้ให้ความสามารถที่เข้ากันได้กับ CUDA หรือชั้นแปลง CUDA ตัวอย่างเช่น โมเออร์เทียน, มู่ซี, ปิ่นเริน และเทียนสุ่ยซีซิน ล้วนเป็นผู้ผลิตชิปจีนที่บรรลุความเข้ากันได้กับ CUDA ผ่านชั้นแปลง ดังนั้นในเชิงทฤษฎี พวกเขาจึงไม่จำเป็นต้องใช้ TileLang

ChangXin Memory

การเรียนรู้ของเครื่องในขนาดใหญ่กับ RSI

เมื่อ DeepSeek ได้รับแหล่งพลังการคำนวณเพิ่มเติม หรือมีฮาร์ดแวร์ทางเลือกมากขึ้น พร้อมทั้งความต้องการทรัพยากรการคำนวณของโมเดลลดลง มันจึงสามารถขับเคลื่อนโครงการฝึกอบรมที่ทะเยอทะยานมากขึ้น โดยเฉพาะอย่างยิ่งการฝึกอบรมหลังด้วยการเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมแรงต้องการการสร้างเส้นทางจำนวนมาก ซึ่งหมายถึงการสร้างทรัพยากรหลายล้านล้านโทเค็น กระบวนการนี้จะกลายเป็นค่าใช้จ่ายสูงมากอย่างรวดเร็ว ยิ่งไปกว่านั้น หากต้องการฝึกโมเดลที่มีความยาวบริบท 1 ล้าน จำเป็นต้องสร้างเส้นทางที่มีความยาวเท่ากัน เฉพาะบนเส้นทางที่ยาวพิเศษเหล่านี้เท่านั้นที่โมเดลจะสามารถรองรับงานระยะยาวได้อย่างแท้จริง

นอกจากนี้ เนื่องจากตัวเลือกฮาร์ดแวร์เพิ่มขึ้น DeepSeek จะสามารถเข้าถึงทรัพยากรฮาร์ดแวร์ได้มากขึ้น ซึ่งจะผลักดันการวิจัยอัตโนมัติ หรือที่เรียกว่า RSI RSI หมายถึง AI ที่ออกแบบและดำเนินการทดลองด้วยตนเองเอง วิธีการนี้จะเกี่ยวข้องกับการทดลองผิดพลาดจำนวนมาก และต้นทุนจะเพิ่มขึ้นอย่างรวดเร็ว แต่ RSI มีความสำคัญอย่างยิ่งต่อการสำรวจพื้นที่การออกแบบโมเดลอย่างครบถ้วน ก่อนที่ DeepSeek จะก้าวสู่ AGI และต่อมาสู่ ASI จำเป็นต้องมีความสามารถด้าน RSI

สิ่งที่ DeepSeek ทำวันนี้ ทั้งอุตสาหกรรมจะตามมาพรุ่งนี้

การสร้างนวัตกรรมของ DeepSeek ในด้านโมเดลแบบผสมผสานผู้เชี่ยวชาญ MLA DSA ฯลฯ ได้รับการนำไปใช้โดยห้องปฏิบัติการ AI อื่นๆ ทั่วโลกและในจีนตามลำดับ

ตัวอย่างเช่น ZAI ผู้พัฒนาโมเดลซีรีส์ GLM ได้ใช้ MLA และ DSA เช่นกัน Kimi หรือที่รู้จักในชื่อ Moonshot ก็ใช้ MLA และเปิดเผยอย่างชัดเจนว่าสถาปัตยกรรมของมันถูกออกแบบมาบนพื้นฐานของสถาปัตยกรรม DeepSeek ในทางกลับกัน DeepSeek ก็ใช้ตัวปรับแต่ง Muon ซึ่ง Muon ถูกใช้งานครั้งแรกโดย Kimi (Moonshot) ในการฝึกขนาดใหญ่

โปรดทราบว่า:

MoE ถูกเสนอครั้งแรกโดย Google ในปี 2017 โดยผู้เขียนหลักคือ Noam Shazeer ผลงานของ DeepSeek อยู่ที่การประยุกต์ใช้ MoE ในระดับใหญ่ และการคิดค้นเทคนิคเฉพาะของตนเอง

Muon หรือ MomentUm Orthogonalized by Newton-Schulz Optimizer ถูกเสนอโดยนักวิจัยการเรียนรู้ของเครื่อง Keller Jordan ในปลายปี 2024 ทีม Kimi (Moonshot) เป็นทีมแรกที่นำมันไปใช้ในการฝึกขนาดใหญ่

แล้วปัญหาเรื่องการหารายได้ล่ะ?

เราสามารถดูตัวอย่างที่น่าสนใจของ OpenAI ได้

OpenAI ได้รับตัวเลือกซื้อหุ้นของ AMD และ Cerebras ในราคาต่ำกว่า ซึ่งผูกกับเส้นทางการใช้พลังการประมวลผลของพวกเขา สำหรับ AMD และ Cerebras นี่เป็นข้อตกลงที่คุ้มค่ามาก เพราะเมื่อ OpenAI สัญญาใช้ฮาร์ดแวร์ของพวกเขา โอกาสความสำเร็จในระยะยาวของพวกเขาจะเพิ่มขึ้นอย่างมาก

ในประกาศของ AMD มีข้อความดังนี้:

ในฐานะส่วนหนึ่งของข้อตกลง เพื่อประสานผลประโยชน์เชิงกลยุทธ์ระหว่างสองฝ่ายเพิ่มเติม AMD ได้ออกใบอนุญาตซื้อหุ้นสามัญของ AMD จำนวนสูงสุด 160 ล้านหุ้น ซึ่งจะค่อยๆ ตกเป็นของ OpenAI ตามการบรรลุเป้าหมายเฉพาะบางประการ ชุดแรกจะตกเป็นของเมื่อการติดตั้งเริ่มต้น 1 กิกะวัตต์เสร็จสมบูรณ์ และชุดถัดไปจะค่อยๆ ตกเป็นของเมื่อการซื้อเพิ่มขึ้นถึง 6 กิกะวัตต์ เงื่อนไขการตกเป็นของยังเชื่อมโยงกับการที่ AMD บรรลุเป้าหมายราคาหุ้นเฉพาะ และการที่ OpenAI บรรลุเป้าหมายทางเทคนิคและเชิงพาณิชย์ที่จำเป็นสำหรับการติดตั้งในปริมาณใหญ่ของ AMD

ChangXin Memory

ฉันคาดว่า DeepSeek จะบรรลุข้อตกลงที่คล้ายกันกับผู้ผลิตฮาร์ดแวร์จีนหลายรายที่เกี่ยวข้องกับหน่วยความจำ ASIC CPU และสแต็กเทคโนโลยีเครือข่าย และร่วมมืออย่างลึกซึ้งกับพวกเขาเพื่อให้สแต็กฮาร์ดแวร์ของผู้ผลิตเหล่านี้สามารถรองรับภาระงาน AI ชั้นนำได้

เมื่อพิจารณาถึงมูลค่าตลาดรวมของหุ้น AI ทั้งหมดในตะวันตก รวมถึงพันธมิตรในเอเชียตะวันออก ซึ่งได้เกิน 10 ล้านล้านดอลลาร์สหรัฐแล้ว วิธีการ “ร่วมมือเพื่อรับผลตอบแทนจากหุ้น” นี้จะให้โอกาส DeepSeek ช่วยจีนสร้างอุตสาหกรรมที่มีขนาดเทียบเท่ากัน และได้รับส่วนแบ่งของตนเองในอุตสาหกรรมนี้ เพื่อให้บรรลุมูลค่าการประเมิน 1 ล้านล้านดอลลาร์สหรัฐ

สิ่งนี้ไม่เพียงแต่จะทำให้ DeepSeek ได้รับรายได้มากกว่าธุรกิจการสมัครใช้งานแอปพลิเคชันแบบดั้งเดิมอย่างมาก แต่ยังสามารถบรรลุเป้าหมายที่เขาพูดถึงว่า “ทำให้ AGI เข้าถึงทุกคน” ลี่ เวิ่นเฟิงเป็นแฟนตัวยงของ Jim Simons และเป็นนักลงทุนที่ฉลาดเพียงพอ จึงไม่มีทางพลาดจุดนี้

ถ้าคุณย้อนกลับไปดูสิ่งที่ DeepSeek ได้ทำมาจนถึงตอนนี้ คำอธิบายเดียวที่มีเหตุผลที่สุดคือ

ChangXin Memory

นี่คือหุ้น AI ที่สำคัญ ยังไม่ได้รวมถึง hyperscalers หรือผู้ให้บริการคลาวด์ขนาดใหญ่ และบริษัทที่เกี่ยวข้องอีกหลายแห่งในภาพ

Original link