الاستراتيجية الكبرى لـ DeepSeek بقيمة 10 تريليون دولار
الكاتب الأصلي: @bookwormengr
بيغي، BlockBeats
ملاحظة المحرر: على مدار العام الماضي، ركزت المناقشات حول DeepSeek بشكل كبير على أداء النموذج واستراتيجية المصدر المفتوح وحرب الأسعار. لكن إذا فُهم DeepSeek فقط من خلال "هل يُباع اشتراك؟" أو "هل يمتلك وظائف متعددة الوسائط؟" أو "هل يمكنه العمل كوكيل برمجي؟"، فقد يتم التقليل من قيمة ما يحاول تغييره حقًا.
تطرح هذه المقالة حجة أكثر جرأة: لا يهدف DeepSeek بالضرورة إلى تحقيق أرباح على المدى القصير من خلال طبقة التطبيق، بل إلى إعادة تشكيل هيكل تكلفة تدريب واستنتاج الذكاء الاصطناعي من خلال سلسلة من الابتكارات في البنية التحتية، ودفع تشكيل نظام بيئي للعتاد الجديد بشكل غير مباشر. من MoE وMLA إلى DSA وCSA وmHC وEngram، ثم Dual Path وTileLang، تدور مسار تقني DeepSeek دائمًا حول سؤال أساسي واحد: كيف يمكن تشغيل نماذج أقوى باستخدام قدرات حوسبة عالية الأداء أقل، في ظل قيود على HBM والتقنيات المتقدمة والتغليف وبيئة CUDA؟
ما يستحق الانتباه أكثر في المقال ليس ما إذا كان DeepSeek يمكنه كسب مئات الملايين من الدولارات من خلال واجهات برمجة التطبيقات أو الاشتراكات، بل ما إذا كان يربط قدرات النموذج ونظام الذاكرة وبيئة الأجهزة المحلية معًا. إن ضغط KV Cache يقلل الاعتماد على HBM، ويمكن لـ NAND وSSD استيعاب التخزين المؤقت طويل الأمد، ويمكن استخدام LPDDR لتحميل الأوزان بشكل تدريجي وتخزين Engram، بينما تسعى TileLang إلى تقليل حواجز CUDA. إذا استمرت هذه الابتكارات في الانتشار، فلن يستفيد منها DeepSeek فقط، بل أيضًا قطاعات التخزين وASIC وGPU ورقاقات الشبكة وسلسلة البنية التحتية للذكاء الاصطناعي بأكملها.
بالطبع، فإن الأحكام الواردة في النص حول "نظام بيئي صناعي بقيمة 10 تريليونات دولار" و"تقييم بقيمة 1 تريليون دولار" لا تزال تحمل طابعًا استنتاجيًا قويًا. لكنها توفر مسارًا مهمًا لفهم DeepSeek: فالانفتاح المصدر لا يعني بالضرورة التخلي عن النموذج التجاري، ولا يعني السعر المنخفض بالضرورة دعم السوق فقط. بالنسبة لـ DeepSeek، قد لا يكون العمل الحقيقي في طبقة التطبيق، بل في تمكين المزيد من الأجهزة من أن تكون قابلة للاستخدام، وجعل إمداد الذكاء الاصطناعي بتكاليف أقل أصبح ممكنًا. بعبارة أخرى، قد لا تبيعه النموذج نفسه، بل جدوى البنية التحتية للذكاء الاصطناعي من الجيل التالي.
Below is the original text:

هل فكرت يومًا في كيفية كسب DeepSeek للنقود، وربما كسب الكثير منها؟
لم تطلق خطة اشتراك تنافسية للبرمجة مثل GLM وMoonShot وMiniMax؛ كما أنها لا تمتلك نماذج متعددة الوسائط أو صوتية أو فيديو. حتى الآن، لم تكن لديها حتى نظام تشغيل خارجي خاص بها، وهو الإطار الذي يُستخدم لاستدعاء النماذج وتوصيل الأدوات وتنفيذ المهام — على الرغم من أنهم بدأوا مؤخرًا في توظيف وظائف ذات صلة لإنشاء هذا النظام.
في الوقت نفسه، يبدو أن DeepSeek لا تزال ملتزمة بقوة لفكرة المصدر المفتوح، بل وترحب بمشاركة "أسرارها" بشكل علني. أليس هذا جنونًا؟ أليس هذا تبذيرًا للمال؟ أليس المستثمرون الذين يخططون لاستثمار 10 مليارات دولار فيه يرمون أموالهم في مصرف الصرف؟
أعتقد شخصيًا أن الإجابة هي العكس تمامًا.
بعد ذلك، سأقدم بعض الملاحظات بناءً على ما قام به DeepSeek حتى الآن، وأحلل الاستراتيجية التي يبدو أنه يتبعها. قد يكون هدف الرئيس التنفيذي لـ DeepSeek، ليانغ وينفنغ، أبعد بكثير من مجرد المنافسة على النماذج الحالية. ربما يستهدف جائزة أكبر بكثير: فلديه فرصة لدفع تقييم DeepSeek إلى 1 تريليون دولار، مع دفع تشكيل صناعة جديدة بحجم 10 تريليونات دولار.

تقرير TechInAsia عن جولة التمويل الأخيرة لـ DeepSeek
زيارة جديدة لرحلة البطل لـ DeepSeek
لقد سار DeepSeek ضد الرياح. فلم يختر إطلاق نماذج أقوى قليلاً باستمرار، ثم التسرع في تغليفها كتطبيقات قابلة للتحويل المباشر إلى إيرادات، مثل خطط الاشتراك في البرمجة. في 27 يناير 2025، نشرت تغريدة انتشرت على نطاق واسع عن "رحلة البطل" التي أراها لدى DeepSeek. والآن، أصبحت هذه القصة أكثر إثارةً من أي وقت مضى.
بينما لا يزال الآخرون يحاولون بناء نماذج كثيفة، اختار DeepSeek نموذج خبراء مختلط (Mixture of Experts، MoE) الذي يصعب تدريبه.
لقد اعتمدوا منهجية "المبادئ الأولى" لتطوير خوارزمية GRPO الجديدة، التي استبدلت خوارزمية PPO المعتمدة آنذاك والتي كانت تكلفة تنفيذها أعلى.
لقد وجدوا أن التعلم المعزز من المكافآت الموثوقة (Reinforcement Learning from Verified Rewards، RLVR) هو الاستراتيجية الأساسية لتحسين قدرة النموذج على الاستدلال.
كما قدموا استراتيجية بسيطة للتنبؤ بالاستدلال من خلال "التنبؤ متعدد الرموز" (Multi Token Prediction)، مما جعل إشارات التدريب أكثر كثافة.
لقد أكملوا خط إنتاج "Zero bubble" لتحسين كفاءة استخدام موارد GPU المحدودة.
لقد أطلقوا عامل توازن الأحمال الخبير، مما يجعل نشر نماذج MoE أسهل للجميع. خاصةً من خلال استراتيجية "التوسيع المتوازي للخبراء" (Wide Expert Parallel)، يمكن للنموذج تقديم الخدمة بحجم دفعات أكبر، مما يقلل تكاليف الاستنتاج بشكل كبير.
لقد طوروا آليات مثل MLA وDSA وCSA وHCA لتقليل متطلبات KV Cache وجعل متطلبات الحساب المتزايدة مع طول السياق تبقى قريبة قدر الإمكان من الثبات.
لقد اخترعوا Engram، حيث يستبدلون الذاكرة بكفاءة الحساب.
كما اخترعوا mHC، مما يسمح بالتدريب المستقر حتى عند توسيع حجم النموذج. هناك العديد من الأمثلة المشابهة.
في هيكل السرد الأكثر شيوعًا، "رحلة البطل"، لا يقرر البطل من البداية إلى أين ستؤدي رحلته. بل يتعلم على طول الطريق، ويكتشف تدريجيًا مهمته العظيمة الحقيقية، ويُكملها رغم العقبات العديدة. سيواجه العديد من المشككين، لكنه يختار تجاهلهم. كما سيواجه العديد من الفاعلين الضارين. لديه عيوب أو نقاط ضعف واضحة، لكنه في النهاية يتغلب على هذه المشكلات ويُكمل مهمته. يواجه تحديات تبدو غير قابلة للتجاوز، لكنه يجد طرقًا للتحالف، ويتعلم كيفية استخدام الموارد المحدودة والثمينة بحكمة. وهذا بالضبط ما يجعل الجمهور يدعم البطل. وهذا أيضًا ما جعل DeepSeek تكسب أتباعًا واحترامًا عالميًا وخصومًا.
كما سأشرح بالتفصيل في ما يلي، فقد سلك DeepSeek هذا الطريق لفترة طويلة، وبدأ تدريجيًا في اكتشاف مصيره النهائي: هدفه ليس بيع خطط اشتراك في البرمجة، بل دفع تطوير نظام بيئي صيني للذكاء الاصطناعي بقيمة 10 تريليونات دولار، وتحقيق تقييم قيمته 1 تريليون دولار. وفي هذه العملية، سيخلق أيضًا فرصًا لكثير من الدخول الجدد في النظام البيئي للعتاد الغربي.

ابدأ ببعض حسابات KV Cache المثيرة للاهتمام
يرجى الاطلاع على هذا التغريدة المحدثة من @SemiAnalysis_:

DeepSeek قد حَلَّ هذه المشكلة بشكل أفضل من أي شخص آخر!
لنبدأ ببعض الحسابات الممتعة لـ KV Cache. لا تقلق، حتى لو لم تكن تحب الرياضيات. سنستخدم آلة حاسبة KV Cache التي تم إصدارها مؤخرًا، لرؤية كمية التوفير في KV Cache التي يمكن أن تقدمها DeepSeek V4 Pro، ومقارنتها بأحدث نماذج GLM وQwen.
أنا أحسب هنا بطول سياق قدره 1 مليون، مع افتراض أن دقة KV هي 8 بت، ودقة الفهرس هي 16 بت. يمكنك أيضًا فتح هذا الحاسبة بنفسك لتجربتها: https://kvcache.ai/tools/kv-cache-calculator/

يمكنك أيضًا فتح الآلة الحاسبة بنفسك لتجربتها!
بطول سياق 1,000,000:
·يتطلب DeepSeek V4 فقط 5.48 جيجابايت من HBM؛
·GLM-5 يحتاج إلى 60GB HBM؛
·يتطلب Qwen3-235B-A22B ما يصل إلى 89 جيجابايت من HBM.
يجب الانتباه إلى أن:
·DeepSeek هو نموذج بـ 1.6 تريليون معلمة؛
·GLM-5 يحتوي على حوالي 700 مليار معلمة، وقد اعتمد بالفعل MLA و DSA من DeepSeek، لكنه لم يستخدم بعد آلية الضغط الانتباهي الأحدث؛
يبلغ عدد معلمات Qwen3-235B-A22B حوالي 235 مليار، وتستخدم آلية انتباه GQA.
لقد قدم DeepSeek مساهمات أساسية في تخفيف ضغط الذاكرة. إذا تم اعتماد هذا النوع من الابتكارات على نطاق واسع، فسيتم خفض تكاليف تشغيل الوكلاء ذوي الدورات الطويلة بشكل كبير، وسيتم فتح مجموعة جديدة من التطبيقات.

مقارنة في استخدام ذاكرة KV Cache تحت سياق 1,000,000 رمز وحجم نموذج
المنهجية وراء "الجنون"
يُمكن لحجم KV Cache أن يكون صغيرًا جدًا دون التضحية بجودة النموذج، وهو ما يسمح لـ DeepSeek بتقديم تخزين مؤقت طويل الأمد بسعر منخفض جدًا — حتى أقل من 3% من سعر التخزين المؤقت لـ Sonnet 4.6، ويمكن لـ DeepSeek الاحتفاظ بالتخزين المؤقت لساعات عديدة.
بالنسبة للمهام ذات الدورات الطويلة، فإن تخزين KV الصغير يعني أنه يمكن إخراجه إلى SSD بشكل أكثر اقتصادًا وإعادة تحميله عند الحاجة، مما يقلل الاعتماد على HBM. من منظور صناعة الأجهزة الذكية الاصطناعية الصينية، فإن HBM ليست فقط نادرة في العرض، بل هي أيضًا أحد أكثر أنواع الذاكرة صعوبة في التصنيع.
بالإضافة إلى ذلك، طور DeepSeek تقنية لتحميل KV Cache من SSD بشكل أسرع، كما ورد في ورقة Dual Path.

يُقلل DeepSeek V4 من حجم KV Cache بنسبة كبيرة جدًا، لدرجة أن هذه الخطوة قد لا تكون ضرورية على الإطلاق.
فمن هم المستفيدون الأكثر مباشرة من ضغط KV Cache؟
من يزود بكميات كبيرة من SSD؟ لا تنسَ أن YMTC (Yangtze Memory Technologies) تنمو لتصبح عملاقًا في مجال 3D NAND. يمكن أن يساعد NAND DeepSeek على تجنب الحسابات المتكررة لـ KV. وبالمقابل، يخلق DeepSeek سوقًا ضخمًا لـ NAND وSSD — مما سيستفيد منه ليس فقط Yangtze Memory Technologies، بل أيضًا الشركات الأخرى ذات الصلة.

لكن الأمر لا يتعلق فقط بـ NAND و SSD.
ذاكرة LPDDR لديها أيضًا إمكانات هائلة. يمكن استخدامها كمكان لتخزين أوزان النموذج ونقل هذه الأوزان تدريجيًا إلى HBM عند الحاجة، مما يخفف الضغط على HBM. سبق لفريق SGLang أن نشر مدونة ممتازة تشرح هذا الحل. توضح الصورة أدناه كيفية عمل هذا الحل.
على الرغم من أن DeepSeek لم يُصمم خصيصًا لهذا الحل، إلا أن بنيته MoE، وامتلاكه عددًا كبيرًا من نماذج الخبراء، وخصائصه في استخدام أوزان 4 بت، تجعل هذا الحل أسهل في التنفيذ.

تُظهر هذه المخطط التوضيحي كيفية استخدام الذاكرة وكيفية تدفق أوزان النموذج من LPDDR إلى HBM. يُوصى بشدة بقراءة مدونة SGLang.
إذا تم دمج هذا الابتكار مع ذاكرة KV Cache مضغوطة للغاية وخالية من فقدان البيانات، فسيقلل بشكل كبير من متطلبات HBM.
من ينتج LPDDR في الصين؟ الإجابة هي CXMT، أي ChangXin Memory Technologies. إنهم يتأخرون فقط بنصف جيل في سرعة LPDDR، وجيل واحد في الكثافة، والفرق ليس كبيرًا.
بالإضافة إلى توفر NAND الكافي، سيتمتع نظام الصين للذكاء الاصطناعي في المستقبل القريب أيضًا بإمدادات كافية من LPDDR. هل يمكن هذا أن يخفف ضغط القوة الحسابية؟ الإجابة: نعم. استمر في القراءة.

استخدام ذاكرة ذكي يمكنه أيضًا تخفيف ضغط وحدة معالجة الرسومات / وحدات الدوائر المتكاملة المخصصة
استخدام NAND لتخزين KV Cache سهل الفهم: فهو يسمح لـ KV Cache بالاحتفاظ ببياناته لفترة أطول، ويقلل من الضغط على HBM، ويعمل على تجنب إعادة حساب KV Cache، مما يخفف من عبء الحساب على GPU وASIC.
إذًا، هل يمكن لـ LPDDR أن تلعب دورًا مشابهًا؟ هل يمكنها، بالإضافة إلى كونها موقع تخزين يمكنه "البث الفوري حسب الطلب" للأوزان إلى HBM، أن تقلل من الضغط الحسابي بشكل إضافي؟
الإجابة: نعم.
يمكن استخدام LPDDR لتخزين كميات كبيرة من المحتوى يُطلق عليه Engram. في ورقة DeepSeek حول Engram، أشاروا إلى أن MoE يمكنه توسيع سعة النموذج من خلال الحساب المشروط، لكن Transformer نفسه يفتقر إلى آلية أصلية للبحث عن المعرفة. لذلك، غالبًا ما يضطر Transformer إلى محاكاة عملية الاسترجاع بشكل غير فعال من خلال الحساب.
لحل هذه المشكلة، اقترح DeepSeek وحدة Engram. إنها تُحديث تضمين N-gram الكلاسيكي إلى آلية بحث O(1) تعتمد على التجزئة، مما يخلق مسارًا نادرًا تكميليًا يسمونه الذاكرة المشروطة (conditional memory).
هذه الطريقة يمكن أن توفر الحساب، لكنها تتطلب ذاكرة لاستيعاب جدول التضمين، والذي قد يكون ضخمًا بحد ذاته.
في جوهره، هذا حل نموذجي يُبادل الذاكرة بالحساب. لكن الإدراك الأساسي هنا هو أن جانب "الذاكرة" أرخص بكثير من حيث تكلفة قراءة كل بت من البيانات — إن عملية بحث واحدة في LPDDR أرخص بكثير من جعل البيانات تمر عبر طبقات متعددة من Transformer لأداء عملية تقدمية واحدة. وبالتالي، في السيناريوهات الواسعة النطاق، هذه مبادلة مربحة جدًا.
هذا هو كيفية قيام DeepSeek بتوفير الحسابات على حساب جزء من الذاكرة.

التسوية المستحقة
بسبب عدم وجود كثافة ترانزستورات شرائح مماثلة، وعدم وجود EUV، فمن المحتمل أن تظل وحدات معالجة الرسوميات (GPU) ووحدات تطبيقات مخصصة (ASIC) الصينية متخلفة على المدى الطويل عن وحدات معالجة الرسوميات (GPU) الغربية من حيث القوة الحسابية الأولية (FLOPs). كما أن لديها فجوة واضحة لا تزال قائمة في التغليف المتقدم. لذلك، فإن هذا التوازن يستحق القيام به بشدة، خاصةً مع قدرة الصين على إنتاج كميات كبيرة من ذاكرة NAND وLPDDR.
مراجعة الاستراتيجية طويلة الأجل لـ DeepSeek
من هذه الابتكارات، يبدو أن هدف DeepSeek ليس تحقيق أرباح ببضعة مليارات من الدولارات في الوقت الحالي. فكثير من الخيارات التي اتخذتها في الماضي توضح ذلك: حتى الآن، لا توجد نماذج متعددة الوسائط، ولا نماذج صوتية، ناهيك عن نماذج الفيديو.
ما يشارك فيه حقًا هو لعبة طويلة الأمد، تتسم بالصبر وقد يصل حجمها إلى 10 تريليون دولار: تعزيز تشكيل نظام بيئي بديل للذكاء الاصطناعي من حيث الأجهزة.
هذا ليس فقط لجعل شركات الذاكرة الصينية لاعبًا رئيسيًا في سوق الأجهزة الذكية الصيني والعالمي، بل أيضًا لتقليل متطلبات الموارد جذريًا، مما يجعل تدريب وخدمات نماذج الذكاء الاصطناعي أكثر كفاءة من حيث التكلفة. وبالتالي، تصبح العديد من شركات GPU وASIC وشركات رقائق الشبكة خيارات قابلة للتطبيق.
في الوقت نفسه، ستستفيد أيضًا بيئات المصدر المفتوح الغربية وصانعو الأجهزة من الجيل الجديد من هذه الابتكارات.
جميع المؤشرات ظهرت بالفعل. دعونا نستعرض بالتفصيل الابتكارات التي طرحها DeepSeek حتى الآن:
1. نموذج المزيج من الخبراء (MoE) وMLA المُقدَّمين في DeepSeek V2
أدخل DeepSeek MoE وMLA في V2. يقلل MoE كمية الحساب المطلوبة لتدريب نماذج ذات ذكاء عالٍ بنسبة تتراوح بين 40% و50%؛ بينما يقلل MLA ذاكرة KV Cache بنسبة 90%.
هذا يجعل نقل KV Cache إلى SSD فعالًا إلى حد كبير.
ظهرت هذه الأفكار لأول مرة في ورقة DeepSeek V2 التي نشرتها DeepSeek في مايو 2024. لاحقًا، وضعت الأساس لتدريب DeepSeek V3. في ذلك الوقت، تدربت DeepSeek باستخدام 2048 وحدة معالجة رسومية H800 مُضعفة الأداء فقط، وطورت نظامًا بقدرات تقارب مستويات النماذج المغلقة.

2. DSA: تم تقديمه في DeepSeek V3.2 Exp لتقليل تكاليف الحساب في سيناريوهات السياق الطويل، مع تخفيف ضغط عرض النطاق الترددي لـ HBM.
الدور الأساسي لـ DSA هو ضمان عدم استمرار زيادة كمية الحساب مع زيادة طول السياق. يمكنك النظر إلى الرسم البياني التالي: مع زيادة طول السياق، يظل وقت معالجة DeepSeek-V3.2 تقريبًا ثابتًا.

3. mHC: تم تقديمه من قبل DeepSeek في ورقة بحثية بعنوان "mHC: Manifold-Constrained Hyper-Connections" في ديسمبر 2025.
mHC هي ابتكار من DeepSeek على مستوى البنية العامة، حيث أعادت تصميم طريقة تدفق المعلومات بين طبقات Transformer.
في الماضي، استخدمت النماذج منذ ResNet عادةً وصلات_residual_ القياسية، أي x + F(x). أما في mHC، فقد تم توسيع تدفق الـ_residual_ ليصبح عدة قنوات معلومات متوازية، مع السماح للنموذج بخلط قابل للتعلم بين هذه القنوات. المفتاح هو تقييد مصفوفة الخلط لتكون مصفوفة مزدوجة عشوائية، أي تقييدها على متعدد السطوح Birkhoff من خلال إسقاط Sinkhorn-Knopp. وهكذا، يمكن ضمان رياضيًا أن سعة الإشارة تبقى مستقرة، بغض النظر عن عمق النموذج.
هذا يحل مشكلة عدم الاستقرار الكارثي التي واجهتها Hyper-Connections غير المقيدة. تم تقديم Hyper-Connections لأول مرة من قبل ByteDance، ولكن دون قيود، كان تضخيم الإشارة يرتفع إلى 3000 مرة على مقياس 27 مليار معلمة، مما أدى في النهاية إلى انهيار التدريب بالكامل.
تكلفة حساب mHC منخفضة جدًا: فهي تضيف فقط حوالي 6.7% من تكلفة وقت التدريب الفعلي، لأنها لا تغير FLOPs في طبقات الانتباه أو طبقات FFN، بل تغير فقط طريقة توجيه مخرجات هذه الطبقات بين الطبقات.
لكن التحسن في الأداء الذي يوفره واضح جدًا: عند حجم 27 مليار معلمة، يحقق mHC تحسنًا قدره 7.2 نقطة في مهام الاستدلال BIG-Bench Hard، و3.2 نقطة في DROP، و2.8 نقطة في مهام الرياضيات GSM8K، و1.4 نقطة في مهام المعرفة العامة MMLU. وكل هذه التحسينات تم تحقيقها بنفس حجم النموذج ونفس الميزانية الحسابية تقريبًا.
في جوهره، يحقق mHC ذكاءً أعلى لكل معلمة تقريبًا دون زيادة كبيرة في FLOPs، من خلال توفير توبولوجيا توجيه معلومات عبر الطبقات أكثر ثراءً وقدرة على التعبير للشبكة.

mHC هو تصميم هندسي معقد، لكنه يوفر عملية تدريب أكثر استقرارًا وكفاءة ذكائية أعلى لكل معلمة.
4، CSA، HSA: تم إدخال DeepSeek في V4 في أبريل 2026.
يهدف CSA و HSA إلى تقليل متطلبات KV Cache بمقدار 90٪ إضافية من خلال ضغط KV Token، مع تقليل كبير في عدد FLOPs المطلوبة، مما يخفف في الوقت نفسه الضغط على HBM و GPU / ASIC.

5. Engram: تم تقديمه من قبل DeepSeek في الربع الأول من عام 2026، وهو يُستبدل بشكل ما كفاءة الحوسبة بذاكرة، أي ذاكرة LPDDR.
كما هو موضح في الرسم التفصيلي أدناه، فإن Engram يوفر تحسينًا ملحوظًا في الأداء مع نفس الميزانية الإجمالية للمعلمات.

6. Engram: تم تقديمه من قبل DeepSeek في الربع الأول من عام 2026، وهو في جوهره تبادل للكفاءة الحسابية مع الذاكرة، أي ذاكرة LPDDR.
كما هو موضح في الرسم التفصيلي أدناه، فإن Engram يوفر تحسينًا ملحوظًا في الأداء مع نفس الميزانية الإجمالية للمعلمات.

هذا توصية قدمها DeepSeek لمصنعي الأجهزة في ورقة V4. أنا متأكد أنهم قدموا ملاحظات إضافية خلال التفاعلات المباشرة.
7. الاستثمار في TileLang يشير أيضًا إلى نفس الاتجاه: DeepSeek لا تحل فقط مشكلة قيود قوتها الحاسوبية، بل تدفع لتمكين البيئة الصينية للعتاد من التنافس مع البيئة الغربية.
باستخدام TileLang، يمكن للمطورين كتابة kernel واحد فقط، وهو الكود الأساسي المستخدم للحساب، ثم تشغيله بنجاح على عدة منصات أجهزة، بشرط أن تكون هناك دعم خلفي من TileLang متوفر لهذه المنصات.
أتوقع أن تنضم مختبرات الذكاء الاصطناعي الصينية الأخرى تدريجيًا. وهذا سيساعد شركات الأجهزة الصينية على التصدي بشكل غير مباشر لما يُعرف بـ"خندق CUDA". في الوقت نفسه، سيُطلق إمكانات أكبر للأجهزة الغربية، مثل AMD.
يجب التوضيح أن العديد من منصات الأجهزة الذكية الاصطناعية في الصين توفر قدرات متوافقة مع CUDA أو طبقات ترجمة CUDA. على سبيل المثال، Moortec وMoxi وBiren وTianshui Intelligent Chip هي شركات صينية للرقائق تحقق توافقًا عاليًا مع CUDA من خلال طبقات الترجمة. وبالتالي، من الناحية النظرية، لا تحتاج بالضرورة إلى TileLang.

التعلم المعزز الواسع النطاق وRSI
مع حصول DeepSeek على مصادر حسابية إضافية، أي زيادة خيارات الأجهزة، وفي الوقت نفسه انخفاض احتياجات النموذج ذاته من الموارد الحسابية، يصبح بإمكانه المضي قدمًا في مشاريع تدريب أكثر طموحًا، خاصة التدريب بعد التدريب بالتعلم المعزز.
يتطلب التعلم المعزز توليد عدد كبير من المسارات، أي توليد تريليونات من الرموز. ستصبح هذه العملية باهظة التكلفة بسرعة. علاوة على ذلك، إذا أردت تدريب نموذج بطول سياق قدره مليون رمز، فستحتاج إلى توليد مسارات بنفس الطول. فقط من خلال تدريب النموذج على هذه المسارات الطويلة جدًا، يمكنك دعم المهام طويلة المدى حقًا.
بالإضافة إلى ذلك، مع زيادة خيارات الأجهزة، ستزداد الموارد hardware المتاحة لـ DeepSeek، مما سيدفع البحث الآلي، أي RSI. يشير RSI إلى تصميم الذكاء الاصطناعي وتنفيذ التجارب بنفسه. ستتضمن هذه الطريقة عددًا كبيرًا من المحاولات والأخطاء، وسترتفع التكاليف بسرعة. لكن RSI ضرورية لاستكشاف كامل فضاء تصميم النموذج. قبل الوصول إلى AGI، ثم إلى ASI لاحقًا، يجب أن تمتلك DeepSeek قدرة RSI.
ما يفعله DeepSeek اليوم، ستتبعه الصناعة بأكملها غدًا
الابتكارات التي قام بها DeepSeek في مجالات نماذج المزيج الخبير، وMLA، وDSA، تم اعتمادها تدريجيًا من قبل مختبرات الذكاء الاصطناعي الأخرى عالميًا وفي الصين.
على سبيل المثال، استخدمت ZAI، المطوّرة لسلسلة نماذج GLM، MLA وDSA. كما اعتمدت Kimi، أي Moonshot، MLA وأعلنت صراحةً أن بنيتها مبنية على بنية DeepSeek. وبالمقابل، تستخدم DeepSeek مُحسّن Muon، الذي تم تبنيه لأول مرة من قبل Kimi (Moonshot) في التدريبات الواسعة النطاق.
يجب التوضيح أن:
تم تقديم MoE لأول مرة من قبل Google في عام 2017، والمؤلف الرئيسي هو نوم شازير. إن إسهام DeepSeek يكمن في تطبيق MoE على نطاق واسع، واختراع تقنياته المصاحبة الخاصة به.
Muon، وهو مُحسِّن MomentUm Orthogonalized by Newton-Schulz، تم تقديمه في أواخر عام 2024 من قبل باحث التعلم الآلي كيلر جوردن. كان فريق Kimi (Moonshot) أول فريق يستخدمه في التدريب على نطاق واسع.
ماذا عن مشكلة كسب المال؟
يمكننا أن ننظر إلى مثال OpenAI المثير للاهتمام.
حصلت OpenAI على خيارات شراء أسهم AMD وCerebras بسعر أقل، مرتبطة بإنجازات استهلاكها للقوة الحسابية. هذه صفقة ممتازة لـ AMD وCerebras، لأن التزام OpenAI باستخدام أجهزتهما يزيد بشكل كبير من احتمالية نجاحهما على المدى الطويل.
يحتوي إعلان AMD على جزء يقول:
كجزء من الاتفاقية، ولتعزيز التنسيق بين المصالح الاستراتيجية للطرفين، منحت AMD لـ OpenAI خيارات شراء ما يصل إلى 160 مليون سهم عادي من AMD، وستُصبح هذه الخيارات مُستحقة تدريجيًا وفقًا لإنجاز مراحل محددة. ستُصبح الدفعة الأولى مستحقة عند إكمال النشر الأولي بقدرة 1 جيجاواط، بينما ستُصبح الدفعات اللاحقة مستحقة مع زيادة المشتريات حتى تصل إلى 6 جيجاواط. كما ترتبط شروط الاستحقاق بتحقيق AMD لأهداف أسعار أسهم محددة، وتحقيق OpenAI للمعالم التقنية والتجارية اللازمة لتمكين النشر الواسع النطاق من قبل AMD.

أتوقع أن يتوصل DeepSeek أيضًا إلى اتفاقيات مماثلة مع العديد من شركات الصينية المتخصصة في الذاكرة وASIC وCPU وبنية تقنية الشبكة، وسيتعاون معها بشكل عميق لتمكين بنى الأجهزة الخاصة بهذه الشركات من تحمل أحمال العمل الرائدة في مجال الذكاء الاصطناعي.
باعتبار أن إجمالي القيمة السوقية لأسهم الذكاء الاصطناعي في جميع الدول الغربية، بما في ذلك حلفاء شرق آسيا، قد تجاوز بالفعل 10 تريليونات دولار أمريكي، فإن هذا النهج "الحصول على عوائد أسهم من خلال التعاون" سيمنح DeepSeek فرصة للمساعدة في بناء صناعة ضخمة مماثلة في الصين، والحصول على نصيب منها، مما يحقق في النهاية تقييمًا قدره تريليون دولار أمريكي.
هذا لن يمكّن DeepSeek فقط من كسب أموال تفوق بكثير إيرادات اشتراكات التطبيقات التقليدية، بل سيحقق أيضًا هدفها المتمثل في "جعل AGI في متناول الجميع". إن ليان وينفنغ من المعجبين المخلصين لجيم سيمونز، وهو لاعب رأسمالي ذكي بما يكفي ليُفوّت هذه النقطة.
إذا نظرت إلى الوراء في كل ما قام به DeepSeek حتى الآن، فهذا هو التفسير الوحيد الذي يُعقل.

هذه هي الأسهم الرئيسية للذكاء الاصطناعي. لم تُضم بعد شركات التخزين السحابي الضخمة وغيرها من الشركات ذات الصلة في الرسم البياني.
الرابط الأصلي
