استراتيجية DeepSeek: بناء نظام بيئي للعتاد الذكي بقيمة 10 تريليون دولار

الاستراتيجية الكبرى لـ DeepSeek بقيمة 10 تريليون دولار

الكاتب الأصلي: @bookwormengr

بيجي، BlockBeats

ملاحظة المحرر: على مدار العام الماضي، ركزت المناقشات حول DeepSeek بشكل كبير على أداء النموذج واستراتيجية المصدر المفتوح وحرب الأسعار. لكن إذا فُهم DeepSeek فقط من خلال معايير مثل "هل يُباع كاشتراك؟" أو "هل يدعم متعدد الوسائط؟" أو "هل يمكنه العمل كوكيل برمجي؟"، فقد يتم التقليل من قيمة ما يحاول تغييره حقًا.

تطرح هذه المقالة حكمًا أكثر جذرية: إن هدف DeepSeek قد لا يكون الربح على المدى القصير من خلال طبقة التطبيق، بل إعادة تشكيل هيكل تكلفة تدريب واستنتاج الذكاء الاصطناعي من خلال سلسلة من الابتكارات في البنية التحتية، ودفع تشكيل نظام بيئي للعتاد الجديد بشكل غير مباشر. من MoE وMLA إلى DSA وCSA وmHC وEngram، ثم Dual Path وTileLang، تدور مسار تقني لـ DeepSeek دائمًا حول سؤال أساسي واحد: كيف يمكن تشغيل نماذج أقوى باستخدام قدرات حوسبة عالية الأداء أقل، في ظل قيود على HBM والتقنيات المتقدمة والتغليف وبيئة CUDA؟

ما يستحق الانتباه أكثر في المقال ليس ما إذا كان DeepSeek قادرًا على كسب مئات الملايين من الدولارات من خلال واجهات برمجة التطبيقات أو الاشتراكات، بل ما إذا كان يربط قدرات النموذج ونظام الذاكرة وبيئة الأجهزة المحلية معًا. إن ضغط KV Cache يقلل الاعتماد على HBM، ويمكن لـ NAND وSSD استيعاب التخزين المؤقت طويل الأمد، ويمكن لـ LPDDR استخدامه في تحميل الأوزان بشكل تدريجي وتخزين Engram، بينما تحاول TileLang تقليل حواجز CUDA. إذا استمرت هذه الابتكارات في الانتشار، فلن يستفيد منها DeepSeek فقط، بل أيضًا قطاعات التخزين وASIC وGPU ورقاقات الشبكة وسلسلة البنية التحتية للذكاء الاصطناعي بأكملها.

بالطبع، فإن الأحكام الواردة في النص حول "نظام بيئي صناعي بقيمة 10 تريليونات دولار" و"تقييم بقيمة 1 تريليون دولار" لا تزال تحمل طابعًا استنتاجيًا قويًا. لكنها توفر مسارًا مهمًا لفهم DeepSeek: فالانفتاح المصدر لا يعني بالضرورة التخلي عن النموذج التجاري، ولا يعني السعر المنخفض بالضرورة دعم السوق فقط. بالنسبة لـ DeepSeek، قد لا يكون العمل الحقيقي في الطبقة التطبيقية، بل في تمكين مزيد من الأجهزة من أن تكون قابلة للاستخدام، وجعل إمداد الذكاء الاصطناعي بتكاليف أقل يصبح ممكنًا. وبعبارة أخرى، فإن ما تبيعه قد لا يكون النموذج نفسه، بل إمكانية البنية التحتية للذكاء الاصطناعي من الجيل التالي.

Below is the original text:

هل فكرت يومًا في كيفية كسب DeepSeek للمال، وربما كسب الكثير من المال؟

لم تطلق خطة اشتراك تنافسية للبرمجة مثل GLM وMoonShot وMiniMax؛ كما أنها لا تمتلك نماذج متعددة الوسائط أو صوتية أو فيديو. حتى الآن، لم تمتلك حتى إطار تشغيل خارجي خاص بها (harness) لاستدعاء النماذج وربط الأدوات وتنفيذ المهام — على الرغم من أنها بدأت مؤخرًا في توظيف وظائف ذات صلة لإنشاء هذا النظام.

في الوقت نفسه، يبدو أن DeepSeek ملتزمة بقوة على المدى الطويل مع المفتوح المصدر، بل وترحب بمشاركة "أسرارها" علنًا. أليس هذا جنونًا؟ أليس هذا هدرًا للمال؟ أليس المستثمرون الذين يخططون للاستثمار 10 مليارات دولار فيه يلقون أموالهم في مصرف الصرف؟

أعتقد شخصيًا أن الإجابة هي العكس تمامًا.

بعد ذلك، سأقدم بعض الملاحظات بناءً على ما قام به DeepSeek حتى الآن، وأحلل الاستراتيجية التي يبدو أنه يتبعها. قد يكون هدف الرئيس التنفيذي لـ DeepSeek، ليانغ وينفنغ، أبعد بكثير من مجرد المنافسة على النماذج الحالية. فقد يكون يسعى إلى جائزة أكبر: فلدى DeepSeek فرصة للوصول إلى تقييم قدره تريليون دولار أمريكي، مع دفع تشكيل صناعة جديدة بحجم عشرة تريليونات دولار أمريكي.

تقرير TechInAsia عن جولة التمويل الأخيرة لـ DeepSeek

إعادة زيارة "رحلة البطل" لـ DeepSeek

لقد كان DeepSeek يسير عكس الرياح. فلم يختر إطلاق نماذج أقوى قليلاً باستمرار، ثم التسرع في تغليفها كتطبيقات قابلة للربح المباشر، مثل خطط الاشتراك في البرمجة. في 27 يناير 2025، نشرت تغريدة انتشرت على نطاق واسع عن "رحلة البطل" التي أراها في DeepSeek. والآن، أصبحت هذه القصة أكثر إثارةً من أي وقت مضى.

بينما لا يزال الآخرون يحاولون بناء نماذج كثيفة، اختار DeepSeek نموذج خبراء مختلط (Mixture of Experts، MoE) الأكثر صعوبة في التدريب.

لقد اعتمدوا منهجية "المبادئ الأولى" لتطوير خوارزمية GRPO الجديدة، التي تستبدل خوارزمية PPO المعتمدة آنذاك والتي كانت تكلفة تنفيذها أعلى.

لقد وجدوا أن التعلم المعزز من المكافآت الموثوقة (Reinforcement Learning from Verified Rewards، RLVR) هو الاستراتيجية الأساسية لتحسين قدرة النموذج على الاستدلال.

كما قدموا استراتيجية بسيطة للتنبؤ بالاستدلال من خلال "التنبؤ متعدد الرموز" (Multi Token Prediction)، مما جعل إشارات التدريب أكثر كثافة.

لقد طوروا خط إنتاج "صفر فقاعة" (ZERO bubble) لتحسين كفاءة استخدام موارد GPU المحدودة.

لقد أطلقوا عامل توازن الأحمال الخبير، مما يجعل نشر نماذج MoE أسهل للجميع. خاصةً من خلال استراتيجية "التوسيع المتوازي للخبراء" (Wide Expert Parallel)، يمكن للنماذج تقديم الخدمة بحجم دفعات أكبر، مما يقلل تكلفة الاستدلال بشكل كبير.

لقد ابتكروا آليات مثل MLA وDSA وCSA وHCA لتقليل متطلبات KV Cache وجعل متطلبات الحساب المتزايدة مع طول السياق تبقى قريبة قدر الإمكان من الثبات.

لقد اخترعوا Engram، بتبادل الذاكرة مقابل كفاءة الحساب.

كما اخترعوا mHC، مما يسمح بالتدريب المستقر حتى عند توسيع حجم النموذج. هناك العديد من الأمثلة المشابهة.

في هيكل السرد الأكثر شيوعًا، "رحلة البطل"، لا يقرر البطل من البداية إلى أين ستؤدي رحلته. بل يتعلم على طول الطريق، ويكتشف تدريجيًا مهمته العظيمة الحقيقية، ويحققها رغم العقبات العديدة. سيواجه العديد من المشككين، لكنه يختار تجاهلهم. كما سيواجه العديد من الجهات الفاعلة الضارة. لديه عيوب أو نقاط ضعف واضحة، لكنه في النهاية يتغلب على هذه المشكلات ويُكمل مهمته. إنه يواجه تحديات تبدو غير قابلة للتجاوز، لكنه يجد طرقًا للتحالف، ويدرس كيفية استخدام الموارد المحدودة والثمينة بحكمة. وهذا بالضبط ما يجعل الجمهور يدعم البطل. وهذا أيضًا ما جعل DeepSeek تكسب مؤيدين، واحترامًا عالميًا، ومعارضين.

كما سأشرح بالتفصيل في ما يلي، فقد سلك DeepSeek هذا الطريق لفترة طويلة، وبدأ تدريجيًا في اكتشاف مصيره النهائي: هدفه ليس بيع خطط اشتراك في البرمجة، بل دفع تطوير نظام بيئي صيني للذكاء الاصطناعي بقيمة 10 تريليونات دولار، وتحقيق تقييم قيمته 1 تريليون دولار. وفي هذه العملية، سيوفر أيضًا فرصًا لكثير من الدخول الجدد في النظام البيئي الغربي للعتاد.

ابدأ ببعض حسابات KV Cache المثيرة للاهتمام

يرجى الاطلاع على هذا التغريدة المحدثة من @SemiAnalysis_:

DeepSeek قد حَلَّ هذه المشكلة بشكل أفضل من أي شخص آخر!

لنبدأ ببعض الحسابات الممتعة لـ KV Cache. لا تقلق، حتى لو لم تكن تحب الرياضيات. سنستخدم آلة حاسبة KV Cache التي تم إصدارها مؤخرًا، لرؤية كمية التوفير في KV Cache التي تقدمها DeepSeek V4 Pro، ومقارنتها بأحدث نماذج GLM وQwen.

أنا أحسب هنا بطول سياق قدره 1 مليون، مع افتراض أن دقة KV هي 8 بت، ودقة الفهرس هي 16 بت. يمكنك أيضًا فتح هذا الحاسبة بنفسك لتجربتها: https://kvcache.ai/tools/kv-cache-calculator/

يمكنك أيضًا فتح الآلة الحاسبة بنفسك لتجربتها!

بطول سياق 1,000,000:

·يتطلب DeepSeek V4 فقط 5.48 جيجابايت من HBM؛

·GLM-5 يحتاج إلى 60GB HBM؛

·يتطلب Qwen3-235B-A22B ما يصل إلى 89 جيجابايت من HBM.

يجب الانتباه إلى أن:

·DeepSeek هو نموذج بـ 1.6 تريليون معلمة؛

·GLM-5 يحتوي على حوالي 700 مليار معلمة، وقد تم تبني MLA و DSA من DeepSeek، لكنه لم يستخدم بعد آلية الانتباه المضغوطة الأحدث؛

Qwen3-235B-A22B يحتوي على حوالي 235 مليار معلمة، ويعتمد على آلية انتباه GQA.

قدّم DeepSeek مساهمات أساسية في تخفيف ضغط الذاكرة. إذا تم تبني هذا النوع من الابتكارات على نطاق واسع، فسيتم خفض تكاليف تشغيل الوكلاء ذوي الدورات الطويلة بشكل كبير، وفتح مجموعة جديدة من التطبيقات.

مقارنة في استخدام ذاكرة KV Cache تحت سياق 1,000,000 رمز وحجم نموذج

المنهجية وراء "الجنون"

يُمكن لحجم KV Cache أن يكون صغيرًا جدًا دون التضحية بجودة النموذج، وهو ما يسمح لـ DeepSeek بتقديم تخزين مؤقت طويل الأمد بسعر منخفض جدًا — يقل حتى عن 3% من سعر تطابق Sonnet 4.6، ويمكن لـ DeepSeek الاحتفاظ بالتخزين المؤقت لساعات عديدة.

بالنسبة للمهام طويلة المدى، فإن تخزين KV أصغر يعني إمكانية نقله بشكل أكثر اقتصادًا إلى SSD وإعادة تحميله عند الحاجة. وهذا يقلل من الاعتماد على HBM. من منظور صناعة الأجهزة الذكية الاصطناعية الصينية، فإن HBM ليست فقط نادرة في العرض، بل هي أيضًا أحد أكثر أنواع الذاكرة صعوبة في التصنيع.

بالإضافة إلى ذلك، طور DeepSeek تقنية لتحميل KV Cache بشكل أسرع من SSD، كما ورد في ورقة Dual Path.

يُقلل DeepSeek V4 من حجم ذاكرة KV بنسبة كبيرة جدًا، لدرجة أن هذه الخطوة قد لا تكون ضرورية أصلًا.

فمن هم المستفيدون الأكثر مباشرة من ضغط KV Cache؟

من يزود بكميات كبيرة من SSD؟ لا تنسَ أن YMTC (Yangtze Memory Technologies) تنمو لتصبح عملاقًا في مجال 3D NAND. يمكن أن يساعد NAND DeepSeek على تجنب الحسابات المتكررة KV. بدوره، يخلق DeepSeek سوقًا هائلًا لـ NAND وSSD — مما سيستفيد منه ليس فقط Yangtze Memory Technologies، بل أيضًا الشركات الأخرى ذات الصلة.

لكن هذا لا يتعلق فقط بـ NAND و SSD.

يتمتع ذاكرة LPDDR أيضًا بإمكانات هائلة. يمكن استخدامها كموقع لتخزين أوزان النموذج، ونقل هذه الأوزان تدريجيًا إلى HBM عند الحاجة، مما يخفف الضغط على HBM. سبق لفريق SGLang أن نشر مدونة ممتازة تشرح هذا الحل. توضح الصورة أدناه كيفية عمل هذا الأسلوب.

على الرغم من أن DeepSeek لم يُصمم خصيصًا لهذا الحل، إلا أن بنيته MoE، وامتلاكه لعدد كبير من نماذج الخبراء، وخاصية الأوزان بـ 4 بت، تجعل هذا الحل أسهل في التطبيق.

تُظهر هذه المخطط التوضيحي كيفية استخدام الذاكرة وكيفية تدفق أوزان النموذج من LPDDR إلى HBM. يُوصى بشدة بقراءة مدونة SGLang.

إذا تم دمج هذا الابتكار مع ذاكرة KV Cache مضغوطة للغاية وخالية من فقدان البيانات، فسيقلل بشكل كبير من متطلبات HBM.

من ينتج LPDDR في الصين؟ الإجابة هي CXMT، أي ChangXin Memory Technologies. إنهم يتأخرون فقط بنصف جيل في سرعة LPDDR، وجيل واحد في الكثافة، والفرق ليس كبيرًا.

بالإضافة إلى توفر NAND الكافي، سيتمتع نظام الذكاء الاصطناعي الصيني في المستقبل القريب أيضًا بإمدادات كافية من LPDDR. هل يمكن هذا أن يخفف ضغط القوة الحسابية؟ الإجابة: نعم. استمر في القراءة.

استخدام ذاكرة ذكي يمكنه أيضًا تخفيف ضغط وحدة معالجة الرسومات / وحدات الدوائر المتكاملة المخصصة

استخدام NAND لتخزين KV Cache سهل الفهم: فهو يسمح لـ KV Cache بالاحتفاظ ببياناته لفترة أطول، ويقلل من الضغط على HBM، ويعمل على تجنب إعادة حساب KV Cache، مما يخفف من عبء الحساب على GPU وASIC.

هل يمكن لـ LPDDR أن تلعب دورًا مشابهًا؟ هل يمكنها، بخلاف كونها موقع تخزين يمكنه "البث الفوري حسب الطلب" للأوزان إلى HBM، تقليل الضغط الحسابي بشكل إضافي؟

الإجابة هي: نعم.

يمكن استخدام LPDDR لتخزين كميات كبيرة من المحتوى المسمى Engram. في ورقة DeepSeek حول Engram، أشاروا إلى أن MoE يمكنه توسيع سعة النموذج من خلال الحساب المشروط، لكن Transformer نفسه يفتقر إلى آلية "بحث عن المعرفة" أصلية. لذلك، غالبًا ما يضطر Transformer إلى محاكاة عملية الاسترجاع بشكل غير فعال من خلال الحساب.

لحل هذه المشكلة، اقترح DeepSeek وحدة Engram. إنها تُحديث تضمين N-gram الكلاسيكي إلى آلية بحث O(1) تعتمد على التجزئة، مما يخلق مسارًا نادرًا تكميليًا يسمونه الذاكرة المشروطة (conditional memory).

هذه الطريقة يمكن أن توفر الحساب، لكنها تتطلب ذاكرة لاستيعاب جدول التضمين، والذي قد يكون ضخمًا بحد ذاته.

في جوهره، هذه خطة نموذجية تعتمد على "تبادل الذاكرة مقابل الحساب". لكن إدراكها الأساسي هو أن جانب "الذاكرة" أرخص بكثير من حيث تكلفة قراءة كل بت من البيانات — فبحث LPDDR واحد أرخص بكثير من جعل البيانات تمر عبر طبقات متعددة من Transformer لأداء حساب تقدمي واحد. لذا، في السيناريوهات الكبيرة الحجم، هذه مبادلة مربحة جدًا.

هذا هو كيفية تحقيق DeepSeek لتوفير الحوسبة من خلال التضحية بجزء من الذاكرة.

التسوية المستحقة

بسبب عدم وجود كثافة ترانزستورات شريحة مماثلة، وعدم وجود EUV، فمن المحتمل أن تظل وحدات معالجة الرسومات والدوائر المتكاملة المخصصة الصينية متخلفة على المدى الطويل عن وحدات معالجة الرسومات الغربية من حيث القوة الحسابية الأولية FLOPs. كما أن لديها فجوة واضحة أيضًا في التغليف المتقدم. لذلك، فإن هذا التوازن يستحق القيام به بشدة، خاصةً في ظل قدرة الصين على إنتاج كميات كبيرة من ذاكرة NAND وLPDDR.

مراجعة الاستراتيجية طويلة الأجل لـ DeepSeek

من هذه الابتكارات، يبدو أن هدف DeepSeek ليس تحقيق أرباح ببضعة مليارات من الدولارات في الوقت الحالي. فكثير من الخيارات التي اتخذتها في الماضي توضح ذلك: حتى الآن، لا توجد نماذج متعددة الوسائط، ولا نماذج صوتية، ناهيك عن نماذج الفيديو.

ما يشارك فيه حقًا هو لعبة طويلة الأمد، تتطلب صبرًا وقد يصل حجمها إلى 10 تريليونات دولار: تعزيز تشكيل نظام بيئي بديل للذكاء الاصطناعي من حيث الأجهزة.

هذا ليس فقط لجعل شركات الذاكرة الصينية لاعبًا رئيسيًا في سوق الأجهزة الذكية الاصطناعية في الصين وعالميًا، بل أيضًا لتقليل متطلبات الموارد جذريًا، مما يجعل تدريب نماذج الذكاء الاصطناعي وخدماتها أكثر كفاءة من حيث التكلفة. وهكذا، تصبح العديد من شركات GPU وASIC وشرائح الشبكات خيارات قابلة للتطبيق.

في الوقت نفسه، ستستفيد أيضًا بيئات المصدر المفتوح الغربية وصانعو الأجهزة الجدد من هذه الابتكارات.

جميع المؤشرات ظهرت بالفعل. دعونا نستعرض بالتفصيل الابتكارات التي طرحها DeepSeek حتى الآن:

1. نموذج المُخَبِّر المختلط (MoE) وMLA المُقدَّم في DeepSeek V2

أدخل DeepSeek MoE وMLA في V2. يقلل MoE كمية الحساب المطلوبة لتدريب نماذج ذات ذكاء عالٍ بنسبة حوالي 40% إلى 50%؛ بينما يقلل MLA ذاكرة KV Cache بنسبة 90%.

هذا يجعل نقل KV Cache إلى SSD فعالًا إلى حد كبير.

ظهرت هذه الأفكار لأول مرة في ورقة DeepSeek V2 التي نشرتها DeepSeek في مايو 2024. لاحقًا، وضعت الأساس لتدريب DeepSeek V3. في ذلك الوقت، تدربت DeepSeek باستخدام 2048 وحدة معالجة رسومية H800 مُضعفة الأداء فقط، وطورت نظامًا بمستوى أداء يقارب نماذج مغلقة المصدر.

2. DSA: تم تقديمه في DeepSeek V3.2 Exp لتقليل تكاليف الحساب في سيناريوهات السياق الطويل، مع تخفيف ضغط عرض النطاق الترددي للـ HBM.

الدور الأساسي لـ DSA هو ضمان عدم استمرار زيادة كمية الحساب مع زيادة طول السياق. يمكنك النظر إلى الرسم البياني التالي: مع زيادة طول السياق، يظل وقت معالجة DeepSeek-V3.2 تقريبًا ثابتًا.

3. mHC: تم اقتراحه من قبل DeepSeek في ورقة بحثية بعنوان "mHC: Manifold-Constrained Hyper-Connections" في ديسمبر 2025.

mHC هي ابتكار من DeepSeek على مستوى البنية العامة، حيث أعادت تصميم طريقة تدفق المعلومات بين طبقات Transformer.

في الماضي، استخدمت النماذج منذ ResNet عادةً وصلات_residual_ القياسية، أي x + F(x). أما في mHC، فتم توسيع تدفق الـ_residual_ ليصبح عدة قنوات معلومات متوازية، مع السماح للنموذج بخلط قابل للتعلم بين هذه القنوات. المفتاح هو تقييد مصفوفة الخلط لتكون مصفوفة مزدوجة عشوائية، أي تقييدها على متعدد السطوح Birkhoff من خلال إسقاط Sinkhorn-Knopp. وبهذه الطريقة، يمكن ضمان رياضيًا أن سعة الإشارة ستبقى مستقرة، بغض النظر عن عمق النموذج.

هذا يحل مشكلة عدم الاستقرار الكارثي التي واجهتها Hyper-Connections غير المقيدة. تم اقتراح Hyper-Connections في الأصل من قبل ByteDance، ولكن دون قيود، كان تضخيم الإشارة يرتفع إلى 3000 مرة على نطاق 27 مليار معلمة، مما أدى في النهاية إلى انهيار التدريب بالكامل.

تكلفة حساب mHC منخفضة جدًا: فهي تضيف فقط حوالي 6.7% من وقت التدريب الفعلي، لأنها لا تغير FLOPs في طبقات الانتباه أو طبقات FFN، بل تغير فقط طريقة توجيه مخرجات هذه الطبقات بين الطبقات.

لكن التحسن في الأداء الذي يحققه واضح جدًا: بحجم 27 مليار معلمة، يحقق mHC تحسنًا قدره 7.2 نقطة في مهام الاستدلال BIG-Bench Hard، و3.2 نقطة في DROP، و2.8 نقطة في مهام الرياضيات GSM8K، و1.4 نقطة في مهام المعرفة العامة MMLU. وكل هذه التحسينات تم تحقيقها بنفس حجم النموذج ونفس الميزانية الحسابية تقريبًا.

بشكل أساسي، يحقق mHC ذكاءً أعلى لكل معلمة تقريبًا دون زيادة إضافية في FLOPs، من خلال توفير توبولوجيا توجيه معلومات عبر الطبقات أكثر ثراءً وقدرة على التعبير للشبكة.

mHC هو تصميم معماري معقد، لكنه قادر على توفير عملية تدريب أكثر استقرارًا وذكاءً أعلى لكل معلمة.

4، CSA، HSA: تم إدخالها من قبل DeepSeek في V4 في أبريل 2026.

يهدف CSA و HSA إلى تقليل متطلبات KV Cache بمقدار 90٪ إضافية من خلال ضغط KV Token، مع تقليل كبير في عدد FLOPs المطلوبة، مما يخفف في الوقت نفسه الضغط على HBM و GPU / ASIC.

5. Engram: تم تقديمه من قبل DeepSeek في الربع الأول من عام 2026، وهو في جوهره تبادل للكفاءة الحسابية من خلال استخدام الذاكرة، أي ذاكرة LPDDR.

كما هو موضح في الرسم التفصيلي أدناه، قدم Engram تحسينًا ملحوظًا في الأداء مع نفس الميزانية الإجمالية للمعلمات.

6. Engram: تم تقديمه من قبل DeepSeek في الربع الأول من عام 2026، وهو في جوهره تبادل لبعض الحسابات باستخدام الذاكرة، أي ذاكرة LPDDR.

كما هو موضح في الرسم التفصيلي أدناه، قدم Engram تحسينًا ملحوظًا في الأداء مع نفس الميزانية الإجمالية للمعلمات.

هذا هو التوصية التي شاركها DeepSeek مع شركات الأجهزة في ورقة V4. أنا متأكد تمامًا أنهم قدموا ملاحظات إضافية خلال التفاعلات المباشرة.

7. الاستثمار في TileLang يشير أيضًا إلى نفس الاتجاه: DeepSeek لا تحل فقط مشكلة ضيق قدرات الحوسبة الخاصة بها، بل تدفع لتمكين البيئة الصينية للعتاد من المنافسة مع البيئة الغربية.

باستخدام TileLang، يمكن للمطورين كتابة kernel واحد فقط، أي الكود الأساسي المستخدم للحساب، ثم تشغيله بنجاح على عدة منصات أجهزة، بشرط أن تكون هناك دعم خلفي لـ TileLang متوفر لهذه المنصات.

أتوقع أن تنضم مختبرات الذكاء الاصطناعي الصينية الأخرى تدريجيًا. وهذا سيساعد شركات الأجهزة الصينية على التصدي بشكل غير مباشر لما يُعرف بـ"خندق CUDA". في الوقت نفسه، سيُطلق إمكانات أكبر للأجهزة الغربية، مثل AMD.

يجب التوضيح أن العديد من منصات الأجهزة الذكية الاصطناعية في الصين توفر قدرات متوافقة مع CUDA أو طبقات ترجمة CUDA. على سبيل المثال، Moore Threads وMuXi وBiRen وTianshui Intelligent Chip هي شركات صينية للرقائق تحقق توافقًا عاليًا مع CUDA من خلال طبقات الترجمة. وبالتالي، من الناحية النظرية، لا تحتاج بالضرورة إلى TileLang.

التعلم المعزز الواسع النطاق وRSI

مع حصول DeepSeek على مصادر حسابية إضافية، أي زيادة خيارات الأجهزة، وفي الوقت نفسه انخفاض احتياجات النموذج ذاته من الموارد الحسابية، يمكنه المضي قدمًا في مشاريع تدريب أكثر طموحًا، خاصة التدريب بعد التدريب بالتعلم المعزز.

يتطلب التعلم المعزز توليد كميات كبيرة من المسارات، أي توليد تريليونات من الرموز. سيصبح هذا العملية باهظة التكلفة بسرعة. علاوة على ذلك، إذا كان الهدف تدريب نموذج بطول سياق يبلغ مليون رمز، فسيكون من الضروري توليد مسارات بنفس الطول. فقط من خلال تدريب النموذج على هذه المسارات الطويلة جدًا، يمكن دعم المهام طويلة المدى بشكل فعلي.

بالإضافة إلى ذلك، مع زيادة خيارات الأجهزة، ستزداد الموارد hardware المتاحة لـ DeepSeek، مما سيدفع البحث التلقائي، المعروف باسم RSI. يشير RSI إلى قدرة الذكاء الاصطناعي على تصميم وتنفيذ التجارب بنفسه. ستتطلب هذه الطريقة عددًا كبيرًا من المحاولات والخطأ، وسترتفع التكاليف بسرعة. لكن RSI ضرورية لاستكشاف كامل فضاء تصميم النموذج. قبل الوصول إلى AGI، ثم إلى ASI لاحقًا، يجب أن تمتلك DeepSeek قدرة RSI.

ما يفعله DeepSeek اليوم، ستتبعه الصناعة بأكملها غدًا

الابتكارات التي طورها DeepSeek في مجالات نماذج المزيج الخبير، وMLA، وDSA، تم اعتمادها تدريجيًا من قبل مختبرات الذكاء الاصطناعي الأخرى عالميًا وفي الصين.

على سبيل المثال، استخدمت ZAI، المطوّرة لسلسلة نماذج GLM، MLA وDSA. كما اعتمدت Kimi، أي Moonshot، MLA وأعلنت صراحةً أن بنيتها مبنية على بنية DeepSeek. وبالمقابل، تستخدم DeepSeek مُحسّن Muon، الذي تم تبنيه لأول مرة من قبل Kimi (Moonshot) في التدريبات الواسعة النطاق.

يجب التوضيح أن:

تم تقديم MoE لأول مرة من قبل Google في عام 2017، والمؤلف الرئيسي هو نوم شازير. إن إسهام DeepSeek يكمن في تطبيق MoE على نطاق واسع، واختراع تقنياته المصاحبة الخاصة به.

Muon، وهو مُحسِّن MomentUm Orthogonalized by Newton-Schulz، تم اقتراحه في أواخر عام 2024 من قبل باحث التعلم الآلي كيلر جوردن. كان فريق Kimi (Moonshot) أول فريق يستخدمه في التدريب على نطاق واسع.

ماذا عن مشكلة كسب المال؟

يمكننا أن ننظر إلى مثال OpenAI المثير للاهتمام.

حصلت OpenAI على خيارات شراء أسهم AMD وCerebras بأسعار أقل، مرتبطة بمحطات رئيسية في استهلاكها للقوة الحسابية. هذه صفقة مربحة جدًا لـ AMD وCerebras، لأن التزام OpenAI باستخدام أجهزتهما يزيد بشكل كبير من احتمالية نجاحهما على المدى الطويل.

يحتوي إعلان AMD على فقرة كالتالي:

كجزء من الاتفاقية، ولتعزيز التنسيق بين المصالح الاستراتيجية للطرفين، منحت AMD لـ OpenAI خيارات شراء ما يصل إلى 160 مليون سهم عادي من AMD، وستُمنح تدريجيًا وفقًا لبلوغ مراحل محددة. ستُمنح الدفعة الأولى عند إكمال النشر الأولي بقدرة 1 جيجاواط، بينما ستُمنح الدفعات اللاحقة تدريجيًا مع زيادة المشتريات حتى تصل إلى 6 جيجاواط. كما تشترط شروط المنح بلوغ AMD أهدافًا محددة في سعر السهم، وتحقيق OpenAI للمعايير التقنية والتجارية اللازمة لتمكين النشر الواسع النطاق من قبل AMD.

أتوقع أن يتوصل DeepSeek أيضًا إلى اتفاقيات مماثلة مع العديد من شركات الصين المتخصصة في الذاكرة وASIC وCPU وبنية تقنية الشبكة، وسيتعاون معها بشكل عميق لتمكين بنى الأجهزة الخاصة بهذه الشركات من تحمل أحمال العمل الرائدة في مجال الذكاء الاصطناعي.

بما أن القيمة السوقية الإجمالية لأسهم الذكاء الاصطناعي في جميع الدول الغربية، بما في ذلك حلفاء شرق آسيا، تتجاوز بالفعل 10 تريليونات دولار، فإن هذا النهج "الحصول على عوائد أسهم من خلال التعاون" سيمنح DeepSeek فرصة للمساعدة في بناء صناعة ضخمة مماثلة في الصين، والحصول على حصة منها، مما يحقق في النهاية تقييمًا قدره تريليون دولار.

هذا لن يُمكّن DeepSeek من كسب أموال تفوق بكثير إيرادات اشتراكات التطبيقات التقليدية، بل سيحقق أيضًا هدفها المتمثل في "جعل AGI في متناول الجميع". إن ليان وينفنغ من المعجبين المخلصين لجيم سيمونز، وهو لاعب رأسمالي ذكي بما يكفي ليُفوّت هذه النقطة.

إذا نظرت للخلف إلى كل ما قام به DeepSeek حتى الآن، فهذا التفسير الوحيد هو الأكثر منطقية.

هذه هي الأسهم الرئيسية للذكاء الاصطناعي. لم تُضم بعد الشركات الضخمة للحوسبة السحابية، وكذلك العديد من الشركات الأخرى ذات الصلة.

الرابط الأصلي