يناقش الخبراء تأثير OpenClaw على وكلاء الذكاء الاصطناعي وتحديات الحوسبة

الكاتب: تشين جوندا

نقلت "تشي شي دينغ" في 27 مارس أن اليوم، خلال منتدى تشونغتشيانغ، ظهر معًا نادرًا تشانغ بينغ، الرئيس التنفيذي لشركة زهي بو، ويانغ زهي لين، الرئيس التنفيذي لشركة مون آوف دارك نيس (الذي تولى إدارة النقاش)، ولو فو لي، المسؤول عن نموذج مي مو الكبير من شركة شاومي، وشيا لي شو، الرئيس التنفيذي لشركة وو وين شين كيونغ، وأستاذ مساعد في جامعة هونغ كونغ هوانغ تشاؤ، في حوار عميق حول مستقبل النماذج الكبيرة المفتوحة المصدر والوكلاء الذكيين.

دخلت هذه المحادثة من خلال OpenClaw الأكثر رواجًا حاليًا، واتفق الضيوف على أن الوكلاء جعلت النماذج الكبيرة تبدأ حقًا في "العمل". يمكّن OpenClaw من توسيع حدود قدرات النماذج الكبيرة، لكنه يفرض متطلبات أعلى على النماذج؛ حيث تبحث Zhipu في قدرات التخطيط الطويل المدى والتصحيح الذاتي، بينما يركز فريق Luo Fuli على خفض التكاليف وزيادة السرعة من خلال الابتكار في البنية، وحتى تحقيق تطور ذاتي للنموذج.

يجب أن تواكب البنية التحتية وتيرة الوكلاء. ترى شيا ليشوي أن أنظمة الحوسبة والهياكل البرمجية الحالية ما زالت مصممة للبشر، وليس للوكلاء، مما يحد فعليًا من مساحة أداء الوكلاء من خلال قدرات التشغيل البشرية. لذلك، نحن بحاجة إلى بناء بنية تحتية للوكلاء.

في عيون ضيوف متعددين، يُعدّ المصدر المفتوح أحد الدوافع الأساسية لدفع تطور النماذج الكبيرة والوكلاء. ويعتقد الأستاذ المساعد في جامعة هونغ كونغ، هوانغ تشاؤ، أن ازدهار البيئة المفتوحة المصدر هو المفتاح لانتقال الوكلاء من مجرد "تجربة ترفيهية" إلى أن يصبحوا "عمالًا حقيقيين"، حيث فقط من خلال التعاون المجتمعي يمكن تحقيق التحول الشامل للبرمجيات والبيانات والتكنولوجيا إلى أشكال أصلية للوكلاء، مما يؤدي في النهاية إلى تشكيل نظام ذكاء اصطناعي عالمي مستدام.

بالإضافة إلى ذلك، ناقش الضيوف عدة موضوعات مثل ارتفاع أسعار النماذج الكبيرة، والانفجار في استخدام الرموز، وكلمات المفتاح للذكاء الاصطناعي في الأشهر الـ12 القادمة. فيما يلي النقاط الأساسية من هذه المناقشة الدائرية:

1. تشانغ بينغ: بعد أن يصبح النموذج أكبر، ترتفع تكاليف الاستدلال بشكل متناسب، وفي الواقع، فإن استراتيجية رفع الأسعار التي اتبعتها زهي بو مؤخرًا هي عودة إلى القيمة التجارية الطبيعية، حيث إن المنافسة على الأسعار المنخفضة على المدى الطويل لا تخدم صناعة التطور.

2. تشانغ بينغ: انفجار التقنيات الجديدة مثل الوكلاء الذكيين أدى إلى زيادة استخدام الرموز بمقدار 10 أضعاف، لكن الطلب الفعلي قد يزيد بمقدار 100 ضعف، ولا يزال هناك طلب كبير غير مُلبَّى، لذا فإن قوة الحوسبة لا تزال مشكلة رئيسية خلال الأشهر الـ12 المقبلة.

3. لوفلي: من منظور مُصنّعي النماذج الأساسية الكبيرة، يضمن OpenClaw الحد الأدنى للنموذج الأساسي الكبير ويرفع الحد الأقصى. لقد أصبح إنجاز المهام للنماذج المفتوحة المحلية بالإضافة إلى OpenClaw قريبًا جدًا من Claude.

4. لوفلي: قدم DeepSeek الشجاعة والثقة لشركات النماذج الكبيرة المحلية. أثارت بعض ابتكارات هيكل النموذج التي تبدو وكأنها "تنازلات من أجل الكفاءة" تغييرًا حقيقيًا، مما مكن الصناعة من تحقيق أعلى مستوى ذكي ممكن ضمن قدرات الحوسبة المحدودة.

5. روفلي: أهم شيء في رحلة AGI خلال العام القادم هو "التطور الذاتي". يسمح التطور الذاتي للنماذج الكبيرة بالاستكشاف مثل العلماء الرائدين، وهو المكان الوحيد الذي يمكنه "خلق أشياء جديدة". وقد استخدمت شاومي Claude Code مع النماذج الرائدة لرفع كفاءة البحث بمقدار 10 مرات.

6. شيا ليشو: عندما يأتي عصر AGI، يجب أن تكون البنية التحتية نفسها وكيلًا ذكيًا، تدير نفسها بشكل مستقل، وتحسّن البنية التحتية وفقًا لاحتياجات العملاء الذكاء الاصطناعي، لتحقيق التطور الذاتي والتحديث الذاتي.

7. شيا ليشوي: فتح OpenClaw باب استهلاك الرموز. إن سرعة استهلاك الرموز الحالية تشبه الشعور في عصر 3G عندما كان يُمنح كل مستخدم فقط 100 ميغابايت من بيانات الهاتف شهريًا.

8. هوانغ تشاؤ: في المستقبل، لن تكون العديد من البرامج موجهة للبشر، بل ستكون البرامج والبيانات والتكنولوجيا مبرمجة على شكل عوامل Agent-Native، وقد يحتاج البشر في المستقبل فقط إلى استخدام واجهات المستخدم الرسومية "التي تجعلهم سعداء".

هذا هو السجل الكامل للجلسة المستديرة:

01. OpenClaw هو مجرد "هيكل داعم"، واستهلاك رموز النموذج الكبير لا يزال في عصر 3G

يانغ زهيلين: يسعدني أن أرحب اليوم بضيوفنا الكرام، الذين يمثلون طبقات النموذج، وطبقة الحوسبة، وحتى طبقة الوكلاء. الكلمة المفتاحية الأساسية اليوم هي مفتوح المصدر، بالإضافة إلى الوكلاء.

السؤال الأول يتناول OpenClaw الأكثر شعبية حاليًا. ما هي النقاط التي تراها الأكثر إبداعًا أو إثارة للانطباع عند استخدام OpenClaw أو منتجات مشابهة في الحياة اليومية؟ من منظور تقني، كيف ترى تطور OpenClaw والوكيلات المرتبطة به اليوم؟

تشانغ بينغ: منذ وقت طويل، بدأت ألعب OpenClaw بنفسني، عندما كان يُسمى Clawbot. قمت بتجربته بنفسي، وبما أنني مبرمج، فقد كان لدي بعض التجارب الشخصية مع هذه الأشياء.

أعتقد أن أكبر نقطة تقدم أو إثارة تقدمها OpenClaw للجميع هي أنها لم تعد حكرًا على المبرمجين أو محبي التكنولوجيا. يمكن للأشخاص العاديين الآن استخدام قدرات النماذج الرائدة بسهولة نسبيًا، خاصة في مجالات البرمجة والوكلاء.

لذلك، خلال تفاعلي معكم حتى الآن، أفضّل وصف OpenClaw بأنه "هيكل داعم". فهو يوفر إمكانية بناء هيكل داعم قوي وسهل الاستخدام، لكنه في نفس الوقت مرن، ويمكنكم استخدام الميزات المبتكرة التي توفرها النماذج الأساسية وفقًا لرغباتكم.

كان يُحتمل أن تقتصر أفكاري على عدم قدرتي على كتابة الكود أو عدم إتقاني للمهارات ذات الصلة الأخرى، لكن اليوم مع OpenClaw، أستطيع إنجازها من خلال تواصل بسيط جدًا.

فتحت لي Claw تأثيرًا كبيرًا، أو قل إنها جعلتني أعيد التفكير في هذا الأمر.

شيا ليشو: في الواقع، عندما استخدمت OpenClaw لأول مرة، لم أكن معتادة عليه، لأنني اعتدت على أسلوب التفاعل مع النماذج الكبيرة، وبعد الاستخدام شعرت أن OpenClaw يرد ببطء.

لكنني لاحظت لاحقًا مشكلة، وهي أن لديها فرقًا كبيرًا مع روبوتات الدردشة السابقة، فهي تشبه "شخصًا" يمكنه مساعدتي في إنجاز مهام كبيرة. بدأت في تقديم مهام أكثر تعقيدًا، ووجدت أنها تستطيع القيام بها بشكل جيد جدًا.

لقد أثارت لي هذه المسألة إحساسًا عميقًا. فمنذ البداية، كان النموذج يتحدث بناءً على الرموز، والآن أصبح قادرًا على التحول إلى وكيل، حتى إلى قشريّة، ليُساعِدك في إنجاز المهام. هذه المسألة تُوسع بشكل كبير من مساحة الخيال الشاملة للذكاء الاصطناعي.

في الوقت نفسه، أصبحت متطلبات النظام بأكمله أعلى بكثير. وهذا هو السبب في أنني عندما استخدمت OpenClaw في البداية، شعرت أنه كان بطيئًا قليلاً. كمُزوّد لطبقة البنية التحتية، أرى أن OpenClaw تفتح فرصًا وتحديات أكبر للنظام الكبير والبيئة المحيطة بالذكاء الاصطناعي.

الموارد التي نمتلكها حاليًا غير كافية لدعم عصر النمو السريع هذا. على سبيل المثال، بالنسبة لشركتنا، بدءًا من نهاية يناير، تضاعف استهلاكنا للعملات المعدنية تقريبًا كل أسبوعين، وارتفع الآن بنحو 10 أضعاف.

آخر مرة رأيت فيها هذا السرعة، كان عندما كنت أستخدم هاتف 3G وأستهلك بياناتي. لدي شعور أن استخدام الرموز الحالي يشبه زمن كان فيه لدينا فقط 100 ميغابايت من بيانات الهاتف شهريًا.

في هذه الحالة، نحتاج إلى تحسين وتكامل جميع مواردنا بشكل أفضل، بحيث يتمكن كل فرد، ليس فقط في مجال الذكاء الاصطناعي، بل في جميع أنحاء المجتمع، من استخدام قدرات الذكاء الاصطناعي الخاصة بـ OpenClaw.

كمُشارك في البنية التحتية، أنا متحمس جدًا ومتضرر عميقًا من هذا العصر. وأعتقد أن هناك الكثير من مجالات التحسين التي لا زال يتعين علينا استكشافها وتجربتها.

02. OpenClaw يرفع الحد الأعلى للنماذج المحلية، ويُعد تجاوز وضع التفاعل ذا أهمية كبيرة

رو فولي: أعتبر OpenClaw حدثًا ثوريًا ومحطمًا تمامًا في تطور إطار العمل الخاص بالوكلاء.

في الواقع، فإن أول اختيار جميع الأشخاص من حولي الذين يقومون ببرمجة متقدمة جدًا لا يزال هو Claude Code. لكنني أؤمن أن مستخدمي OpenClaw سيشعرون بأن العديد من تصاميمه في إطار العامل (Agent) متقدمة على Claude Code. في الآونة الأخيرة، فإن العديد من التحديثات التي أجرتها Claude Code تتجه نحو تقليد OpenClaw.

عند استخدامي لـ OpenClaw، شعرت أن هذا الإطار يمنحني قدرة أكبر على توسيع خيالي في أي وقت وأي مكان. في البداية، كان Claude Code يقتصر على توسيع إبداعي على سطح مكتبي، لكن OpenClaw يمكنه توسيع إبداعي في أي وقت وأي مكان.

القيمة الأساسية التي يقدمها OpenClaw تتمثل في نقطتين رئيسيتين. النقطة الأولى هي أنه مفتوح المصدر. إن كونه مفتوح المصدر يُسهل بشكل كبير مشاركة المجتمع بشكل عميق، ويعزز الاهتمام ويدفع تطور هذا الإطار، وهو شرط أساسي مهم.

أعتقد أن إحدى القيم الكبيرة لإطارات الذكاء الاصطناعي مثل OpenClaw هي أنها رفعت الحد الأقصى للنماذج المحلية التي تقترب من مستوى النماذج المغلقة ولكنها لم تصل إليها بالكامل.

في معظم السيناريوهات، ستجد أن إكمال المهام الخاص بها (النموذج المفتوح المصدر المحلي + OpenClaw) قريب جدًا من أحدث نماذج Claude. كما أنها تضمن بشكل جيد الحد الأدنى من الأداء — من خلال نظام Harness، أو من خلال تصميمات متعددة مثل نظام المهارات، لضمان اكتمال المهام ودقتها.

باختصار، من منظور مطوري شركات النماذج الأساسية الكبيرة، يضمن OpenClaw الحد الأدنى للنموذج الأساسي الكبير ويرفع الحد الأقصى.

بالإضافة إلى ذلك، أعتقد أن القيمة الأخرى التي أضافتها إلى المجتمع بأكمله هي أنها أشعلت وعي الجميع، وأظهرت أن طبقة الوكلاء (Agent) تختزن مساحة كبيرة جدًا من التخيل خارج النماذج الكبيرة.

لقد لاحظت أيضًا مؤخرًا أن عددًا متزايدًا من الأشخاص في المجتمع، بخلاف الباحثين، يبدأون في المشاركة في ثورة AGI، حيث يبدأ المزيد من الناس في استخدام إطارات وكيل أكثر قوة مثل Harness و Scaffold. هؤلاء الأشخاص، إلى حد ما، يستخدمون هذه الأدوات لاستبدال جزء من أعمالهم، وفي نفس الوقت يحررون وقتهم ليخصصوه لأمور أكثر إبداعًا.

هوانغ تشاؤ: أعتقد أن أول سبب لنجاح OpenClaw من حيث نمط التفاعل هو أنه قدم تجربة أكثر "إنسانية". في الواقع، نحن نعمل على الوكلاء منذ عامين تقريبًا، لكن الوكلاء السابقين مثل Cursor وClaude Code كانوا يُشعرون المستخدمين أكثر كـ"أدوات". أما OpenClaw، فلأول مرة، من خلال دمجه كجزء من برنامج مراسلة فوري، أثار شعورًا أقرب إلى "جافييس الشخصي" الذي يتخيله الناس. أعتقد أن هذا قد يكون اختراقًا في نمط التفاعل.

نقطة أخرى، إنها تقدم إلهامًا للمجتمع بأكمله: لقد ثبت مرة أخرى أن الإطار البسيط لكنه الفعال مثل Agent Loop قابل للتطبيق. في الوقت نفسه، فإنها تدفعنا لإعادة التفكير في سؤال: هل نحتاج إلى وكيل فائق قادر على القيام بكل شيء، أم نحتاج إلى "مُدير صغير" أفضل، مثل نظام تشغيل خفيف أو هيكل داعم؟

الفكرة التي يقدمها OpenClaw هي من خلال هذا "النظام الصغير" أو "نظام تشغيل الجراد البحر" وبيئته، أن تُشعر الجميع بعقلية "اللعب"، مما يُحرّك جميع الأدوات داخل البيئة بأكملها.

مع ظهور مهارات مثل Skills و Harness، يمكن لعدد متزايد من الأشخاص تصميم تطبيقات موجهة لأنظمة مثل OpenClaw لتمكين مختلف الصناعات. أعتقد أن هذا الجانب مرتبط بشكل طبيعي جدًا ببيئة المصدر المفتوح بأكملها. في رأيي، هذان الجانبان هما أكبر الدروس التي استفدناها.

03. النموذج الجديد GLM مصمم خصيصًا للعمل، وارتفاع السعر هو عودة إلى القيمة التجارية الطبيعية

يان زهي لين: أود أن أسأل تشانغ بنغ. مؤخرًا، رأيت أن Zhipu أطلقت نموذج GLM-5 Turbo الجديد، وأفهم أن هناك تحسينات كبيرة في قدرات Agent. هل يمكنك تقديم مقدمة عن الفروق بين هذا النموذج الجديد والنمذجات الأخرى؟ بالإضافة إلى ذلك، لاحظنا وجود استراتيجية لرفع الأسعار، ما هي إشارات السوق التي تعكسها؟

تشانغ بينغ: هذا سؤال رائع. قبل يومين، قمنا بالفعل بتحديث عاجل، وهذا في الواقع مرحلة من مسار تطورنا العام، لكننا أطلقناه مبكرًا.

الهدف الرئيسي هو الانتقال من "المحادثة البسيطة" إلى "القيام بعمل حقيقي" — وهذا ما يشعر به الجميع حاليًا على نطاق واسع: لم تعد النماذج الكبيرة مجرد قادرة على المحادثة، بل يمكنها حقًا مساعدة الناس في أداء المهام.

لكن المتطلبات القدرة الكامنة وراء "أداء المهام" عالية جدًا. يجب على النموذج أن يخطط للمهام الطويلة الأمد بنفسه، ويجرب ويخطئ باستمرار، ويضغط السياق، ويصلح الأخطاء، وقد يحتاج أيضًا إلى معالجة معلومات متعددة الوسائط. لذا، فإن متطلبات قدرة النموذج هنا تختلف إلى حد كبير عن النماذج العامة الموجهة للحوار التقليدية. تم تعزيز GLM-5 Turbo بشكل خاص في هذه الجوانب، خاصةً في ما ذكرته — جعله يؤدي المهام ويعمل لمدة سبع وسبعين ساعة، وكيف يمكنه الاستمرار في الحلقات دون انقطاع، حيث بذلنا جهدًا كبيرًا في هذا الصدد.

كما يهتم الناس كثيرًا بمسألة استهلاك الرموز. إن تكليف نموذج ذكي بمهام معقدة يؤدي إلى استهلاك هائل للرموز. قد لا يشعر العاديون بهذه الظاهرة بعمق، لكنهم يلاحظون عند مراجعة الفواتير أن الأموال تنخفض بسرعة كبيرة. لذا، قمنا أيضًا بتحسين هذا الجانب، بحيث يمكن للنموذج إنجاز المهام المعقدة بكفاءة رمزية أعلى. بشكل عام، لا يزال هيكل النموذج هو هيكل عام متكامل للوظائف المتعددة، لكننا عززنا قدراته بشكل انتقائي.

في الواقع، من السهل تفسير سبب رفع الأسعار. كما ذكرنا للتو، لم يعد الأمر مجرد طرح سؤال والحصول على إجابة واحدة، فسلسلة الاستدلال خلفه طويلة جدًا. تتطلب العديد من المهام التفاعل مع الكود والبنية التحتية الأساسية، بالإضافة إلى تصحيح الأخطاء المستمر، مما يستهلك كمية كبيرة جدًا. كمية التوكنات المطلوبة لإكمال مهمة معقدة قد تكون عشرة أضعاف أو حتى مائة ضعف كمية التوكنات المطلوبة للإجابة على سؤال بسيط.

لذلك، كان من الضروري رفع السعر، كما زاد حجم النموذج، مما أدى إلى ارتفاع تكلفة الاستدلال بشكل متناسب. نحن نعيد تقييمه وفقًا للقيمة التجارية الطبيعية، لأن المنافسة المستمرة على الأسعار المنخفضة لا تخدم تطور الصناعة على المدى الطويل. هذا أيضًا ما يمكّننا من إنشاء حلقة مغلقة إيجابية للتجزئة، وتحسين قدرات النموذج باستمرار، وتقديم خدمة أفضل لكم.

04. بناء مصنع رموز أكثر كفاءة، يجب أن تكون البنية التحتية نفسها أيضًا عاملًا

يان زهيلين: أصبحت النماذج المفتوحة المصدر أكثر شيوعًا، وبدأت تشكيل نظام بيئي، حيث يمكن للنماذج المختلفة تقديم قيمة أكبر للمستخدمين على منصات حوسبة متنوعة. مع الانفجار في استخدام الرموز، تنتقل النماذج الكبيرة من عصر التدريب إلى عصر الاستدلال. أود أن أسأل لي شوي، من منظور البنية التحتية، ماذا يعني عصر الاستدلال بالنسبة لـ Wuwen؟

شيا ليشو: نحن شركة بنية تحتية وُلدت في عصر الذكاء الاصطناعي، ونقدم حاليًا الدعم لـ Zhipu وKimi وMimo وغيرها، لتمكين الجميع من استخدام مصانع الرموز بشكل أكثر كفاءة. كما نتعاون أيضًا مع العديد من الجامعات والمعاهد البحثية.

لذلك كنا دائمًا نفكر في شيء واحد: ما هي البنية التحتية المطلوبة لعصر الذكاء العام الاصطناعي؟ وكيف يمكننا تحقيقها ومحاكاتها خطوة بخطوة. لقد أعددنا أنفسنا بشكل كافٍ لحل المشكلات المطلوبة في المراحل القصيرة والمتوسطة والطويلة الأجل.

السؤال الأكثر مباشرة حاليًا هو ما ناقشه الجميع للتو — الزيادة الهائلة في كمية الرموز التي أطلقها Open، مما فرض متطلبات أعلى لتحسين كفاءة النظام. بما في ذلك تعديل الأسعار، الذي يُعد في الواقع نوعًا من الاستجابة لهذا الطلب.

لقد كنا دائمًا نخطط ونحل المشكلات من خلال تكامل الحلول البرمجية والعتادية. على سبيل المثال، قمنا بتوصيل معظم أنواع رقائق الحوسبة، وربطنا بشكل موحد عشرات أنواع الرقائق المختلفة في الداخل وعشرات مجموعات الحوسبة المختلفة. هذا يمكنه حل مشكلة نقص موارد الحوسبة في أنظمة الذكاء الاصطناعي؛ عندما تكون الموارد غير كافية، فإن أفضل طريقة هي استخدام جميع الموارد المتاحة أولًا، ثم توجيه كل وحدة حوسبة إلى المهام الأكثر أهمية لتحقيق أعلى كفاءة تحويل ممكنة.

لذلك، في هذه المرحلة، نحن نركز على كيفية إنشاء مصنع رموز أكثر كفاءة. قمنا بعدة تحسينات، بما في ذلك تحقيق أفضل توافق بين النموذج والموارد مثل ذاكرة GPU على مستوى الأجهزة، كما ندرس ما إذا كان يمكن تحقيق تفاعل أعمق بين أحدث هياكل النماذج وهياكل الأجهزة. لكن حل مشكلات الكفاءة الحالية لا يمثل سوى إنشاء مصنع رموز معياري.

في عصر الوكلاء، نعتقد أن هذا غير كافٍ. لأن الوكلاء أشبه بالإنسان، ويمكنك تكليفهم بمهام. أنا أؤمن بإصرار أن البنية التحتية الحالية لعصر الحوسبة السحابية صُممت لخدمة برنامج أو مهندس بشري، وليس لخدمة الذكاء الاصطناعي. هذا يعادل إنشاء بنية تحتية ذات واجهات مخصصة للبشر، ثم إضافة طبقة إضافية لتوصيل الوكلاء، وهي طريقة تحد من قدرات الوكلاء من خلال قدرات البشر في التشغيل.

على سبيل المثال، يمكن للوكيل التفكير وبدء المهام على مستوى الملي ثانية، لكن القدرات الأساسية مثل K8s (Kubernetes) ليست مستعدة لهذا، لأن البشر يبدأون المهام عادة على مستوى الدقائق. لذا نحن بحاجة إلى قدرات أكثر تقدمًا، ونسميها "البنية التحتية الوكيلة" أو "مصنع التوكنات الذكي"، وهو ما تقوم به Wuwen Xinqiong.

من منظور أطول أمدًا، عندما يأتي عصر الذكاء العام الاصطناعي الحقيقي، نعتقد أن البنية التحتية نفسها يجب أن تكون وكيلًا. المصنع الذي نبنيه يجب أن يكون قادرًا على التطور الذاتي والتحديث الذاتي، وأن يشكل منظمة ذاتية. إنه يشبه وجود مدير تنفيذي، وهذا المدير التنفيذي نفسه هو وكيل، ربما OpenClaw، يدير كامل البنية التحتية، ويطرح متطلباته ويعيد تطوير البنية التحتية بناءً على احتياجات العملاء من الذكاء الاصطناعي. فقط بهذه الطريقة يمكن للذكاء الاصطناعي أن يتفاعل بشكل أفضل مع الذكاء الاصطناعي. نقوم أيضًا ببعض الاستكشافات، مثل تحسين التواصل بين الوكلاء، وقدرات مثل "Cache to Cache".

لذلك، كنا دائمًا نفكر في أن تطوير البنية التحتية والذكاء الاصطناعي لا ينبغي أن يكون حالة معزولة — حيث أتلقى متطلبات وأنفذها فقط، بل يجب أن ينتج تفاعلات كيميائية غنية جدًا. هذا هو التعاون الحقيقي بين البرنامج والعتاد، وبين الخوارزميات والبنية التحتية، وهو أيضًا المهمة التي سعت دائمًا "وو وين شين كونغ" إلى تحقيقها. شكرًا.

05. الابتكار الذي يُقدّم تنازلات من أجل الكفاءة له معنى أيضًا، وقد منح DeepSeek الفريق المحلي الشجاعة والثقة

يانغ زهيلين: أود أن أسأل فولي التالية. لقد قدمت شاومي مساهمة كبيرة للمجتمع من خلال إطلاق نماذج جديدة وفتح تقنياتها الأساسية. أود أن أسألك: ما هي الميزات الفريدة التي تمتلكها شاومي في مجال النماذج الكبيرة؟

لو فولي: أعتقد أنه يمكننا أولًا أن نتجاهل موضوع الميزات الفريدة لـ Xiaomi، وأود بدلًا من ذلك مناقشة الميزة العامة للفِرق الصينية التي تعمل على نماذج كبيرة. أعتقد أن هذا الموضوع له قيمة أوسع.

قبل عامين تقريبًا، بدأت فرق النماذج الأساسية في الصين تحقيق اختراقات ممتازة — كيف نتجاوز قيود الحوسبة المنخفضة، خاصة في ظل قيود محدودة في عرض النطاق الترددي للربط NVLink، من خلال ابتكارات في هيكل النموذج تبدو وكأنها "تنازلات من أجل الكفاءة"، مثل سلسلة DeepSeek V2 وV3، وMoE وMLA وغيرها.

لكننا لاحظنا لاحقًا أن هذه الابتكارات أثارت تغييرًا: كيف نحقق أعلى مستوى من الذكاء مع قدرة حوسبة محدودة. وهذا ما منح DeepSeek الثقة والشجاعة لجميع فرق النماذج الأساسية في الصين. على الرغم من أن شرائحنا المحلية، خاصة شرائح الاستنتاج وشرائح التدريب، لم تعد تخضع الآن لهذا النوع من القيود، إلا أن هذه القيود بالضبط هي التي حفزت استكشافاتنا الجديدة لبناء نماذج بفعالية تدريب أعلى وتكلفة استنتاج أقل.

مثل الهياكل التي ظهرت مؤخرًا مثل Hybrid Sparse وLinear Attention، على سبيل المثال NSA الخاص بـ DeepSeek وKSA الخاص بـ Kimi، لدى شاومي أيضًا HySparse الموجه نحو الهياكل الجيل القادم. هذه جميعها ابتكارات في هياكل النماذج تختلف عن جيل MoE، وتُصمم خصيصًا لعصر الوكلاء.

لماذا أشعر أن الابتكار الهيكلي مهم جدًا؟ في الواقع، إذا استخدم الناس OpenClaw حقًا، فسيكتشفون أنه يصبح أكثر سهولة واستخدامًا وكلما استخدموه أكثر، أصبح أكثر ذكاءً. أحد الشروط المسبقة هو طول سياق الاستدلال. إن السياق الطويل هو موضوع ناقشناه لفترة طويلة، لكن هل هناك حاليًا نماذج حقيقية يمكنها الأداء بشكل جيد وقوي مع تكلفة استدلال منخفضة جدًا في السياقات الطويلة؟

في الواقع، العديد من النماذج قادرة على التعامل مع سياق 1M أو 10M، لكن التكلفة العالية وسرعة الأداء البطيئة عند الاستدلال على سياقات بحجم 1M أو 10M هما العائقان. فقط عندما تنخفض التكلفة وترتفع السرعة، يمكن تكليف النموذج بالمهام ذات القيمة الإنتاجية العالية حقًا، وإنجاز مهام أكثر تعقيدًا ضمن سياقات طويلة، وحتى تحقيق التكرار الذاتي للنموذج.

ما يُعرف بالتحديث الذاتي للنموذج هو قدرته على تحقيق تطور ذاتي في بيئة معقدة من خلال الاستفادة من سياق طويل جدًا. قد يكون هذا التطور متعلقًا بإطار العمل الخاص بالوكيل نفسه، أو قد يكون متعلقًا بمعاملات النموذج ذاتها — لأنني أرى أن السياق نفسه هو في جوهره شكل من أشكال تطور المعاملات. لذا، فإن كيفية تنفيذ بنية تدعم سياقًا طويلًا، وكيفية تحقيق استنتاج فعال مع سياق طويل على جانب الاستدلال، هي مسابقة شاملة.

بالإضافة إلى مرحلة التدريب المسبق التي قمنا فيها بتحسين البنية لتعمل بكفاءة مع سياقات طويلة—وهي مسألة بدأنا استكشافها قبل عام تقريبًا—الآن، لتحقيق الاستقرار ونتائج عالية الحد الأقصى في المهام الطويلة، نحن نقوم بتطوير نموذج ابتكاري في مرحلة ما بعد التدريب.

نحن نفكر في كيفية بناء خوارزميات تعلم أكثر فعالية، وكيفية جمع نصوص تمتلك اعتمادًا طويل الأمد حقًا في بيئات واقعية ضمن سياقات 1M و10M و100M، بالإضافة إلى دمج بيانات المسارات الناتجة عن البيئات المعقدة. هذا هو ما نقوم به حاليًا في مرحلة ما بعد التدريب.

لكن على المدى الأطول، نظرًا للتقدم السريع في النماذج الكبيرة نفسها، بالإضافة إلى دعم إطار Agent، كما ذكر لي شو، زاد الطلب على الاستدلال بنسبة تقارب عشرة أضعاف خلال الفترة الماضية. فهل سيصل نمو استخدام الرموز هذا العام إلى 100 ضعف؟

هنا يدخل منافسة أخرى في بُعد آخر — القوة الحسابية، أو رقائق الاستدلال، وحتى أعمق من ذلك إلى الطاقة. لذا أعتقد أنه إذا فكّرنا جميعًا في هذه المسألة معًا، فقد أتعلم المزيد منكم. شكرًا.

06. يحتوي Agent على ثلاثة وحدات رئيسية، وستؤدي الانفجارات في متعدد الوكلاء إلى تأثير كبير

يان زهيلين: مشاركة ذات رؤية عميقة. الآن أود أن أسأل هوانغ تشاؤ، لقد طورت مشاريع عوامل مؤثرة مثل Nanobot ولديك العديد من المتابعين في المجتمع. أود أن أسألك من منظور تجميع العوامل أو تطبيقاتها، ما هي الاتجاهات التقنية القادمة التي ترى أنها مهمة وتجدر بالاهتمام؟

هوانغ تشاؤ: أعتقد أنه إذا تم تجريد تقنية الوكلاء، فإن العناصر الأساسية هي وحدات التخطيط والذاكرة واستخدام الأدوات.

أولاً، دعنا نتحدث عن التخطيط. المشكلة الحالية تكمن بشكل رئيسي في المهام الطويلة الأمد أو السياقات المعقدة للغاية، مثل المهام التي تتكون من 500 خطوة أو أكثر، حيث لا تستطيع العديد من النماذج إجراء تخطيط جيد. أعتقد أن الجوهر هو أن النموذج قد لا يمتلك هذا النوع من المعرفة الضمنية، خاصة في بعض المجالات الرأسية المعقدة. لذا، قد يكون اتجاه المستقبل هو تثبيت معرفة المهام المعقدة المختلفة داخل النموذج.

بالطبع، تساهم Skill وHarness في تخفيف الأخطاء الناتجة عن Planning إلى حد ما، حيث توفر Skill عالية الجودة، وهي في جوهرها توجه النموذج لأداء بعض المهام الصعبة.

مرة أخرى، نتحدث عن Memory. يُشعر Memory وكأنه دائمًا يعاني من مشاكل في ضغط المعلومات وعدم دقة الاسترجاع، خاصة في المهام الطويلة والسيناريوهات المعقدة، حيث يزداد الضغط على Memory بشكل كبير. حاليًا، المشاريع مثل OpenClaw تستخدم جميعًا نموذجًا بسيطًا جدًا لـ Memory على شكل تنسيق Markdown قائم على نظام الملفات، من خلال مشاركة الملفات. في المستقبل، قد يتجه Memory نحو تصميم هرمي، كما سيحتاج إلى أن يصبح أكثر شمولية.

بصراحة، من الصعب تحقيق عمومية آلية الذاكرة الحالية — لأن سيناريوهات الترميز، وسيناريوهات البحث العميق، وسيناريوهات متعددة الوسائط، تختلف بشكل كبير في طبيعة بياناتها، وكيفية إجراء استرجاع وفهرسة فعّالة لهذه الذاكرة يظل دائمًا توازنًا.

بالإضافة إلى ذلك، مع خفض OpenClaw بشكل كبير لحاجز إنشاء الوكلاء، قد لا يكون هناك مجرد "سرطان بحر" واحد في المستقبل. لقد رأيت أن Kimi أطلقت أيضًا آلية تُسمى Agent Swarm، لذا قد يمتلك كل شخص في المستقبل "مجموعة من سرطانات البحر".

من الممكن تصور أن مجموعة من السرطانات تؤدي إلى زيادة هائلة في السياق مقارنة بسرطان واحد، مما يضع ضغطًا كبيرًا على الذاكرة. حاليًا، لا توجد آلية جيدة لإدارة السياق الناتج عن "مجموعة من السرطانات"، خاصة في السيناريوهات المعقدة مثل البرمجة أو الاكتشافات العلمية، حيث يواجه كل من النموذج وهندسة الوكيل ضغطًا كبيرًا.

بالنسبة لاستخدام الأدوات، أي مهارات Skill. تواجه المهارات الحالية مشاكل مشابهة لتلك التي واجهها MCP في السابق — حيث كان MCP يعاني من مشاكل في ضمان الجودة والمخاطر الأمنية. والآن، تواجه المهارات نفس المشكلات: على الرغم من وجود عدد كبير من المهارات، إلا أن القليل منها فقط عالي الجودة، وتساهم المهارات منخفضة الجودة في تقليل دقة قدرة الوكلاء على إكمال المهام. بالإضافة إلى ذلك، هناك مشكلة التسلل الخبيث. لذا، من وجهة نظر استخدام الأدوات، قد يكون من الضروري الاعتماد على المجتمع لتحسين نظام المهارات بالكامل، وحتى تمكين المهارات من التطور الذاتي وإنتاج مهارات جديدة أثناء التنفيذ.

بشكل عام، من التخطيط والذاكرة إلى استخدام الأدوات، هذه هي بعض نقاط الألم الحالية للوكلاء، وهي أيضًا اتجاهات محتملة في المستقبل.

07. الكلمات المفتاحية للـ 12 شهرًا القادمة: البيئة، الرموز المستدامة، التطور الذاتي، والقوة الحسابية

يانغ زهيلين: يمكن ملاحظة أن الضيفين ناقشا مشكلة مشتركة من منظورين مختلفين — مع زيادة تعقيد المهام، يزداد السياق بشكل كبير. من حيث النموذج، يمكن تحسين طول السياق الأصلي، ومن حيث مستوى Agent Harness، يمكن للآليات مثل التخطيط والذاكرة والمتعددة الوكلاء دعم مهام أكثر تعقيدًا ضمن قدرات النموذج المحددة. أعتقد أن هذين الاتجاهين سيولّدان تفاعلات كيميائية أكبر في المستقبل، مما يعزز قدرة إنجاز المهام بشكل أكبر.

أخيرًا، دعونا نلقي نظرة استشرافية مفتوحة. من فضلكم، استخدموا كلمة واحدة لوصف اتجاه تطور النماذج الكبيرة في الأشهر الـ12 القادمة وتوقعاتكم. سنبدأ هذه المرة مع هوانغ تشاؤ.

هوانغ تشاؤ: يبدو أن 12 شهرًا في مجال الذكاء الاصطناعي بعيدة جدًا، ولا أحد يعرف كيف ستتطور بعد 12 شهرًا.

يانغ زهيلين: كان مكتوبًا هنا خمس سنوات، لكنني غيّرته.

هوانغ تشاؤ: نعم، ههه. الكلمة التي خطرت لي هي "النظام البيئي". الآن، يُشجع OpenClaw الناس على أن يكونوا نشطين، لكن في المستقبل، يجب أن تصبح الوكلاء حقًا "عمالًا" وليس مجرد شيء يلعب الناس به أو يجربونه للتجربة. يجب أن يُرسخ في المستقبل ليصبح أداة للعمل الجاد وشريك عمل حقيقي.

هذا يتطلب جهودًا من كامل النظام البيئي، خاصةً مفتوح المصدر؛ بعد فتح تقنيات الاستكشاف والنماذج للجميع، يحتاج المجتمع بأكمله إلى التعاون في البناء—سواءً في تطوير النماذج، أو تطوير منصة المهارات، أو مختلف الأدوات، ويجب أن تكون جميعها موجهة بشكل أفضل نحو إنشاء نظام بيئي للكركند.

إحدى الاتجاهات الواضحة هي: هل ستظل البرمجيات في المستقبل مصممة للبشر؟ أعتقد أن العديد من البرمجيات في المستقبل قد لا تكون موجهة للبشر على الإطلاق — لأن البشر يحتاجون إلى واجهات رسومية (GUI)، بينما قد يكون المستقبل موجهًا بشكل أصيل للوكلاء (Agent Native). من المثير للاهتمام أن البشر قد يستخدمون فقط تلك الواجهات الرسومية التي تجعلهم سعداء. وفي الوقت الحالي، ينتقل النظام البيئي بأكمله من نموذج GUI وMCP إلى نموذج CLI. وهذا يتطلب من النظام البيئي تحويل أنظمة البرمجيات والبيانات وجميع التقنيات إلى شكل أصيل موجه للوكلاء، حتى يصبح التطور أكثر ثراءً.

رو فولي: تقليل المشكلة إلى سنة واحدة يبدو لي ذا معنى كبير. إذا كانت خمس سنوات، فوفقًا لتعريفي لـ AGI، أعتقد أننا قد حققناها بالفعل. لذا، إذا أردت وصف أهم شيء في رحلة AGI خلال العام القادم في جملة واحدة، فأعتقد أنه "التطور الذاتي".

يبدو هذا المصطلح غامضًا بعض الشيء، وقد تم ذكره عدة مرات خلال العام الماضي. لكنني مؤخرًا تعمقت أكثر في فهمه، أو بمعنى آخر، وجدت خطة أكثر واقعية وقابلية للتطبيق لـ"التطور الذاتي". السبب هو أنه مع وجود نماذج قوية، لم نستغل أبدًا الحد الأقصى للنماذج المُدرَّبة مسبقًا في نموذج المحادثة، بينما نشّط إطار العامل هذا الحد الأقصى. عندما جعلنا النموذج ينفذ مهامًا أطول، اكتشفنا أنه يمكنه التعلم والتطور بنفسه.

تجربة بسيطة هي: إضافة قيد مشروط قابل للتحقق إلى الإطار الحالي للوكيل، ثم تعيين حلقة تكرارية، مما يسمح للنموذج بالاستمرار في تحسين الهدف تدريجيًا، وستلاحظ أنه ينتج حلولًا أفضل باستمرار. هذه العملية التلقائية للتطور يمكن حاليًا تشغيلها لبضعة أيام، على الرغم من أن ذلك يعتمد على صعوبة المهمة.

على سبيل المثال، في بعض الأبحاث العلمية، مثل استكشاف هياكل نماذج أفضل، حيث توجد معايير تقييم للنموذج، مثل PPL أقل. في هذه المهام الحتمية، وجدنا أنه قادر بالفعل على التحسين والتنفيذ الذاتي لمدة يومين إلى ثلاثة أيام.

من وجهة نظري، التطور الذاتي هو المكان الوحيد الذي يمكنه "خلق أشياء جديدة". إنه لا يحل محل إنتاجيتنا البشرية الحالية، بل يشبه العلماء الرائدين في استكشاف أشياء لم تُكتشف بعد في العالم. قبل عام، كنت أعتقد أن هذا الجدول الزمني سيستغرق ثلاثة إلى خمسة أعوام، لكنني مؤخرًا أشعر أنه يجب تقليله إلى سنة أو سنتين. ربما قريبًا سنتمكن من دمج نموذج كبير مع إطار قوي للوكيل المتطور ذاتيًا، مما يحقق تسريعًا على الأقل أسّي لعلم البحث.

في الآونة الأخيرة، لاحظت أن زملائي في مجموعتنا الذين يدرسون النماذج الكبيرة لديهم سير عمل غير مؤكد للغاية وعالي الإبداع، لكن بفضل Claude Code بالإضافة إلى النماذج الرائدة، تحسّنت كفاءة بحثنا بنسبة تقارب عشر مرات. أنا متحمس جدًا لانتشار هذا النموذج في مجالات وعلوم أوسع، لذا أعتقد أن "التطور الذاتي" مهم جدًا.

شيا ليشو: كلمتي المفتاحية هي "الرمز القابل للاستدامة". أرى أن تطور الذكاء الاصطناعي لا يزال في عملية مستمرة على المدى الطويل، ونأمل أيضًا أن يكون له عمر طويل. من منظور البنية التحتية، فإن مشكلة كبيرة هي أن الموارد محدودة في النهاية.

كما كان الحال مع الاستدامة في الماضي، فإننا كمصنع للرموز، نرى أن السؤال المهم هو能否 نحن نقدم الرموز بشكل مستمر ومستقر وواسع النطاق، بحيث يمكن للنماذج الرائدة أن تخدم عددًا أكبر من الخدمات التابعة.

نحتاج إلى توسيع نطاق رؤيتنا لتشمل كامل النظام البيئي — من الطاقة إلى القوة الحسابية، ثم إلى الرموز المميزة، وأخيرًا إلى التطبيقات، لتشكيل تكرار اقتصادي مستدام. نحن لا نهدف فقط إلى استخدام جميع قوى الحوسبة المحلية، بل نقوم أيضًا بتصدير هذه القدرات إلى الخارج، لتمكين ربط وتكامل الموارد العالمية.

أعتقد أيضًا أن "الاستدامة" تهدف في الواقع إلى بناء اقتصاد رمزي صيني الخصائص. في الماضي، كنا نتحدث عن "صنع في الصين"، وتحويل قدرات التصنيع الصينية المنخفضة التكلفة إلى منتجات جيدة تُصدّر عالميًا.

ما نقوم به الآن هو "الذكاء الاصطناعي صنع في الصين" — تحويل المزايا الصينية في الطاقة وغيرها بشكل مستدام عبر مصانع الرموز إلى رموز عالية الجودة، وتصديرها عالميًا لتصبح مصنع الرموز العالمي. هذا هو ما أرغب في رؤيته هذا العام: القيمة التي يجلبها الذكاء الاصطناعي الصيني للعالم.

تشانغ بينغ: سأكون موجزًا قليلاً. الجميع ينظرون إلى النجوم، أما أنا فأركز على الأرض. كلمتي المفتاحية هي "القدرة الحسابية".

كما قلنا للتو، فإن جميع التقنيات واطارات الوكلاء رفعت إنتاجيتكم وابتكاركم عشر مرات، لكن بشروط أن تستطيعوا استخدامها فعليًا. لا يمكنكم طرح سؤال ثم تركه يفكر لفترة طويلة دون إعطاء إجابة، فهذا غير مقبول على الإطلاق. ولهذا السبب، يواجه العديد من تقدم الأبحاث والأشياء التي ترغبون في القيام بها عوائق.

قبل سنتين، أتذكر أن أكاديمياً قال في منتدى تشونغتشيان: "لا بطاقة، لا مشاعر؛ التحدث عن البطاقات يُجرح المشاعر." أعتقد أننا وصلنا إلى هذه النقطة مجددًا اليوم، لكن الوضع مختلف الآن. لقد دخلنا مرحلة الاستدلال، والطلب يشهد انفجارًا حقيقيًا — بعشرة أو مائة أضعاف. للتو قلت إن الاستخدام زاد عشرة أضعاف، لكن ربما يكون الطلب مائة ضعف؟ وما زال هناك طلب هائل غير مُلبَّى، فماذا نفعل؟ دعونا جميعًا نفكر معًا في حلول.