أطلقت MiniMax نموذج M3 مما أثار اهتمامًا عالميًا، ودعا الرئيس التنفيذي لشركة Vercel علنًا إلى دعمه، لكن المجتمع المحلي يختلف حول تعديلات السعر. قام المطورون بتأكيد قدرات M3 من خلال اختبارات عمياء وتجريبية، وأظهرت النتائج أن قدرته على توليد الأكواد تكافئ Claude Opus 4.8، ودخلت في المراتب العشرة الأولى في عدة اختبارات معيارية، مما جعلها أقوى نموذج مفتوح المصدر. يستخدم النموذج بنية MiniMax Sparse Attention الجديدة، مما خفض كمية الحسابات إلى واحد من عشرين مقارنة بالسابق عند سياق يبلغ مليون وحدة. كما أطلقت MiniMax ميزة Agent Team، التي تعمل من خلال تعاون ثلاثة أنواع من الوكلاء: القائد والعامل والمحقق. سيتم إتاحة أوزان النموذج والتقرير التقني الكامل خلال عشرة أيام، وسيخضع المطورون حول العالم لاختبارات مشاريع فعلية.

مؤلف المقال، المصدر: جديد الذكاء

New Ze Yuan reports

[مقدمة من XinZhiYuan]: دعم من كبار الشخصيات في وادي السيليكون، لكن المجتمع يتحول إلى فوضى. هل يمكن لـ MiniMax M3 أن يصمد أمام الاختبار الحقيقي؟ المطورون حول العالم قد بدأوا باستخدامه بالفعل.

في الآونة الأخيرة، اجتاح نفس النموذج المنصات المحلية والدولية.

يُظهر غيليرمو راوتش، الرئيس التنفيذي لشركة Vercel الذي يمتلك 5.4 مليون متابع، دعمه علنًا بشكل نادر جدًا.

الذي أوصى به هو نموذج صيني بالكامل — MiniMax M3.

ومع ذلك، فإن هذا الم3 نفسه يتلقى أيضًا انتقادات كبيرة، حيث اندلعت خلافات حادة في قسم التعليقات داخل المجتمعات المحلية.

تركز الكثير من التعليقات على تعديل سعر خطة Token. يشعر العديد من المستخدمين القدامى أن حقوقهم تقلصت، مما أثار ضجة كبيرة.

أما نمط المجتمع الخارجي، فهو مختلف تمامًا عن النمط المحلي.

بعض المطورين الخارجيين يتخمنون معلمات بنية M3 وآلية الانتباه النادرة وحجم بيانات التدريب.

على سبيل المثال، قال المستخدم Rohan على X إن النظر إلى السعر فقط لا معنى له، فعلى الرغم من أن التكلفة مهمة أيضًا، إلا أنه يرغب في معرفة كيفية ارتكاب النموذج للأخطاء وأدائه الفعلي في نظام العوامل.

مستخدم آخر كان أكثر مباشرة، وقال: "من الرائع أن M3 كنموذج مفتوح المصدر يواكب Opus وGPT-5، لكنني أريد أن أرى بأم عيني كيف يفشل في الأداء قبل أن أصدق هذه الدعايات."

في مواجهة هذه التقييمات الخارجية، ردت MiniMax رسميًا بسرعة، وأصدرت نفس اليوم خطة تعويض: الحفاظ على الحقوق الأصلية للمستخدمين القدامى، وزيادة الحد الأسبوعي للمستخدمين الجدد بنسبة 50%.

تم حل أمر السعر، والآن، فإن السؤال الأكثر جوهرية هو: هل M3 قوي حقًا، أم مجرد وهم "التزييف"؟

72 ساعة

فحص صارم يجتاح المطورين حول العالم

للاختبار الحقيقي لأداء M3، قدم المطور فيكتوريا وو نفس المُحفز (طلب توليد مقطع متحرك لطائر البَلْمَس وهو يركب دراجة) إلى M3 وSonnet 4.6 وOpus 4.8.

ثم قم بوضع علامات على النتائج الثلاثة كـ A و B و C، واطلب من المستخدمين التخمين عشوائيًا أيها هو M3.

التعليقات شبه موحدة: "A سلسة جدًا، بالتأكيد Opus" و "M3 يجب أن تكون B أو C".

تم الكشف عن النتيجة. A هو M3.

بالمثل، قام المطور JAZII بإجراء مجموعة من التجارب المضبوطة على مستوى الاختبار العشوائي.

استخدم نفس المُحفِّز تمامًا، وطلب من النموذج إنشاء نسخة مُستنسخة من Minecraft من الصفر باستخدام Three.js في HTML، وكان المتنافسان M3 وOpus 4.8.

على الرغم من أن M3 استغرقت وقتًا أطول قليلاً، إلا أن JAZII قدّمت كلمتين في نتيجة تشغيل الكود النهائي: "Super close".

اليسار هو M3 واليمين هو Opus 4.8، هل تخمنت بشكل صحيح؟

في X، قام المطور الصيني "Shijian Ge minli" بدفع قدرات M3 متعددة الوسائط والبرمجة الوكيلة إلى أقصى حدودها، وصنع باستخدام M3 لعبة مواجهة إيماءات "الوصول إلى الإلهية من قبل عادي".

خلال هذه العملية، يجب على M3 فهم إشارات بصرية معقدة وإنجاز كتابة كود منطقي طويل جدًا. عند تنفيذ العملية بالكامل، يكون استهلاك الرموز فقط 20% من استهلاك Claude Sonnet.

أطلق توماس ويجولد، المُقيّم الذكي المعروف بصرامته، تقريرًا تجريبيًا بطول 3000 كلمة في أسرع وقت ممكن.

لقد وصف موديل M3 بأنه: "إحدى أكثر النماذج إثارة التي اختبرتها هذا العام."

آخر مرة أثار فيها نموذج صيني اهتزازًا في سيليكون فالي، كان قبل ستة أشهر مع إصدار DeepSeek V4.

لكن هذه المرة، يبدو أن التأثير الذي أحدثه MiniMax M3 أكثر عمقًا.

أدخل ورقة بحثية مكونة من 50 صفحة، وستقوم M3 بتفكيكها بنفسها

مشاهدة الآخرين يختبرون لا تكفي. قمنا نحن بأنفسنا باختيار سؤالين مخصصين لاختبار النموذج بأقصى درجة ممكنة.

أولها تقرير تقني لـ DeepSeek-V3 يمتد لـ 50 صفحة، مليء بالرسوم البيانية، مع تداخل المعادلات وأكواد وهمية، وكثافة معلومات عالية جدًا.

أولاً، دع M3 يُرتب سلسلة سببية تقنية حول "التداخل بين الاتصالات والحوسبة الأساسية" لمعرفة ما إذا كان يمكنه توضيح المنطق الهندسي الأكثر تعقيدًا في هذه الورقة.

فكر M3 طوال الوقت 15 مرة، ونفذ 19 أمرًا، واستخدم أداة واحدة.

في النهاية، قام بتفكيك مسار التنفيذ الكامل لاستراتيجية الجدولة DualPipe بشكل واضح، دون أي انقطاع في السلسلة المنطقية.

اسحب لأعلى أو لأسفل لعرض

الاختبار التالي هو قدرات M3 متعددة الوسائط.

قم بتحميل صورة لرسم تخطيطي لهيكل MLA، ثم اطلب من النموذج تحديد أي صيغ رياضية في النص الأساسي تتوافق مع عملية الجدولة الديناميكية والمشروع.

قدمت M3 التحليل المقابل بسرعة وأصابت بدقة.

يستمر التحدي في التصعيد. إذا كانت هناك خطوط في الرسم البياني مخفية خلف قيود أعمق في الوصف النصي للنص، فاطلب من M3 تحديد موقعها البصري في الرسم البياني وشرح السبب وراءها.

أضاف M3 ملاحظات مباشرة على مخطط بنية MLA، وقدم تحليلًا تفصيليًا للقيود الثلاثة.

محاضرة GTC مدتها ساعتان، M3 تُصدر النص مباشرة

السؤال الثاني يزداد صعوبة، لا يكفي أن تفهمه، بل يجب أن تكتبه.

تم إرسال مادة هذا الحدث، وهي المحاضرة الرئيسية الكاملة التي تستغرق ساعة و57 دقيقة من مؤتمر GTC الخاص بـ NVIDIA، إلى M3 مع معايير الكتابة بشكل كامل.

جملة تعليمات: بعد مشاهدة الفيديو، قم بإعداد تقرير متعمق بطول 3000-40000 كلمة وفقًا للمعايير المحددة.

بالنظر إلى الفيديو الأصلي بحجم 1.15 جيجابايت، فإن الأدوات العادية للذكاء الاصطناعي ستُظهر غالبًا خطأً وتتوقف.

لكن بفضل مكتبة أدوات MiniMax Code على مستوى النظام، وجد M3 الحل فورًا—

تم استخدام ffmpeg لإكمال الضغط والتقسيم، وفتحت لنفسي طريقًا قابلًا للتنفيذ.

بعد تناول جميع المقاطع الـ12، قدم M3 قائمة مواد مذهلة.

العلامة الزمنية دقيقة حتى الدقيقة، والتفاصيل المرئية ملتقطة بدقة فائقة.

جميعها مدرجة: المعطف الجلدي الأسود ذو نمط المقاييس الذي يرتديه لاإو، لقطة مقربة لمدة 15 ثانية تُظهره وهو يُخرج شريحة N1X من جيب سرواله ويرفعها فوق رأسه، والتعليق الساخر عند إحضار جهاز فيرا روبين الحقيقي إلى المسرح: "على الأرجح هناك 2000 شخص يُفرغون في الخلف".

حتى الجملة الصينية المفاجئة التي أطلقها لاإنغي "هناك الكثير من الأشياء"، لم تُهملها.

الأكثر إثارةً أن M3 قدمت أيضًا ثلاث نقاط تعتبرها الأكثر إثارة في الحدث، مع تبريرات خاصة لكل منها.

بعد تأكيد قائمة المواد، بدأ M3 الكتابة.

ابدأ المشهد بمشهد قديم لرجل يُخرِج شيئًا من جيبه، وانتهِ بتصعيد الفكرة إلى أن "صاحب سلسلة القيمة هذه، يتحول من الإنسان إلى وكيل".

مسودة أولية بـ 3500 كلمة، التسليم بعد 40 دقيقة.

على الرغم من أنه لا يصل بعد إلى مستوى نشرنا، إلا أنه يوفر نقطة بداية بجودة كافية.

بعد مشاهدة فيديو مدته ساعتين متعدد الوسائط، يقوم السياق الطويل بتحميل جميع المواد + معايير الكتابة + النماذج داخل نافذة واحدة، ويعمل الوكيل على حل أي مشكلة تواجهها.

القدرات الثلاث الأساسية لـ M3 تم استنزافها بالكامل في هذه المهمة، ولا يمكن إنجازها دون أي منها.

12 تقرير أداء نماذج، قام M3 بإنشاء صورة شاملة بنفسه

السؤال الثالث بزاوية مختلفة، لا يختبر النصوص الطويلة، بل يختبر قراءة الرسوم البيانية والاتصال بالإنترنت وتنفيذ المشاريع الهندسية.

عند إصدار كل نموذج، يتم مرفق صورة مقارنة أداء، لكن التنسيقات تختلف بشكل كبير، فهناك جداول ومخططات أعمدة ومخططات رادار، كما أن معايير البيانات غير موحدة.

للمقارنة الأفقية، يجب عليك تصفح كل صورة ومقارنة كل خلية يدويًا، وهو أمر مرهق جدًا.

قم بتحميل عشر لقطات شاشة مباشرة من مدونات رسمية لنماذج مختلفة ومنصات تقييم طرف ثالث، واطلب من M3 فهم جميع المخططات بنفسه، وملء البيانات المفقودة عبر الإنترنت، وتوحيد المعايير، وإنشاء شاشة مقارنة تفاعلية.

قم أولاً بتحديد أسماء النماذج والدرجات من لقطات الشاشة واحدة تلو الأخرى. عند مواجهة مخططات بتنسيقات مختلفة، قم بتوحيد التنسيق بنفسك. أكمل البيانات المفقودة من لقطات الشاشة بالبحث المباشر على المصادر الرسمية عبر الإنترنت.

تم إنتاج شاشة تفاعلية داكنة بأسلوب Bloomberg Terminal.

12 نموذجًا، 14 معيارًا مرجعيًا، ترتيب شامل، مقارنة بمخطط رادار، مخططات شريطية فردية، ومخططات مبعثر للسعر/الأداء، جميع الوحدات الأربعة في مكان واحد.

ثلاث قدرات، كلها في أقصى مستوى

بعد إنجاز الثلاثة أسئلة، أصبحت حدود قدرات M3 واضحة تمامًا. السؤال التالي هو: ما الذي مكّنها من تحقيق ذلك؟

الإجابة هي توفر المهارات الأساسية الثلاثة في آنٍ واحد: برمجة متقدمة، نافذة سياق 1M، ومتعددة الوسائط الأصلية.

أساسها هو بنية انتباه جديدة تُسمى MiniMax Sparse Attention (MSA).

عند معالجة سياقات بملايين العناصر، تزداد كمية الحسابات في آلية الانتباه التقليدية بشكل أسّي، مما يستهلك كامل ذاكرة GPU وقدراتها الحسابية.

MSA قام بحل هذا العائق باستخدام طريقة نُدرة على مستوى الكتل.

على مستوى المشغل، يسمح بقراءة كل كتلة بيانات KV مرة واحدة فقط في الذاكرة، مع الوصول الكامل المستمر إلى الذاكرة دون أي نقل متكرر.

The effect can only be described as violent.

تحت حجم سياق يبلغ مليوني وحدة، تم خفض كمية الحسابات لكل رمز في M3 إلى 1/20 مقارنة بالجيل السابق. تم تسريع التمهيد المسبق بأكثر من 9 مرات، وتسريع التحليل بأكثر من 15 مرة.

كما أن الجانب متعدد الوسائط قوي بنفس القدر. M3 ليس مجرد منتج مركب يتم تدريبه أولاً على النصوص ثم إضافة وحدة بصرية خارجية.

من الخطوة الأولى للتدريب، تم تغذية النصوص والصور والفيديوهات معًا. ولذلك، أعاد فريق البحث هيكلة كامل خط أنابيب البيانات، ورفع حجم التدريب المسبق مباشرة إلى مستوى 100 تيرابايت.

نتيجةً لذلك، حصل M3 على أعلى تصنيف عالمي بين النماذج مفتوحة المصدر في مؤشر Artificial Analysis الذكي الشامل، واحتل المرتبة السابعة عالميًا.

في قائمة GPQA Diamond للمنطق العلمي، حصل M3 على 93.2%، ودخل ضمن أفضل أربع مراكز عالمية، وهو أعلى من Claude Opus 4.8 وOpus 4.7.

في قائمة الاستدلال السياقي الطويل، يحتل M3 المرتبة السادسة بنسبة 74.0%، ويتقاطع مع سلسلة GPT-5.

في قائمة عوامل المهام الحقيقية لـ GDPval-AA، يحتل M3 المركز الخامس عالميًا بدرجة 1670، وهو يفوق Sonnet 4.6 بفارق 6 نقاط فقط.

تختلف معايير تقييم كل قائمة، لكن موقع M3 يظل ثابتًا على حدود الفئة الأولى للنماذج المغلقة، وفي مقدمة النماذج المفتوحة المصدر.

اسحب يسارًا أو يمينًا لعرض

في قائمة Vals Index متعددة الوسائط المعروفة من طرف ثالث، ارتفع M3 إلى المركز السادس عالميًا.

هذا أفضل أداء لنموذج مفتوح المصدر محليًا، وأعلى ترتيب عالمي لنموذج مفتوح المصدر.

من منظور الشعور العام، تجاوز M3 بثبات خط Claude Sonnet 4.6.

على الرغم من أن هناك فرقًا صغيرًا بينه وبين Opus 4.7 وGPT-5.5 الأقوى، إلا أنه بلا شك دخل مجموعة الموت.

لا يكفي عامل واحد، فاستخدم فريقًا

إذًا، السؤال التالي الذي ينشأ بشكل طبيعي هو: ما الذي سيعمل هذا النموذج عليه؟

في الاختبارات العملية السابقة، تم تشغيل M3 لقطع الفيديو باستخدام ffmpeg، وأُنتج المحتوى خلال 40 دقيقة على MiniMax Code.

لكن ذلك كان فقط عاملًا واحدًا يعمل. الأكثر إثارة للنقاش في هذا التحديث هو فريق الوكلاء.

من تجربوا أدوات البرمجة بالذكاء الاصطناعي، فعلى الأرجح مرّوا بهذه التجربة.

لقد أعطيتَ العميل 7 مهام، فأنجز 3 منها ثم توقف للإبلاغ: "لقد أكملت المهام 1 و2 و3، هل أستمر؟" أو قد يبدأ بأداء مهني ثم فجأة يتحول أسلوبه إلى كلام عشوائي.

لحل هذا، قام فريق الوكيل بفصل الحكم عن اللاعبين.

القائد مسؤول عن فهم الأهداف وتقسيم المهام وتنظيمها. العامل مسؤول عن تنفيذ المهام المحددة، ولكل عامل أدوات وسياقات مختلفة. المدقق مسؤول عن المراجعة والقبول، ويعمل بشكل خاص على معارضة العاملين.

أكمل العامل المهمة، وبدأ المدقق في إيجاد الأخطاء. يُحدد المشكلات ويُعيد العمل للتعديل. بعد اكتمال فحص المدقق، يعود العامل ليُجري التعديلات حسب الملاحظات. لا يعتمد هذا الدور التنازعي على تقييم النموذج لتحديد متى يجب التوقف؛ بل هناك محرك حالة أساسي يديره.

أفضل تجربة عملية هي أنك ترسل رسالة واحدة، وتحصل على تأكيد من M3 في ثوانٍ، وفي نفس الوقت، تم تشغيل عدة عمال في الخلفية بشكل متوازٍ.

في منتصف الطريق، أضفت طلبًا جديدًا: "بالمناسبة، راجع لي هذا"، فاستجاب القائد فورًا، بينما استمرت المهام الخلفية.

يشبه تمامًا زميلًا يرد على رسائلك على وينشات في ثوانٍ ويساعدك في عملك.

قدرات نموذج M3 بالإضافة إلى فريق MiniMax Code Agent — فريق مسؤول عن التفكير وفريق مسؤول عن التنفيذ، وعند دمجهما، يفتحان آفاقًا لا نهائية للخيال.

بعد اجتياز الأزمة، عاد اهتمام الجميع أخيرًا إلى M3 نفسه.

والأمر الحاسم التالي هو أن وزنها وتقريرها التقني الكامل سيُتاحان كمصدر مفتوح خلال عشرة أيام.

At that time, developers worldwide will rate it using real projects.

أضف ASI في الثانية

⭐ أعطِ إعجابًا، شارك، وانقر على "مشاهدة" بضغطة واحدة ⭐

قم بتفعيل النجمة لضمان التوصيل السريع لـ XinZhiYuan!

المقال السابق

يتوقع الخبراء أن يصل في نهاية العام، لكن Claude Mythos وصل اليوم بعد 3 ساعات و6 دقائق!

الصفحة التالية المقال

تعتمد Anthropic على Claude لتحليل 95% من أعمالها الداخلية، والسر لا يكمن في النموذج الأقوى

تحتل MiniMax M3 المرتبة الأولى بين النماذج مفتوحة المصدر، وتثير جدلاً في المجتمع الصيني

New Ze Yuan reports