نموذج MiMo-V2.5 من Xiaomi يقلل التكاليف باستخدام حساب انتباه مكافئ لـ 10 طبقات

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
نموذج MiMo-V2.5 من Xiaomi يقلل التكاليف باستخدام حساب انتباه يعادل 10 طبقات. يقلل الإصدار الاحترافي ذو 70 طبقة تكاليف إصابة ذاكرة التخزين المؤقت بنسبة 99% وتكاليف الإدخال/الإخراج بنسبة 60-80%. تُظهر الأخبار على السلسلة أن النموذج يستخدم نسبة ندرة 1:7 بين الانتباه العالمي وانتباه النافذة المنزلقة. قد تؤثر التحولات في السياسة العالمية للعملات المشفرة على كيفية تأثير هذه المكاسب الكفاءية على نشر الذكاء الاصطناعي.

أخبار ME، في 27 مايو (UTC+8)، وفقًا لمراقبة Beating، بعد تطبيق فريق نماذج Xiaomi الكبيرة لتخفيض دائم للأسعار على واجهات برمجة التطبيقات الخاصة بسلسلة النموذج الكبير الذاتي التطوير MiMo-V2.5، أعلنت Luo Fuli، مديرة فريق نماذج Xiaomi الكبيرة، عن آلية خفض التكاليف الخوارزمية على منصة X. كشفت Luo Fuli أنه بعد مواءمة أسعار واجهات برمجة التطبيقات مع DeepSeek، لا يزال محرك الاستنتاج العالي الحمل الخاص بـ Xiaomi قادرًا على الحفاظ على التوازن بين التكاليف والإيرادات. ويعود انخفاض التكاليف بشكل رئيسي إلى هندسة الانتباه المختلطة وتحسين ذاكرة التخزين المؤقت KV الهيكلية. استهدف تصميم Xiaomi خفض تكلفة إصابة التخزين المؤقت (Cache Hit) بنسبة 99٪، وحقق إطار عمل الاستنتاج الخاص به تحسينًا هيكليًا لذاكرة التخزين المؤقت KV مخصصًا لانتباه النافذة المنزلقة (SWA). أظهرت اختبارات الإنتاج أن التحسين الهيكلي زاد سعة الرموز في التخزين المؤقت إلى خمسة أضعاف، مما خفض تكلفة التخزين المؤقت بنسبة 80٪. وبدمج تقنية تداخل قراءة التخزين المؤقت (Cache Read Overlap) بين وحدات الانتباه الشامل، خفض النظام بشكل إضافي التكاليف الفعلية لإصابة التخزين المؤقت. وأرجعت Luo Fuli سبب خفض تكاليف الإدخال والإخراج الأساسي بنسبة 60٪ إلى 80٪ إلى نسبة ندرة بين الطبقات 1:7 التي أُدخلت في النموذج، أي نسبة طبقات الانتباه الشامل (GA) إلى طبقات الانتباه النافذة المنزلقة (SWA) هي 1:7. في مرحلة التمهيد الطويلة (Prefill)، تحسب 60 طبقة من SWA فقط النوافذ المنزلقة المحلية، مما يجعل إجمالي كمية حسابات الانتباه في نموذج MiMo-V2.5-Pro المكون من 70 طبقة، تكافئ فقط نموذجًا تقليديًا GQA بـ 10 طبقات. وقد خفض الحمل الحسابي المنخفض جدًا تكلفة الاستنتاج الأصلية، مما خلّف مساحة ربحية تتراوح بين ضعفين وثلاثة أضعاف قبل تخفيض السعر. وبالتالي، فإن التخفيض يعكس تخفيضًا هيكليًا في التكاليف، وليس منافسة بخسارة. أشارت Luo Fuli إلى أن خدمات الاستنتاج منخفضة التكلفة تساعد على تحفيز الطلب على الذكاء الطرفي. ينبغي للشركات التي تعمل في مجال النماذج الكبيرة تجنب حروب الأسعار العشوائية، والاعتماد على التصميم المتكامل للخوارزميات وأنظمة الاستنتاج لضمان السيطرة على التكاليف التشغيلية الفعلية تحت خط التعادل. (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.