Xiaomi का MiMo-V2.5 मॉडल 10-लेयर समकक्ष ध्यान गणना के साथ लागत कम करता है

ME News के अनुसार, 27 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, अपने स्वयं विकसित बड़े मॉडल MiMo-V2.5 सीरीज़ में API की स्थायी कीमत कम करने के बाद, शाओमी के बड़े मॉडल टीम के प्रमुख लुओ फुली ने X प्लेटफॉर्म पर एल्गोरिथम लागत कम करने के तंत्र की घोषणा की। लुओ फुली ने बताया कि API मूल्य को DeepSeek के साथ समायोजित करने के बाद, शाओमी का हाई-लोड इन्फरेंस इंजन अभी भी ब्रेक-ईवन पर कायम है। लागत में कमी मुख्य रूप से मिश्रित ध्यान संरचना और परतदार KV कैश अनुकूलन से आई है। कैश हिट (Cache Hit) लागत में 99% कमी के डिज़ाइन लक्ष्य के लिए, शाओमी के इन्फरेंस फ्रेमवर्क ने स्लाइडिंग विंडो अटेंशन (SWA) के लिए परतदार KV कैश अनुकूलन प्राप्त किया है। उत्पादन परीक्षणों से पता चला है कि परतदार अनुकूलन से कैश की token क्षमता 5 गुना बढ़ गई है, जिससे कैश लागत में 80% कमी हुई है। ग्लोबल अटेंशन मॉड्यूल्स के बीच कैश पढ़ने में ओवरलैप (Cache Read Overlap) प्रौद्योगिकी के संयोजन से, सिस्टम ने कैश हिट की वास्तविक लागत को और कम किया है। बेसिक इनपुट और आउटपुट लागत में 60% से 80% कमी का कारण, लुओ फुली ने मॉडल में 1:7 का स्पार्सिटी अनुपात (लेयर-वाइज) होने को बताया, जिसमें ग्लोबल अटेंशन (GA) और स्लाइडिंग विंडो अटेंशन (SWA) की परतों का अनुपात 1:7 है। लंबे पाठ प्रीफिल (Prefill) चरण में, 60 परतों का SWA केवल स्थानीय स्लाइडिंग विंडो की गणना करता है, जिससे 70 परतों वाले MiMo-V2.5-Pro मॉडल की समग्र अटेंशन कंप्यूटेशन, केवल 10 परतों के पारंपरिक GQA मॉडल के समान होता है। अति-कम कंप्यूटेशन लोड से मूल इन्फरेंस लागत में कमी हुई, जिससे मूल्य में कटौती से पहले, शाओमी को 2 से 3 गुना मुनाफा सुरक्षित मिला। इसलिए, मूल्य में कटौती संरचनात्मक लागत कमी का प्रतिबिंब है, सस्ती प्रतिस्पर्धा नहीं। लुओ फुली ने कहा कि कम लागत वाली इन्फरेंस सेवाएं, एंड-यूज़र स्मार्टनेस की मांग को प्रोत्साहित करती हैं। बड़े मॉडल कंपनियों को स्वयं-अंधविश्वासपूर्ण मूल्ययुद्ध से परहेज़ करना चाहिए, सभी-आधारभूत सहयोगपूर्ण डिज़ाइन—एल्गोरिथम, प्रक्रिया, प्रणाली—के माध्यम से, महत्वपूर्ण संचालन लागतों को ब्रेक-ईवन सीमा से नीचे ही सीमित रखना। (स्रोत: BlockBeats)