ME News के अनुसार, 27 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, अपने स्वयं विकसित बड़े मॉडल MiMo-V2.5 सीरीज़ में API की स्थायी कीमत कम करने के बाद, शाओमी के बड़े मॉडल टीम के प्रमुख लुओ फुली ने X प्लेटफॉर्म पर एल्गोरिथम लागत कम करने के तंत्र की घोषणा की। लुओ फुली ने बताया कि API मूल्य को DeepSeek के साथ समायोजित करने के बाद, शाओमी का हाई-लोड इन्फरेंस इंजन अभी भी ब्रेक-ईवन पर कायम है। लागत में कमी मुख्य रूप से मिश्रित ध्यान संरचना और परतदार KV कैश अनुकूलन से आई है। कैश हिट (Cache Hit) लागत में 99% कमी के डिज़ाइन लक्ष्य के लिए, शाओमी के इन्फरेंस फ्रेमवर्क ने स्लाइडिंग विंडो अटेंशन (SWA) के लिए परतदार KV कैश अनुकूलन प्राप्त किया है। उत्पादन परीक्षणों से पता चला है कि परतदार अनुकूलन से कैश की token क्षमता 5 गुना बढ़ गई है, जिससे कैश लागत में 80% कमी हुई है। ग्लोबल अटेंशन मॉड्यूल्स के बीच कैश पढ़ने में ओवरलैप (Cache Read Overlap) प्रौद्योगिकी के संयोजन से, सिस्टम ने कैश हिट की वास्तविक लागत को और कम किया है। बेसिक इनपुट और आउटपुट लागत में 60% से 80% कमी का कारण, लुओ फुली ने मॉडल में 1:7 का स्पार्सिटी अनुपात (लेयर-वाइज) होने को बताया, जिसमें ग्लोबल अटेंशन (GA) और स्लाइडिंग विंडो अटेंशन (SWA) की परतों का अनुपात 1:7 है। लंबे पाठ प्रीफिल (Prefill) चरण में, 60 परतों का SWA केवल स्थानीय स्लाइडिंग विंडो की गणना करता है, जिससे 70 परतों वाले MiMo-V2.5-Pro मॉडल की समग्र अटेंशन कंप्यूटेशन, केवल 10 परतों के पारंपरिक GQA मॉडल के समान होता है। अति-कम कंप्यूटेशन लोड से मूल इन्फरेंस लागत में कमी हुई, जिससे मूल्य में कटौती से पहले, शाओमी को 2 से 3 गुना मुनाफा सुरक्षित मिला। इसलिए, मूल्य में कटौती संरचनात्मक लागत कमी का प्रतिबिंब है, सस्ती प्रतिस्पर्धा नहीं। लुओ फुली ने कहा कि कम लागत वाली इन्फरेंस सेवाएं, एंड-यूज़र स्मार्टनेस की मांग को प्रोत्साहित करती हैं। बड़े मॉडल कंपनियों को स्वयं-अंधविश्वासपूर्ण मूल्ययुद्ध से परहेज़ करना चाहिए, सभी-आधारभूत सहयोगपूर्ण डिज़ाइन—एल्गोरिथम, प्रक्रिया, प्रणाली—के माध्यम से, महत्वपूर्ण संचालन लागतों को ब्रेक-ईवन सीमा से नीचे ही सीमित रखना। (स्रोत: BlockBeats)
Xiaomi का MiMo-V2.5 मॉडल 10-लेयर समकक्ष ध्यान गणना के साथ लागत कम करता है
KuCoinFlashसाझा करें






Xiaomi का MiMo-V2.5 मॉडल 10-लेयर के समकक्ष ध्यान गणना का उपयोग करके लागत को कम करता है। 70-लेयर Pro संस्करण कैश हिट लागत को 99% और इनपुट/आउटपुट लागत को 60-80% तक कम करता है। ऑन-चेन समाचार दर्शाता है कि मॉडल वैश्विक और स्लाइडिंग विंडो ध्यान के बीच 1:7 की विरलता अनुपात का उपयोग करता है। वैश्विक क्रिप्टो नीति में परिवर्तन ऐसी दक्षता में वृद्धि के आधार पर AI लागू करने पर प्रभाव डाल सकते हैं।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।