Xiaomi का MiMo-V2.5 मॉडल 10-लेयर समकक्ष ध्यान गणना के साथ लागत कम करता है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
Xiaomi का MiMo-V2.5 मॉडल 10-लेयर के समकक्ष ध्यान गणना का उपयोग करके लागत को कम करता है। 70-लेयर Pro संस्करण कैश हिट लागत को 99% और इनपुट/आउटपुट लागत को 60-80% तक कम करता है। ऑन-चेन समाचार दर्शाता है कि मॉडल वैश्विक और स्लाइडिंग विंडो ध्यान के बीच 1:7 की विरलता अनुपात का उपयोग करता है। वैश्विक क्रिप्टो नीति में परिवर्तन ऐसी दक्षता में वृद्धि के आधार पर AI लागू करने पर प्रभाव डाल सकते हैं।

ME News के अनुसार, 27 मई (UTC+8) को, Beating द्वारा निगरानी के अनुसार, अपने स्वयं विकसित बड़े मॉडल MiMo-V2.5 सीरीज़ में API की स्थायी कीमत कम करने के बाद, शाओमी के बड़े मॉडल टीम के प्रमुख लुओ फुली ने X प्लेटफॉर्म पर एल्गोरिथम लागत कम करने के तंत्र की घोषणा की। लुओ फुली ने बताया कि API मूल्य को DeepSeek के साथ समायोजित करने के बाद, शाओमी का हाई-लोड इन्फरेंस इंजन अभी भी ब्रेक-ईवन पर कायम है। लागत में कमी मुख्य रूप से मिश्रित ध्यान संरचना और परतदार KV कैश अनुकूलन से आई है। कैश हिट (Cache Hit) लागत में 99% कमी के डिज़ाइन लक्ष्य के लिए, शाओमी के इन्फरेंस फ्रेमवर्क ने स्लाइडिंग विंडो अटेंशन (SWA) के लिए परतदार KV कैश अनुकूलन प्राप्त किया है। उत्पादन परीक्षणों से पता चला है कि परतदार अनुकूलन से कैश की token क्षमता 5 गुना बढ़ गई है, जिससे कैश लागत में 80% कमी हुई है। ग्लोबल अटेंशन मॉड्यूल्स के बीच कैश पढ़ने में ओवरलैप (Cache Read Overlap) प्रौद्योगिकी के संयोजन से, सिस्टम ने कैश हिट की वास्तविक लागत को और कम किया है। बेसिक इनपुट और आउटपुट लागत में 60% से 80% कमी का कारण, लुओ फुली ने मॉडल में 1:7 का स्पार्सिटी अनुपात (लेयर-वाइज) होने को बताया, जिसमें ग्लोबल अटेंशन (GA) और स्लाइडिंग विंडो अटेंशन (SWA) की परतों का अनुपात 1:7 है। लंबे पाठ प्रीफिल (Prefill) चरण में, 60 परतों का SWA केवल स्थानीय स्लाइडिंग विंडो की गणना करता है, जिससे 70 परतों वाले MiMo-V2.5-Pro मॉडल की समग्र अटेंशन कंप्यूटेशन, केवल 10 परतों के पारंपरिक GQA मॉडल के समान होता है। अति-कम कंप्यूटेशन लोड से मूल इन्फरेंस लागत में कमी हुई, जिससे मूल्य में कटौती से पहले, शाओमी को 2 से 3 गुना मुनाफा सुरक्षित मिला। इसलिए, मूल्य में कटौती संरचनात्मक लागत कमी का प्रतिबिंब है, सस्ती प्रतिस्पर्धा नहीं। लुओ फुली ने कहा कि कम लागत वाली इन्फरेंस सेवाएं, एंड-यूज़र स्मार्टनेस की मांग को प्रोत्साहित करती हैं। बड़े मॉडल कंपनियों को स्वयं-अंधविश्वासपूर्ण मूल्ययुद्ध से परहेज़ करना चाहिए, सभी-आधारभूत सहयोगपूर्ण डिज़ाइन—एल्गोरिथम, प्रक्रिया, प्रणाली—के माध्यम से, महत्वपूर्ण संचालन लागतों को ब्रेक-ईवन सीमा से नीचे ही सीमित रखना। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।