डेवलपर ने रिवर्स इंजीनियरिंग के माध्यम से ऐप्पल न्यूरल एंजिन पर पहला न्यूरल नेटवर्क प्रशिक्षण पूरा किया

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
एक डेवलपर ने M4 चिप के Apple के Neural Engine पर रिवर्स इंजीनियरिंग के माध्यम से पहली बार बैकप्रोपगेशन के साथ न्यूरल नेटवर्क प्रशिक्षण निष्पादित किया है। इस प्रोजेक्ट ने CoreML को बाइपास किया है और IOKit कर्नेल ड्राइवर पर 40 से अधिक प्राइवेट क्लासेस को मैप किया है, जिससे मेमोरी में मॉडल कंपाइलेशन संभव हुआ। प्रदर्शन 1.78 TFLOPS तक पहुंचा, जिसमें एकल ट्रांसफॉर्मर लेयर का समर्थन शामिल है। यह ऑन-चेन समाचार हार्डवेयर के उपयोग में एक नेटवर्क अपग्रेड को दर्शाता है। कोड MIT लाइसेंस के तहत ओपन-सोर्स है।

BlockBeats की सूचना, 3 मार्च, डेवलपर मंजीत सिंह (GitHub: maderix) ने Claude Opus के साथ सहयोग किया और Apple के गुप्त निजी API के रिवर्स इंजीनियरिंग के माध्यम से M4 चिप के Apple Neural Engine (ANE) पर प्रतिगमन के साथ न्यूरल नेटवर्क प्रशिक्षण को पहली बार सफलतापूर्वक लागू किया। ANE Apple द्वारा निष्कर्षण के लिए डिज़ाइन किया गया एक त्वरक है, जिसकी आधिकारिक रूप से कभी प्रशिक्षण क्षमता खोली नहीं गई है, और डेवलपर्स केवल CoreML फ्रेमवर्क के माध्यम से इसके निष्कर्षण कार्यों को अप्रत्यक्ष रूप से कॉल कर सकते हैं।


इस प्रोजेक्ट ने CoreML को छोड़कर _ANEClient`, `_ANECompiler` आदि 40 से अधिक निजी क्लासेस को IOKit कर्नेल ड्राइवर तक पूर्ण सॉफ्टवेयर स्टैक में मैप किया है और _ANEInMemoryModelDescriptor इंटरफ़ेस की खोज की है, जो मॉडल को मेमोरी में सीधे कंपाइल करने की अनुमति देता है—यह ट्रेनिंग के लिए महत्वपूर्ण है क्योंकि प्रत्येक वेट अपडेट के लिए पुनः कंपाइलेशन की आवश्यकता होती है। वर्तमान में एकल transformer स्तर (dim=768, seq=512) की ट्रेनिंग कार्यान्वित की गई है, M4 पर प्रति स्टेप 9.3 मिलीसेकंड का समय लगता है, ANE का उपयोग 11.2% (1.78 TFLOPS, सैद्धांतिक शीर्ष 15.8 TFLOPS) है, आगे और पीछे की ओर प्रसार के लिए इनपुट ग्रेडिएंट ANE पर गणना किए जाते हैं, जबकि वजन ग्रेडिएंट और Adam ऑप्टिमाइज़र CPU पर पूरा किए जाते हैं।


प्रोजेक्ट ने पाया कि ANE के कोर कैलकुलेशन प्राइमिटिव्स कॉन्वोल्यूशन हैं, न कि मैट्रिक्स गुणन। 1x1 कॉन्वोल्यूशन का उपयोग करके मैट्रिक्स गुणन को व्यक्त करने से लगभग 3 गुना थ्रूपुट वृद्धि मिलती है, और CoreML को छोड़कर सीधे कॉल करने से 2-4 गुना अतिरिक्त लाभ मिलता है, जिससे Apple का दावा "38 TOPS" भ्रामक है। वर्तमान में प्रोजेक्ट शुरुआती चरण में है: केवल एकल-लेयर ट्रेनिंग समर्थित है, सिंथेटिक डेटा का उपयोग किया जा रहा है, और लगभग 119 बार कंपाइल के बाद संसाधन लीक होते हैं, जिन्हें प्रक्रिया पुनः शुरू करके बचा जा सकता है; मल्टी-लेयर ट्रेनिंग और वास्तविक डेटा समर्थन अभी विकासाधीन हैं। प्रोजेक्ट MIT लाइसेंस के तहत ओपन सोर्स है और प्रकाशित होने के 5 दिनों में लगभग 2800 स्टार प्राप्त किए हैं।


डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।