BlockBeats की सूचना, 3 मार्च, डेवलपर मंजीत सिंह (GitHub: maderix) ने Claude Opus के साथ सहयोग किया और Apple के गुप्त निजी API के रिवर्स इंजीनियरिंग के माध्यम से M4 चिप के Apple Neural Engine (ANE) पर प्रतिगमन के साथ न्यूरल नेटवर्क प्रशिक्षण को पहली बार सफलतापूर्वक लागू किया। ANE Apple द्वारा निष्कर्षण के लिए डिज़ाइन किया गया एक त्वरक है, जिसकी आधिकारिक रूप से कभी प्रशिक्षण क्षमता खोली नहीं गई है, और डेवलपर्स केवल CoreML फ्रेमवर्क के माध्यम से इसके निष्कर्षण कार्यों को अप्रत्यक्ष रूप से कॉल कर सकते हैं।
इस प्रोजेक्ट ने CoreML को छोड़कर _ANEClient`, `_ANECompiler` आदि 40 से अधिक निजी क्लासेस को IOKit कर्नेल ड्राइवर तक पूर्ण सॉफ्टवेयर स्टैक में मैप किया है और _ANEInMemoryModelDescriptor इंटरफ़ेस की खोज की है, जो मॉडल को मेमोरी में सीधे कंपाइल करने की अनुमति देता है—यह ट्रेनिंग के लिए महत्वपूर्ण है क्योंकि प्रत्येक वेट अपडेट के लिए पुनः कंपाइलेशन की आवश्यकता होती है। वर्तमान में एकल transformer स्तर (dim=768, seq=512) की ट्रेनिंग कार्यान्वित की गई है, M4 पर प्रति स्टेप 9.3 मिलीसेकंड का समय लगता है, ANE का उपयोग 11.2% (1.78 TFLOPS, सैद्धांतिक शीर्ष 15.8 TFLOPS) है, आगे और पीछे की ओर प्रसार के लिए इनपुट ग्रेडिएंट ANE पर गणना किए जाते हैं, जबकि वजन ग्रेडिएंट और Adam ऑप्टिमाइज़र CPU पर पूरा किए जाते हैं।
प्रोजेक्ट ने पाया कि ANE के कोर कैलकुलेशन प्राइमिटिव्स कॉन्वोल्यूशन हैं, न कि मैट्रिक्स गुणन। 1x1 कॉन्वोल्यूशन का उपयोग करके मैट्रिक्स गुणन को व्यक्त करने से लगभग 3 गुना थ्रूपुट वृद्धि मिलती है, और CoreML को छोड़कर सीधे कॉल करने से 2-4 गुना अतिरिक्त लाभ मिलता है, जिससे Apple का दावा "38 TOPS" भ्रामक है। वर्तमान में प्रोजेक्ट शुरुआती चरण में है: केवल एकल-लेयर ट्रेनिंग समर्थित है, सिंथेटिक डेटा का उपयोग किया जा रहा है, और लगभग 119 बार कंपाइल के बाद संसाधन लीक होते हैं, जिन्हें प्रक्रिया पुनः शुरू करके बचा जा सकता है; मल्टी-लेयर ट्रेनिंग और वास्तविक डेटा समर्थन अभी विकासाधीन हैं। प्रोजेक्ट MIT लाइसेंस के तहत ओपन सोर्स है और प्रकाशित होने के 5 दिनों में लगभग 2800 स्टार प्राप्त किए हैं।
