ข่าวจาก BlockBeats เมื่อวันที่ 3 มีนาคม นักพัฒนา Manjeet Singh (GitHub: maderix) ร่วมงานกับ Claude Opus ผ่านการรีเวิร์สเอ็นจิเนียริ่ง API ลับที่ Apple ไม่เปิดเผย ทำให้สามารถฝึกอบรมเครือข่ายประสาทเทียมที่มีการแพร่กลับได้เป็นครั้งแรกบน Apple Neural Engine (ANE) ที่ใช้ชิป M4 ANE เป็นตัวเร่งความเร็วที่ Apple ออกแบบมาเฉพาะสำหรับการอนุมาน โดยทางบริษัทไม่เคยเปิดให้ใช้งานฟังก์ชันการฝึกอบรมเลย นักพัฒนาจึงสามารถเรียกใช้งานฟังก์ชันการอนุมานของ ANE ได้เฉพาะผ่านเฟรมเวิร์ก CoreML เท่านั้น
โครงการนี้ข้าม CoreML โดยตรงและแมปคลาสส่วนตัวกว่า 40 คลาส เช่น _ANEClient` และ `_ANECompiler ไปยังไดรเวอร์เคอร์เนล IOKit และค้นพบอินเทอร์เฟซ _ANEInMemoryModelDescriptor ที่สามารถคอมไพล์โมเดลได้โดยตรงในหน่วยความจำ—ซึ่งเป็นกุญแจสำคัญในการฝึกอบรม เนื่องจากต้องคอมไพล์ใหม่ทุกครั้งที่น้ำหนักได้รับการอัปเดต ปัจจุบันได้ดำเนินการฝึกอบรมสำหรับชั้น transformer หนึ่งชั้น (dim=768, seq=512) โดยใช้เวลา 9.3 มิลลิวินาทีต่อขั้นตอนบน M4 โดยมีการใช้งาน ANE อยู่ที่ 11.2% (1.78 TFLOPS โดยมีค่าสูงสุดทฤษฎีอยู่ที่ 15.8 TFLOPS) การคำนวณเกรดของอินพุตสำหรับการแพร่กระจายแบบข้างหน้าและแบบย้อนกลับทำบน ANE ส่วนเกรดของน้ำหนักและตัวปรับแต่ง Adam ทำบน CPU
โครงการยังพบว่าหน่วยคำนวณหลักของ ANE คือการคอนโวลูชัน ไม่ใช่การคูณเมทริกซ์ การใช้การคอนโวลูชัน 1x1 เพื่อแสดงการคูณเมทริกซ์สามารถเพิ่มปริมาณการรับส่งข้อมูลได้ประมาณ 3 เท่า และหากเรียกใช้งานโดยตรงโดยไม่ผ่าน CoreML จะได้รับผลลัพธ์เพิ่มเติมอีก 2-4 เท่า คำอ้างของ Apple ว่า “38 TOPS” จึงมีความคลาดเคลื่อน ปัจจุบันโครงการยังอยู่ในระยะเริ่มต้น: รองรับการฝึกอบรมเพียงชั้นเดียว ใช้ข้อมูลสังเคราะห์ และมีการรั่วไหลของทรัพยากรหลังคอมไพล์ประมาณ 119 ครั้งที่ต้องรีสตาร์ทกระบวนการเพื่อหลีกเลี่ยง การฝึกอบรมหลายชั้นและการรองรับข้อมูลจริงยังอยู่ในระหว่างการพัฒนา โครงการเปิดซอร์สภายใต้ใบอนุญาต MIT และได้รับดาวประมาณ 2,800 ดาวภายในห้าวันหลังเปิดตัว
