Pesan BlockBeats, 3 Maret, pengembang Manjeet Singh (GitHub: maderix) bekerja sama dengan Claude Opus, berhasil melakukan pelatihan jaringan saraf dengan backpropagation pertama kali di Apple Neural Engine (ANE) chip M4 melalui reverse engineering API pribadi Apple yang tidak dipublikasikan. ANE adalah akselerator yang dirancang khusus oleh Apple untuk inferensi, dan secara resmi tidak pernah membuka kemampuan pelatihan; pengembang hanya dapat memanggil fungsionalitas inferensinya secara tidak langsung melalui kerangka kerja CoreML.
Proyek ini melewati CoreML, langsung memetakan lebih dari 40 kelas privat seperti _ANEClient`, `_ANECompiler` ke driver kernel IOKit, dan menemukan antarmuka _ANEInMemoryModelDescriptor yang memungkinkan kompilasi model langsung di memori—ini kunci untuk implementasi pelatihan, karena setiap pembaruan bobot memerlukan kompilasi ulang. Saat ini, pelatihan telah diimplementasikan untuk satu lapisan transformer (dim=768, seq=512), dengan waktu 9,3 ms per langkah di M4, utilitas ANE sebesar 11,2% (1,78 TFLOPS, puncak teoretis 15,8 TFLOPS), gradien input untuk forward dan backward propagation dihitung di ANE, sedangkan gradien bobot dan optimizer Adam diselesaikan di CPU.
Proyek juga menemukan bahwa primitif komputasi inti ANE adalah konvolusi, bukan perkalian matriks; menggunakan konvolusi 1x1 untuk merepresentasikan perkalian matriks dapat meningkatkan throughput sekitar 3 kali, dan memanggil langsung tanpa melalui CoreML memberikan tambahan peningkatan 2-4 kali, sehingga klaim resmi Apple mengenai "38 TOPS" bersifat menyesatkan. Saat ini, proyek masih berada pada tahap awal: hanya mendukung pelatihan satu lapisan, menggunakan data sintetis, dan terdapat sekitar 119 kebocoran sumber daya setelah kompilasi yang harus dihindari dengan me-restart proses; dukungan untuk pelatihan multi-lapisan dan data nyata masih dalam pengembangan. Proyek ini dirilis dengan lisensi MIT dan telah mendapatkan sekitar 2.800 bintang dalam 5 hari.
