Pengembang Mencapai Pelatihan Jaringan Saraf Pertama pada Apple Neural Engine Melalui Reverse Engineering

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Seorang pengembang telah menjalankan pelatihan jaringan saraf pertama dengan backpropagation pada Apple’s Neural Engine di chip M4 melalui reverse engineering. Proyek ini melewati CoreML, memetakan lebih dari 40 kelas privat ke driver kernel IOKit untuk kompilasi model dalam memori. Kinerja mencapai 1,78 TFLOPS, dengan dukungan untuk satu lapisan transformer. Berita on-chain ini menandai peningkatan jaringan dalam pemanfaatan perangkat keras. Kode bersifat open-source di bawah lisensi MIT.

Pesan BlockBeats, 3 Maret, pengembang Manjeet Singh (GitHub: maderix) bekerja sama dengan Claude Opus, berhasil melakukan pelatihan jaringan saraf dengan backpropagation pertama kali di Apple Neural Engine (ANE) chip M4 melalui reverse engineering API pribadi Apple yang tidak dipublikasikan. ANE adalah akselerator yang dirancang khusus oleh Apple untuk inferensi, dan secara resmi tidak pernah membuka kemampuan pelatihan; pengembang hanya dapat memanggil fungsionalitas inferensinya secara tidak langsung melalui kerangka kerja CoreML.


Proyek ini melewati CoreML, langsung memetakan lebih dari 40 kelas privat seperti _ANEClient`, `_ANECompiler` ke driver kernel IOKit, dan menemukan antarmuka _ANEInMemoryModelDescriptor yang memungkinkan kompilasi model langsung di memori—ini kunci untuk implementasi pelatihan, karena setiap pembaruan bobot memerlukan kompilasi ulang. Saat ini, pelatihan telah diimplementasikan untuk satu lapisan transformer (dim=768, seq=512), dengan waktu 9,3 ms per langkah di M4, utilitas ANE sebesar 11,2% (1,78 TFLOPS, puncak teoretis 15,8 TFLOPS), gradien input untuk forward dan backward propagation dihitung di ANE, sedangkan gradien bobot dan optimizer Adam diselesaikan di CPU.


Proyek juga menemukan bahwa primitif komputasi inti ANE adalah konvolusi, bukan perkalian matriks; menggunakan konvolusi 1x1 untuk merepresentasikan perkalian matriks dapat meningkatkan throughput sekitar 3 kali, dan memanggil langsung tanpa melalui CoreML memberikan tambahan peningkatan 2-4 kali, sehingga klaim resmi Apple mengenai "38 TOPS" bersifat menyesatkan. Saat ini, proyek masih berada pada tahap awal: hanya mendukung pelatihan satu lapisan, menggunakan data sintetis, dan terdapat sekitar 119 kebocoran sumber daya setelah kompilasi yang harus dihindari dengan me-restart proses; dukungan untuk pelatihan multi-lapisan dan data nyata masih dalam pengembangan. Proyek ini dirilis dengan lisensi MIT dan telah mendapatkan sekitar 2.800 bintang dalam 5 hari.


Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.