PyTorch Mengintegrasikan CuteDSL sebagai latar belakang pendaraban matriks keempat dalam TorchInductor

KuCoinFlash

Masa Siaran: 07/04/2026, 10:42:04

Kongsi

Ringkasan

PyTorch telah menambahkan CuteDSL sebagai backend pendaraban matriks keempatnya dalam TorchInductor, menawarkan pemprosesan data atas rantai yang lebih baik untuk operasi nod penuh. Dibina daripada MetaEra, pilihan ini berdasarkan penyelenggaraan rendah, tiada penurunan kelajuan dalam kompilasi, dan prestasi yang lebih baik pada beban kerja utama. Dibangunkan oleh NVIDIA, CuteDSL menggunakan templat berasaskan Python dengan masa kompilasi pantas, sepadan dengan backend sedia ada dan melampaui CUTLASS C++ dari segi kelajuan. Backend ini mencerminkan abstraksi CUTLASS C++ dan memberikan keputusan yang kuat dalam FP8 GEMM dan fusi Epilogue. Pasukan memberi keutamaan kepada pengoptimuman GEMM, komponen utama dalam model Transformer. CuteDSL menghasilkan kod peringkat rendah melalui templat yang dioptimumkan, menyederhanakan pembangunan kernel dan meningkatkan ciri-ciri khusus arsitektur.

Berita ME, 7 April (UTC+8), pasukan rasmi PyTorch baru-baru ini mengumumkan bahawa CuteDSL telah diintegrasikan sebagai backend penyesuaian automatik pendaraban matriks keempat ke dalam TorchInductor. Pemilihan backend ini berdasarkan tiga kriteria: tidak menambah beban penyelenggaraan yang berlebihan, tidak memperlambat masa kompilasi atau ujian berprestasi, serta memberikan prestasi yang lebih baik pada beban kerja sasaran. CuteDSL, yang dikembangkan secara aktif oleh NVIDIA, menyediakan templat kernel yang dioptimakan, dengan masa kompilasi yang sepadan dengan backend sedia ada dan jauh lebih unggul berbanding laluan CUTLASS C++ yang memerlukan kompilasi `nvcc` penuh. Backend ini dibina berdasarkan abstrak yang sama dengan CUTLASS C++, ditulis dalam Python, dengan kompilasi yang lebih pantas dan penyelenggaraan yang lebih mudah, serta telah membuktikan prestasi yang kuat dalam FP8 GEMM dan penggabungan Epilogue. Pasukan berfokus pada pengoptimuman GEMM (pendaraban matriks) kerana ia mendominasi beban pengiraan dalam model Transformer. CuteDSL menghasilkan kod bawah tanah melalui templat yang dioptimakan secara manual, mengelakkan kerumitan menulis kernel dari awal, serta sepenuhnya mendedahkan struktur benang dan peringkat memori untuk menyokong ciri-ciri khusus arsitektur. (Sumber: InFoQ)

Sumber:Tunjukkan artikel asal

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.