Google Meluncurkan Inferensi AI Lokal 3x Lebih Cepat Tanpa Perangkat Keras Baru

icon币界网
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Google memperkenalkan Multi-Token Prediction (MTP) untuk meningkatkan kecepatan inferensi AI lokal hingga 3x tanpa perangkat keras baru. Metode speculative decoding ini menggunakan model prediktor cepat bersamaan dengan model yang lebih besar untuk menghasilkan beberapa token sekaligus. Pembaruan ini kini tersedia untuk keluarga model Gemma 4 dan kompatibel dengan platform seperti Kaggle dan Ollama. Berita AI + kripto ini menyoroti kompatibilitas pencatatan token baru dan peningkatan kinerja.
CoinDesk melaporkan:

Menjalankan model kecerdasan buatan di komputer sendiri memang bagus—tetapi tidak selalu demikian.

Menjanjikan perlindungan privasi, tanpa biaya langganan, dan data tidak akan keluar dari perangkat Anda. Tetapi bagi kebanyakan orang, kenyataannya adalah, di antara kalimat-kalimat, kursor berkedip selama lima detik.

Bottleneck ini memiliki nama: kecepatan inferensi. Ini tidak berkaitan dengan tingkat kecerdasan model, melainkan masalah perangkat keras. Model AI standar menghasilkan satu fragmen kata (disebut "token") pada satu waktu, dan perangkat keras harus mentransfer miliaran parameter dari memori ke unit komputasi untuk menghasilkan setiap token. Desain ini secara inheren lambat. Di perangkat keras konsumen, ini benar-benar tak tertahankan.

Metode kompromi yang diambil oleh sebagian besar orang adalah menjalankan model berukuran lebih kecil dan berkinerja lebih lemah, atau menjalankan versi yang sangat dikompresi, yang disebut quantized models. Kedua solusi ini tidak sempurna; keduanya mengorbankan sebagian kualitas demi kecepatan. Meskipun dapat dijalankan, bukanlah model yang benar-benar Anda inginkan.

Sekarang Google mengusulkan solusi yang berbeda. Perusahaan baru saja merilis draf Multi-Token Prediction (MTP) untuk teknologi model terbuka Gemma 4 Family—teknologi ini dapat meningkatkan kecepatan hingga 3 kali lipat tanpa memengaruhi kualitas model atau kemampuan inferensi sama sekali.

Metode ini disebut speculative decoding, dan konsepnya telah ada selama bertahun-tahun. Para peneliti Google telah menerbitkan makalah pendiri sejak tahun 2022. Baru sekarang ide ini mulai diterima secara luas, karena memerlukan arsitektur yang tepat untuk dijalankan dalam skala besar.

Singkatnya, cara kerjanya seperti ini: alih-alih membiarkan model besar yang kuat menyelesaikan semua tugas sendiri, ia digabungkan dengan model "prediktor" kecil. Prediktor cepat dan hemat biaya—ia dapat memprediksi beberapa token sekaligus dalam waktu yang bahkan lebih singkat daripada waktu yang dibutuhkan model utama untuk menghasilkan satu token. Kemudian, model besar hanya perlu satu kali melewati seluruh prediksi tersebut. Jika prediksi benar, maka seluruh urutan dapat diperoleh dengan biaya hanya satu kali forward pass.

Menurut Google“Jika model target menyetujui draf tersebut, ia akan menerima seluruh urutan dalam satu forward pass—bahkan menghasilkan token tambahan sendiri selama proses tersebut.”

Tidak ada kerugian: Model besar—misalnya versi padat 31 miliar dari Gemma 4—tetap akan memvalidasi setiap token, dan kualitas output tetap sama. Anda hanya memanfaatkan kapasitas komputasi yang menganggur saat bagian-bagian berjalan lambat.

Google menyatakan bahwa model sketsa berbagi key-value cache (KV cache) dengan model target, yaitu struktur memori yang menyimpan konteks yang telah diproses, sehingga mereka tidak membuang waktu menghitung ulang informasi yang sudah diketahui oleh model besar. Untuk model edge kecil yang dirancang khusus untuk perangkat ponsel dan Raspberry Pi, tim bahkan membangun teknik clustering yang efisien untuk lebih memperpendek waktu generasi.

Ini bukan satu-satunya upaya dalam bidang kecerdasan buatan untuk menghasilkan teks secara paralel. Model bahasa berbasis difusi—seperti Mercury dari Inception Labs—menggunakan pendekatan yang sama sekali berbeda: alih-alih memprediksi satu token sekaligus, mereka memulai dari kebisingan dan secara iteratif mengoptimalkan seluruh output. Secara teori, kecepatannya sangat tinggi, tetapi model bahasa difusi sulit menyamai kualitas model Transformer tradisional, sehingga mereka lebih banyak dianggap sebagai objek penelitian daripada alat praktis.

Speculative decoding berbeda karena sama sekali tidak mengubah model dasar. Ini adalah optimasi layanan, bukan penggantian arsitektur. Versi Gemma 4 yang sebelumnya Anda jalankan akan menjadi lebih cepat.

Efek nyatanya memang signifikan. Menurut pengujian berbasis internal Google, setelah mengaktifkan draf MTP pada chip Gemma 4 26B yang dilengkapi GPU desktop Nvidia RTX Pro 6000, jumlah token yang diproses per detik hampir berlipat ganda. Pada chip Apple Silicon, ukuran batch 4 hingga 8 permintaan dapat meningkatkan kecepatan sekitar 2,2 kali. Meskipun tidak semua skenario dapat mencapai batas maksimal 3 kali, ini tetap merupakan perbedaan signifikan antara “masih bisa dipakai” dan “cepat cukup untuk digunakan secara praktis”.

Konteksnya sangat penting. Ketika model Tiongkok DeepSeek mengejutkan pasar pada Januari 2025. — menyebabkan kapitalisasi pasar NVIDIA lenyap sebesar $600 miliar dalam sehari — pelajaran utamanya adalah: peningkatan efisiensi lebih berdampak daripada sekadar meningkatkan kapasitas komputasi. Cara beroperasi yang lebih cerdas lebih unggul daripada terus-menerus menambah investasi perangkat keras. Alat pemetaan MTP milik Google adalah langkah selanjutnya menuju arah ini, hanya saja target pelanggannya jelas merupakan konsumen.

Seluruh industri kecerdasan buatan saat ini seperti segitiga yang terdiri dari tiga bagian: inferensi, pelatihan, dan memori. Terobosan di salah satu bidang akan memberikan dampak dorongan atau guncangan terhadap seluruh ekosistem. Metode pelatihan DeepSeek (menggunakan perangkat keras kelas bawah untuk membangun model yang kuat) adalah salah satu contohnya, sementara Google's ...TurboQuant (bagaimana mengurangi memori AI tanpa mengurangi kualitas) adalah makalah lainnya. Kedua makalah ini menyebabkan kejatuhan pasar, karena berbagai perusahaan berlomba-lomba mencari cara untuk mengatasinya.

Google menyatakan bahwa alat penggambaran ini dapat "meningkatkan kecepatan respons: secara signifikan mengurangi latensi untuk obrolan hampir real-time, aplikasi suara imersif, dan alur kerja agen"—tugas-tugas semacam ini memerlukan latensi rendah agar dapat berfungsi secara optimal.

Aplikasi yang jelas dan cepat: asisten kode lokal tanpa penundaan; antarmuka suara yang merespons sebelum Anda sempat lupa apa yang Anda tanyakan; alur kerja cerdas yang menyelesaikan langkah-langkah tanpa menunggu tiga detik. Semua ini dapat dilakukan pada perangkat keras yang sudah Anda miliki.

Draf MTP kini telah diluncurkan拥抱脸 Kompatibel dengan Apache 2.0 License, Kaggle, dan Ollama. Siap pakai, mendukung vLLM, MLX, SGLang, dan Hugging Face Transformers.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.