DeepSeek V4 Menunjukkan Kinerja Stabil pada Chip AI Domestik

icon MarsBit
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Laporan on-chain menyatakan bahwa DeepSeek V4 berjalan lancar pada chip AI domestik seperti Huawei Ascend 950 dan Cambricon. Model ini menggunakan hybrid attention CSA + HCA dan kompresi KV Cache untuk mengurangi kebutuhan sumber daya. Arsitektur MoE membatasi parameter aktif selama inferensi, meningkatkan efisiensi. Optimasi kernel dan lapisan layanan meningkatkan kecepatan dan penggunaan energi. Berita AI + crypto menyoroti harga kompetitifnya, terutama untuk tugas konteks panjang dan berbasis Agent, mendukung adopsi perusahaan.

Tulis oleh Dunia Model Workshop

DeepSeek V4, sekali lagi membuat seluruh Tiongkok terkejut.

Ukuran parameter, panjang konteks, skor benchmark... indikator teknis ini telah berulang kali dibandingkan dalam berbagai laporan.

Namun, jika hanya berhenti pada data permukaan, Anda akan melewatkan inti paling strategis dari rilis ini.

Selama tiga tahun terakhir, model besar Tiongkok selalu terjebak dalam kenyataan yang memalukan: pelatihan bergantung pada NVIDIA, inferensi juga bergantung pada NVIDIA, sedangkan chip domestik hanya dianggap sebagai opsi cadangan.

Ketika NVIDIA menghentikan pasokan, seluruh komunitas model Tiongkok akan menjadi cemas.

Tetapi hari ini, DeepSeek V4 membuktikan kekuatannya:

Sebuah model besar berparameter triliunan yang canggih juga dapat berjalan secara stabil dan efisien pada daya komputasi dalam negeri.

Arti dari hal ini telah melampaui indikator teknis model itu sendiri.

Breakthrough in localization

Untuk benar-benar memahami kesulitan adaptasi lokal ini, Anda harus terlebih dahulu memahami kerajaan chip NVIDIA.

NVIDIA tidak hanya memiliki chip, tetapi juga ekosistem utuh yang sangat tertutup:

Secara perangkat keras, terdapat keluarga chip GPU, ditambah jaringan berkecepatan tinggi untuk menghubungkan chip melalui NVLink dan NVSwitch;

Di perangkat lunak, CUDA adalah sistem operasi AI yang dirancang selama belasan tahun oleh NVIDIA.

Ia seperti pabrik yang dioptimalkan secara tinggi, dari operator terendah (unit dasar perhitungan model) hingga komputasi paralel, manajemen memori, dan komunikasi terdistribusi, seluruh rantai dipersonalisasi untuk GPU NVIDIA.

Dengan kata lain, NVIDIA tidak hanya menjual mesin, tetapi juga memperbaiki jalan, stasiun pengisian bahan bakar, bengkel perbaikan, dan sistem navigasi.

Model besar teratas di dunia hampir semua tumbuh di ekosistem ini.

Beralih ke daya komputasi lokal, namun menghadapi situasi yang sama sekali berbeda.

Arsitektur perangkat keras berbeda, cara互联 berbeda, tingkat kedewasaan stack perangkat lunak berbeda, dan ekosistem alat masih cepat mengejar.

DeepSeek ingin menyesuaikan diri dengan chip domestik, bukan sekadar mengganti mesin, melainkan mengganti mobil balap yang sedang melaju cepat di jalan tol ke jalan pegunungan yang masih dalam pembangunan.

Jika tidak hati-hati, akan terjadi getaran, kehilangan tenaga, atau bahkan seluruh kendaraan tidak bisa bergerak maju.

Kali ini, DeepSeek V4 tidak memilih untuk terus mengoptimalkan hanya melalui jalur CUDA, tetapi mulai menyesuaikan diri dengan stack perangkat lunak kekuatan komputasi domestik secara bersamaan.

Dari informasi publik, V4 telah mencapai terobosan berbasis chip inferensi buatan dalam negeri, secara mendalam dioptimalkan untuk chip Huawei Ascend 950, dan dapat berjalan stabil pada hari peluncuran model oleh Cambricon, benar-benar mencapai adaptasi Day 0.

Ini berarti model-model terdepan mulai memiliki kemungkinan untuk diterapkan dalam sistem chip domestik.

Bagaimana DeepSeek V4 melakukannya?

Langkah pertama terjadi pada lapisan arsitektur model.

V4 tidak memilih memaksa chip lokal untuk menangani konteks 1M, tetapi terlebih dahulu membuat model itu sendiri lebih hemat.

Desain paling penting dalam laporan teknis resmi adalah mekanisme perhatian campuran CSA + HCA, serta optimasi konteks panjang seperti kompresi KV Cache.

Secara sederhana, inferensi konteks panjang tradisional membuat model membuka seluruh perpustakaan setiap kali menjawab pertanyaan, sehingga memori video, bandwidth, dan daya komputasi akan cepat habis.

Pendekatan V4 adalah dengan terlebih dahulu mengindeks ulang, mengompres, dan menyaring informasi dari perpustakaan, hanya mengirim informasi paling kritis ke jalur komputasi.

Dengan demikian, konteks 1M tidak lagi sepenuhnya bergantung pada kekuatan perangkat keras, tetapi terlebih dahulu memperkecil akun komputasi dan akun memori GPU melalui algoritma.

Ini sangat penting untuk chip dalam negeri.

Jika model masih sangat bergantung pada bandwidth memori GPU dan pustaka CUDA yang matang, bahkan jika chip domestik dapat menjalankannya, sulit untuk menjalankannya dengan biaya rendah dan stabil.

V4 terlebih dahulu mengurangi beban inferensi, pada dasarnya memberikan tekanan lebih ringan pada daya komputasi lokal.

Langkah kedua terjadi pada arsitektur MoE dan lapisan parameter aktivasi.

Meskipun total parameter V4-Pro mencapai 1,6 triliun, hanya sekitar 49 miliar parameter yang diaktifkan setiap kali inferensi; total parameter V4-Flash adalah 284 miliar, dengan sekitar 13 miliar parameter yang diaktifkan setiap kali inferensi.

Ini berarti bukan setiap panggilan mengambil semua parameter untuk dihitung, melainkan seperti tim ahli besar yang hanya memanggil ahli yang relevan saat tugas datang.

Ini juga penting bagi chip buatan dalam negeri.

Ini mengurangi beban komputasi yang harus ditanggung setiap inferensi, serta membuat konteks panjang dan skenario Agent lebih mudah ditangani oleh kartu inferensi.

Langkah ketiga adalah adaptasi pada tingkat operator dan kernel.

Keunggulan terbesar ekosistem CUDA adalah bahwa banyak perhitungan dasar telah disempurnakan oleh NVIDIA, sehingga banyak perhitungan berkinerja tinggi dapat langsung dipanggil.

Arti dari V4 adalah sebagian perhitungan kunci diambil dari black box NVIDIA dan diubah menjadi jalur perhitungan khusus yang lebih dapat dipindahkan dan disesuaikan.

Secara sederhana, V4 seperti membongkar komponen paling penting di dalam mesin, memungkinkan produsen seperti Huawei Ascend dan Cambricon untuk menyetel ulang sesuai struktur chip mereka sendiri.

Langkah keempat adalah kerangka inferensi dan lapisan layanan.

Jika adaptasi chip domestik hanya berhenti pada "jalankan Demo", makna industri-nya tidak besar. Yang benar-benar patut diperhatikan adalah apakah ia dapat masuk ke dalam sistem layanan yang dapat dipanggil dan dapat dibebankan biaya.

Berdasarkan pengujian internal, pada Ascend 950PR, kecepatan inferensi V4 meningkat signifikan dibandingkan versi sebelumnya, dengan konsumsi daya yang juga jauh lebih rendah. Kinerja satu kartu dalam skenario presisi rendah tertentu mencapai lebih dari dua kali lipat dari NVIDIA H20 khusus.

DeepSeek secara resmi menyebutkan bahwa saat ini V4-Pro terbatas oleh daya komputasi tinggi, sehingga throughput layanan terbatas, dan diharapkan harga akan turun signifikan setelah node super Ascend 950 mulai diproduksi massal pada paruh kedua tahun ini.

Ini menunjukkan bahwa seiring produksi massal perangkat dalam negeri seperti Ascend, throughput dan nilai harga V4 di masa depan akan terus dioptimalkan.

Namun perlu dicatat bahwa V4 belum sepenuhnya menggantikan GPU dan CUDA dari NVIDIA. Pelatihan model mungkin masih bergantung pada NVIDIA, tetapi inferensi sudah dapat secara bertahap dilokalisasi.

Ini sebenarnya adalah jalur bisnis yang sangat realistis.

Pelatihan adalah investasi bertahap, dilakukan satu kali, disesuaikan satu kali, dan diiterasi satu kali. Inferensi adalah biaya berkelanjutan, dengan jutaan hingga miliaran panggilan pengguna setiap hari, setiap panggilan memerlukan daya komputasi.

Pengeluaran terbesar perusahaan model sebenarnya, dalam jangka panjang akan semakin berfokus pada inferensi. Siapa yang dapat menerima permintaan inferensi dengan lebih murah dan lebih stabil, dialah yang akan memperoleh keunggulan nyata dalam aplikasi industri.

DeepSeek V4 untuk pertama kalinya menciptakan jalur deploy inferensi untuk model mutakhir Tiongkok yang tidak lagi mengandalkan NVIDIA CUDA sebagai asumsi default.

Langkah ini sudah cukup berarti.

Dampak V4 terhadap penerapan industri

Jika pertanyaan tentang kompatibilitas chip domestik menjawab apakah bisa berjalan, maka harga menjawab pertanyaan lain yang lebih realistis:

Apakah perusahaan mampu membelinya?

Dulu, keunggulan terbesar DeepSeek adalah kemampuannya untuk menurunkan kemampuan model yang mendekati terdepan ke harga yang sangat rendah.

Pada era V3 dan R1 demikian, V4 pun tetap demikian.

Perbedaannya adalah, kali ini bukan berlomba harga dalam konteks jendela biasa, melainkan terus menekan harga dengan konteks 1M ditambah kemampuan Agent.

Menurut harga resmi DeepSeek:

Cache hit input untuk V4-Flash adalah 0,2 yuan per juta token, cache miss input adalah 1 yuan per juta token, output adalah 2 yuan per juta token;

Cache hit input untuk V4-Pro adalah 1 yuan per juta token, cache miss input adalah 12 yuan per juta token, dan output adalah 24 yuan per juta token.

Masukkan ke dalam model domestik sejenis:

Dibandingkan dengan Alibaba Qwen3.6-Plus pada rentang 256K-1M, harga output V4-Pro sekitar setengahnya, sedangkan V4-Flash lebih rendah lagi.

Dibandingkan dengan seri Xiaomi MiMo Pro pada kisaran 256K-1M, V4-Flash dan V4-Pro jauh lebih murah.

Konteks Kimi K2.6 adalah 256K, dibandingkan dengan konteks V4-Pro yang lebih panjang dan harganya lebih rendah; V4-Flash langsung menurunkan biaya pemanggilan frekuensi tinggi ke tingkat yang berbeda.

This has great significance for enterprise applications.

Karena konteks 1M berarti model dapat membaca seluruh repositori kode, paket kontrak tebal, prospektus ratusan halaman, catatan rapat jangka panjang, atau status historis yang terakumulasi selama agen menjalankan tugas secara berurutan.

Dulu banyak perusahaan terjebak di sini: kemampuan model cukup, tetapi konteks tidak cukup; konteks cukup, harganya terlalu mahal; harga bisa diterima, tetapi kemampuan model tidak stabil.

Misalnya, sebuah perusahaan membuat agen riset dan investasi, yang memerlukan model untuk membaca laporan tahunan perusahaan, rapat telepon laporan keuangan, laporan industri, berita pesaing, dan catatan internal.

Ketika konteks hanya 128K atau 256K, sistem sering harus memotong, mencari, dan merangkum secara terus-menerus, sehingga informasi hilang selama beberapa kali kompresi.

Konteks 1M memungkinkan model mempertahankan lebih banyak materi asli, mengurangi kehilangan atau potongan informasi.

Misalnya lagi Agent kode.

Ini bukan sekadar menulis beberapa baris kode sekaligus, tetapi harus membaca repositori, memahami dependensi, mengubah file, menjalankan pengujian, lalu memperbaiki berdasarkan kesalahan yang muncul. Proses ini akan menghabiskan token berulang-ulang.

Jika setiap langkah sangat mahal, agen hanya bisa melakukan demonstrasi, tetapi jika token cukup murah, ia baru bisa memasuki proses pengembangan nyata.

Ini juga merupakan nilai industri dari V4.

Ini belum tentu model terkuat, tetapi bisa menjadi model yang paling sering digunakan oleh perusahaan.

DeepSeek sekali lagi mengubah AI dari mainan eksklusif beberapa perusahaan besar menjadi alat produktivitas yang dapat diterapkan secara skala besar di berbagai industri.

Nilai sebenarnya dari V4

Ketika konteks 1M bergerak ke garis depan industri dengan harga sangat rendah, bobot sebenarnya dari DeepSeek V4 baru terungkap.

Semua ini didasarkan pada fondasi daya komputasi domestik yang belum matang.

Menghadapi kesenjangan sistematis dalam ekosistem chip domestik, tim DeepSeek tidak memilih menunggu hingga ekosistem matang sebelum meluncurkan.

Mereka terus menunda jendela rilis, menghabiskan berbulan-bulan waktu untuk melakukan pengujian kolaboratif mendalam dengan mitra seperti Huawei, tingkat kesulitan teknis semacam ini jauh melampaui bayangan publik.

It is precisely for this reason that V4 achieving inference and Agent capabilities close to top-tier closed-source models on domestic computing power is especially remarkable.

V4 membuktikan sendiri bahwa, meskipun menghadapi kesenjangan sementara dalam ekosistem perangkat keras, tim Tiongkok tetap dapat mencapai kinerja yang kompetitif melalui investasi teknis yang ekstrem dan inovasi sinergis perangkat lunak-perangkat keras.

Of course, there is still a gap to full maturity.

Kematangan alat rantai platform Ascend, stabilitas klaster skala sangat besar, serta optimasi mendalam untuk lebih banyak skenario vertikal, memerlukan upaya bersama terus-menerus dari berbagai pihak industri.

Namun, keberhasilan V4 telah membuka jalan yang dapat dijadikan contoh untuk model-model berikutnya.

Ini memberikan dorongan kuat bagi kemandirian dan kendali penuh atas seluruh rantai pasokan AI.

Di tengah ketidakpastian lingkungan eksternal, ketahanan untuk melampaui batasan-batasan ini lebih patut dihormati daripada sekadar indikator parameter.

Tidak tergoda oleh pujian, tidak takut oleh fitnah, berjalan sesuai jalan yang benar, dan menjaga diri dengan tegak.

Kalimat ini berasal dari DeepSeek resmi, yang merupakan catatan terbaiknya.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.