DeepSeek V4 Menunjukkan Prestasi Stabil pada Cip AI Tempatan

Tulisan | World Model Factory

DeepSeek V4, sekali lagi membuat seluruh China terkejut.

Ukuran parameter, panjang konteks, skor piawai… indikator teknikal ini telah berulang kali dibandingkan dalam pelbagai laporan.

Namun, jika hanya berhenti pada data permukaan, anda akan melewatkan inti paling strategik dalam pelancaran ini.

Dalam tiga tahun terakhir, model besar China sentiasa terperangkap dalam realiti yang memalukan: latihan bergantung pada NVIDIA, inferens juga bergantung pada NVIDIA, dan cip tempatan hanya dianggap sebagai pilihan simpanan.

Apabila NVIDIA menghentikan penghantaran, seluruh komuniti model China akan menjadi cemas.

Tetapi hari ini, DeepSeek V4 membuktikan dengan kekuatannya:

Sebuah model besar berskala triliunan parameter yang canggih juga dapat berjalan secara stabil dan efisien pada daya komputasi buatan dalam negeri.

Makna perkara ini telah melebihi indikator teknikal model itu sendiri.

Penerobosan yang diproduksi secara tempatan

Untuk benar-benar memahami kesukaran penyesuaian国产化 ini, anda perlu memahami empayar cip NVIDIA terlebih dahulu.

NVIDIA memiliki bukan sekadar cip, tetapi satu ekosistem utuh yang tertutup sepenuhnya:

Secara peranti keras, terdapat keluarga cip GPU, ditambah dengan NVLink dan NVSwitch untuk mencipta rangkaian berkelajuan tinggi antara cip-cip;

Dalam perisian, CUDA adalah sistem operasi AI yang telah dibina dengan teliti oleh NVIDIA selama lebih dari sepuluh tahun.

Ia seperti sebuah pabrik yang dioptimasi secara tinggi, dari operator terendah (unit pengiraan asas model) hingga pengiraan selari, pengurusan memori, dan komunikasi teragih, keseluruhan rantai dipersonalkan khas untuk GPU NVIDIA.

Dengan kata lain, NVIDIA tidak hanya menjual enjin, tetapi juga memperbaiki jalan, stesen minyak, bengkel pembaikan, dan sistem navigasi.

Model besar terkemuka dunia hampir semuanya tumbuh di ekosistem ini.

Beralih kepada kuasa pengiraan tempatan, namun menghadapi keadaan yang sama sekali berbeza.

Perbezaan arsitektur peranti keras, cara penghubungan, tahap kedewasaan stak perisian, dan ekosistem alat yang masih pantas mengejar.

DeepSeek ingin menyesuaikan dengan cip buatan tempatan, bukan sekadar menukar enjin, tetapi menukar sebuah kereta lumba yang sedang bergerak laju di lebuh raya pantas kepada jalan gunung yang masih dalam pembinaan.

Jika tidak berhati-hati, ia boleh menyebabkan guncangan, kehilangan kuasa, atau bahkan kereta keseluruhan tidak boleh bergerak maju.

Kali ini, DeepSeek V4 tidak memilih untuk terus mengoptimumkan hanya melalui laluan CUDA, tetapi mulai menyesuaikan perisian pada rantai kekuatan komputasi tempatan secara serentak.

Dari maklumat awam, V4 telah mencapai terobosan berdasarkan cip inferens tempatan, disesuaikan secara mendalam dengan cip Huawei Ascend 950, dan beroperasi dengan stabil pada hari pelancaran model oleh Cambricon, benar-benar mencapai penyesuaian Day 0.

Ini bermakna, model terkini kini mulai memiliki kemungkinan untuk dilaksanakan dalam sistem cip tempatan.

Bagaimana DeepSeek V4 melakukannya?

Langkah pertama berlaku pada peringkat arsitektur model.

V4 tidak memilih untuk memaksa cip tempatan menangani konteks 1M, tetapi terlebih dahulu membuat model itu sendiri lebih hemat.

Rekabentuk paling penting dalam laporan teknikal rasmi ialah mekanisme perhatian campuran CSA + HCA, serta pengoptimuman konteks panjang seperti pemampatan KV Cache.

Dengan kata mudah, inferensi konteks panjang tradisional membuat model membuka seluruh perpustakaan setiap kali menjawab soalan, sehingga memori video, bandwidth, dan kuasa pengiraan akan cepat habis.

Pendekatan V4 adalah dengan mengindeks semula, memampatkan, dan menyaring maklumat dari perpustakaan, hanya menghantar maklumat paling penting ke dalam rantai pengiraan.

Dengan cara ini, konteks 1M tidak lagi bergantung sepenuhnya pada kekuatan keras, tetapi terlebih dahulu memperkecil akaun pengiraan dan akaun memori video melalui algoritma.

Ini sangat penting untuk cip tempatan.

Jika model masih sangat bergantung pada lebar pita memori grafik dan pustaka CUDA yang matang, walaupun cip tempatan boleh menjalankannya, ia sukar untuk menjalankannya dengan murah dan stabil.

V4 terlebih dahulu mengurangkan beban inferens, pada dasarnya memberi tekanan kurang kepada kuasa komputasi tempatan.

Langkah kedua berlaku pada arsitektur MoE dan lapisan parameter pengaktifan.

Walaupun jumlah parameter V4-Pro mencapai 1.6 trilion, hanya sekitar 49 bilion parameter yang diaktifkan setiap kali inferensi; jumlah parameter keseluruhan V4-Flash ialah 284 bilion, dengan sekitar 13 bilion parameter yang diaktifkan setiap kali inferensi.

Ini bermakna ia tidak mengambil kesemua parameter setiap kali dipanggil, tetapi seperti pasukan pakar besar yang hanya memanggil pakar yang berkaitan apabila tugas datang.

Ini juga penting untuk cip tempatan.

Ia mengurangkan tekanan pengiraan yang perlu ditanggung setiap inferens, serta menjadikan konteks panjang dan skenario Agent lebih mudah diterima oleh kad inferens.

Langkah ketiga ialah penyesuaian pada peringkat operator dan kernel.

Titik terkuat ekosistem CUDA ialah sejumlah pengiraan dasar telah dipertajam oleh NVIDIA, membolehkan banyak pengiraan berprestasi tinggi digunakan secara terus.

Maksud V4 ialah sebahagian pengiraan kunci dikeluarkan dari kotak hitam NVIDIA dan diubah menjadi laluan pengiraan tersuai yang lebih boleh dipindahkan dan boleh disesuaikan.

Dengan cara yang lebih mudah difahami, V4 seakan-akan membuka komponen paling penting dalam enjin, membolehkan pembuat seperti Huawei Ascend dan Cambricon menyesuaikan semula mengikut struktur cip mereka sendiri.

Langkah keempat ialah kerangka penarikan kesimpulan dan lapisan perkhidmatan.

Jika penyesuaian cip tempatan hanya berhenti pada "jalankan Demo", makna industri tidak besar. Yang benar-benar perlu diperhatikan ialah sama ada ia boleh memasuki sistem perkhidmatan yang boleh dipanggil dan boleh dikenakan bayaran.

Berdasarkan ujian dalaman, pada昇腾950PR, kelajuan inferensi V4 meningkat ketara berbanding versi sebelumnya, dengan pengurangan tenaga yang jelas, dan prestasi satu kad dalam skenario ketepatan rendah tertentu mencapai lebih daripada 2 kali ganda H20 khas NVIDIA.

DeepSeek secara rasmi menyatakan bahawa V4-Pro kini terhad kepada kuasa pengiraan kelas tinggi, dengan kapasiti aliran perkhidmatan yang terhad, dan dijangka harga akan dikurangkan secara besar-besaran selepas nod super Ascend 950 dikeluarkan dalam jumlah besar pada separuh kedua tahun ini.

Ini menunjukkan bahawa dengan pengeluaran berskala besar peranti tempatan seperti Ascend, throughput dan nilai untuk wang V4 akan dioptimumkan lagi di masa depan.

Namun, perlu diperhatikan bahawa V4 belum sepenuhnya menggantikan GPU dan CUDA NVIDIA. Latihan model mungkin masih bergantung kepada NVIDIA, tetapi inferens sudah boleh dikerjakan secara secara perlahan-lahan secara tempatan.

Ini sebenarnya adalah laluan perniagaan yang sangat realistik.

Latihan adalah pengeluaran berperingkat, satu latihan, satu penyesuaian, satu pengulangan. Inferens adalah kos berterusan, dengan jutaan hingga miliaran panggilan pengguna setiap hari, setiap panggilan memerlukan kuasa pengiraan.

Perbelanjaan utama syarikat model sebenarnya berfokus pada inferens, dan dalam jangka panjang akan semakin beralih ke arah inferens. Siapa yang mampu menerima permintaan inferens dengan lebih murah dan lebih stabil, mereka akan memperoleh keunggulan sebenar dalam aplikasi industri.

DeepSeek V4 pertama kali menciptakan jalan alternatif untuk pelaksanaan inferensi model terkini China tanpa menjadikan NVIDIA CUDA sebagai prasyarat utama.

Langkah ini sudah cukup bermakna.

Dampak V4 terhadap aplikasi industri

Jika kesesuaian cip tempatan menjawab sama ada ia boleh berjalan, maka harga menjawab persoalan yang lebih realistik yang lain:

Adakah perusahaan mampu membayarnya?

Tempat paling hebat DeepSeek sebelum ini ialah ia mampu menekan keupayaan model yang hampir terkini kepada harga yang sangat rendah.

Zaman V3 dan R1 begitu, V4 juga begitu.

Perbezaannya ialah, kali ini ia bukan berperang harga dalam jendela konteks biasa, tetapi terus menekan harga dengan konteks 1M ditambah kemampuan Agen.

Menurut harga rasmi DeepSeek:

Input cache hit untuk V4-Flash: 0.2 yuan / juta token, input cache miss: 1 yuan / juta token, output: 2 yuan / juta token;

Input cache hit untuk V4-Pro: RM1 per juta token, input cache miss: RM12 per juta token, output: RM24 per juta token.

Masukkan ke dalam model tempatan sejenis:

Berbanding dengan Alibaba Qwen3.6-Plus pada julat 256K-1M, harga output V4-Pro kira-kira separuhnya, dan V4-Flash lebih rendah lagi.

Dibandingkan dengan Siri MiMo Pro Xiaomi pada julat 256K-1M, V4-Flash dan V4-Pro jauh lebih murah.

Konteks Kimi K2.6 adalah 256K, sebaliknya, konteks V4-Pro lebih panjang dan lebih murah; V4-Flash secara langsung menurunkan kos panggilan frekuensi tinggi ke tahap yang berbeza.

This has significant implications for enterprise applications.

Kerana konteks 1M, ia bermakna model boleh membaca seluruh repositori kod, paket kontrak tebal, prospektus beratus-ratus muka surat, minit pertemuan jangka panjang, atau status sejarah yang terkumpul semasa agen melaksanakan tugas secara berterusan.

Dulu, banyak aplikasi perusahaan terhenti di sini: kemampuan model cukup, tetapi konteks tidak mencukupi; konteks mencukupi, tetapi harganya terlalu mahal; harga boleh diterima, tetapi kemampuan model tidak stabil.

Sebagai contoh, sebuah perusahaan yang membuat agen penyelidikan dan penyelidikan pelaburan perlu membolehkan model membaca laporan tahunan syarikat, perbincangan laporan kewangan, laporan industri, berita pesaing, dan catatan dalaman.

Apabila konteks hanya 128K atau 256K, sistem sering perlu memotong, mencari, dan meringkas secara berulang, menyebabkan kehilangan maklumat semasa kompresi berulang.

Konteks 1M membolehkan model mengekalkan lebih banyak bahan asal, mengurangkan kehilangan dan pemotongan.

Misalnya pula Agent kod.

Ia bukan sekadar menulis beberapa baris kod sekaligus, tetapi perlu membaca repositori, memahami ketergantungan, memodifikasi fail, menjalankan ujian, dan memperbaiki berdasarkan ralat yang muncul. Proses ini akan menghabiskan token berulang kali.

Jika setiap langkah sangat mahal, agen hanya boleh melakukan demonstrasi, tetapi jika token cukup murah, ia baru mungkin memasuki proses pembangunan sebenar.

Ini juga merupakan nilai industri V4.

Ia mungkin bukan model yang paling kuat, tetapi boleh menjadi model yang paling kerap digunakan oleh perusahaan.

DeepSeek sekali lagi menjadikan AI sebagai alat produktiviti yang boleh dideploy secara besar-besaran oleh pelbagai industri, bukan sekadar mainan eksklusif beberapa syarikat besar.

Nilai sebenar V4

Ketika konteks 1M bergerak ke garis depan industri dengan harga yang sangat rendah, berat sebenar DeepSeek V4 baru terungkap.

Semuanya dibina di atas asas kuasa komputasi tempatan yang masih belum matang.

Menghadapi jurang sistemik dalam ekosistem cip tempatan, pasukan DeepSeek tidak memilih menunggu hingga ekosistem matang sebelum melancarkan.

Mereka terus menangguhkan jadual pelancaran, menghabiskan berbulan-bulan masa untuk menjalankan ujian bersama mendalam dengan rakan seperti Huawei, dan kekompleksan kejuruteraan ini jauh melebihi bayangan luar.

Oleh itu, pencapaian V4 dalam menghasilkan kemampuan inferens dan Agent yang hampir setara dengan model tertutup terkemuka pada kuasa pengiraan tempatan sangatlah sukar.

V4 membuktikan sendiri, walaupun menghadapi jurang sementara dalam ekosistem peranti keras, pasukan China masih mampu mencapai prestasi yang kompetitif melalui penglibatan kejuruteraan yang ekstrem dan inovasi kerjasama perisian-peranti keras.

Tentu, masih terdapat jarak untuk mencapai kematangan sepenuhnya.

Kesempurnaan rantai alat platform Ascend, kestabilan kluster berskala super besar, serta pengoptimuman mendalam untuk lebih banyak skenario tegak lurus, semuanya memerlukan usaha bersama yang berterusan daripada semua pihak dalam industri.

Namun, kejayaan V4 telah membentuk jalan yang boleh dijadikan rujukan untuk model seterusnya.

Ia memberikan suntikan semangat kepada kemandirian dan kawalan keseluruhan rantaian bekalan AI.

Di tengah ketidakpastian persekitaran luar, ketahanan untuk menembusi batasan dalam keadaan terhad ini lebih patut dihormati daripada sekadar indikator parameter.

Tidak tergoda oleh pujian, tidak takut terhadap fitnah, berjalan mengikuti jalan yang benar, dan memperbaiki diri dengan tegak.

Perkataan ini daripada pihak rasmi DeepSeek adalah catatan terbaiknya.