Ipinakita ng DeepSeek V4 ang matatag na pagganap sa mga lokal na AI chip

Artikulo | World Model Factory

DeepSeek V4, muli ang nagdulot ng pagkabigla sa buong China.

Ang laki ng parameter, haba ng konteksto, marka sa benchmark… ang mga teknikal na indikador na ito ay paulit-ulit nang ihahambing sa iba’t ibang ulat.

Ngunit kung tanging hinihinga ang mga pangunahing datos, malilimutan ang pinakamahalagang bahagi ng pagpapalabas na may estratehikong kahalagahan.

Sa nakalipas na tatlong taon, ang mga malalaking modelo ng China ay palaging nakakulong sa isang kahinaan: ang pag-train ay nakasalalay sa NVIDIA, at ang pag-reason ay nakasalalay din sa NVIDIA, habang ang mga lokal na chip ay tanging opsyon bilang backup.

Kapag nag-terminate ang NVIDIA sa pagbibigay, mag-aalala ang buong komunidad ng mga modelo sa China.

Ngunit ngayon, patunayan ng DeepSeek V4 ang lakas nito:

Isang maunlad na malaking modelo na may trilyon na parameter, maaari rin itong tumakbo nang matatag at epektibo sa lokal na computing power.

Ang kahalagahan ng bagay na ito ay higit pa sa mga teknikal na indikador ng modelo mismo.

Ang pagbuo ng lokal na solusyon

Upang talagang maunawaan ang kalalabasan ng pag-adapt sa lokal na pagbuo, kailangan mong maunawaan ang imperyo ng mga chip ni NVIDIA.

Hindi lang chips ang may-ari ng NVIDIA, kundi isang lubos na saradong ekosistema:

Sa hardware, may GPU chip family na kasama ang NVLink at NVSwitch para sa high-speed network na nag-uugnay sa mga chip;

Sa software, ang CUDA ay isang AI operating system na maaalala nang mahusay ng NVIDIA sa loob ng maraming taon.

Ito ay parang isang mataas na inoptimo na pabrika, mula sa pinakamababang operator (pangunahing yunit ng pagkalkula ng modelo), hanggang sa parallel computing, memory management, at distributed communication, ang buong chain ay disenyo para sa NVIDIA GPU.

Sa ibang salita, hindi lang nagbebenta ng engine ang NVIDIA, kundi pinaganda rin nito ang mga daan, pump, serbisyo station, at sistema ng navigation.

Ang mga pinakamalaking model sa buong mundo ay halos lahat ay lumalago sa ekosistemong ito.

Pagpapalit sa lokal na computing power, ang kinakaharap ay magkakaibang sitwasyon.

Magkakaiba ang arkitektura ng hardware, paraan ng pagkonekta, kasaganaan ng software stack, at patuloy pa ring nagtutungo ang ecosystem ng mga kasangkapan.

Gusto ng DeepSeek na mag-adjust sa mga lokal na chip, hindi ito simpleng pagbabago ng engine, kundi pagpalit ng isang赛车 na nasa mataas na bilis sa highway patungo sa isang daan na nasa pagtatayo pa.

Kung hindi mo ito sinusunod nang maayos, maaaring magkaroon ng pagtibok, pagkawala ng lakas, o kaya'y hindi makapag前进 ang buong sasakyan.

Sa pagkakataong ito, hindi pinili ng DeepSeek V4 na patuloy na i-optimize ang CUDA path lamang, kundi nagsimula na ring magsuot ng software stack adaptation para sa lokal na computing power.

Batay sa publikong impormasyon, nakamit ng V4 ang isang pagbabago sa pamamagitan ng lokal na inference chip, na may malalim na pag-optimize para sa Huawei Ascend 950, at maaari ring mag-run nang maayos ang Cambricon sa araw ng paglalabas ng model, na nagtataglay ng totoong Day 0 compatibility.

Ibig sabihin nito, ang mga avant-garde model ay nagsisimulang magkaroon ng posibilidad na ma-implement sa loob ng lokal na chip system.

Paano nagawa ng DeepSeek V4?

Unang hakbang, nangyayari sa antas ng arkitektura ng modelo.

Hindi pinili ng V4 na ipaglaban ang 1M na konteksto gamit ang lokal na chip, kundi unang gawing mas mura ang sariling modelo.

Ang pinakamahalagang disenyo sa opisyal na teknikal na ulat ay ang CSA + HCA hybrid attention mechanism, pati na rin ang KV Cache compression at iba pang pagpapabuti para sa mahabang konteksto.

Sa madaling salita, ang tradisyonal na pag-iisip ng mahabang konteksto ay nagpapahintulot sa modelo na bawat sagot ay nagbabasa ng buong libreria, na mabilis na nagpapababa ng VRAM, bandwidth, at computing power.

Ang paraan ng V4 ay ang pag-reindex, pag-compress, at pag-filter muna ng mga materyales sa library, at ang pagpapadala lamang ng pinakamahalagang impormasyon sa computing pipeline.

Sa ganitong paraan, ang 1M context ay hindi na ganap na nakadepende sa puwersa ng hardware, kundi una ay ginagawa maliit ang computation at VRAM账 sa pamamagitan ng algorithm.

Sobrang mahalaga ito para sa mga lokal na chip.

Kung patuloy pa ring malaki ang pagkakasalig ng modelo sa bandwidth ng VRAM at mga matatag na CUDA library, kahit na makapagpapatakbo ang mga lokal na chip, mahirap itong gawing mura at matatag.

Ang V4 ay unang nagpapababa sa presyon sa pagpapatakbo, na sa本质上 ay nagpapababa sa presyon sa lokal na computing power.

Pangalawang hakbang, nangyayari sa MoE architecture at activation parameter layer.

Bagaman ang kabuuang parametrong ng V4-Pro ay umabot sa 1.6 trilyon, bawat pagpapatakbo ay nagpapagana ng humigit-kumulang 49 bilyong parametron; ang kabuuang parametrong ng V4-Flash ay 284 bilyon, na nagpapagana ng humigit-kumulang 13 bilyong parametron sa bawat pagpapatakbo.

Ibig sabihin nito na hindi ito nagrereklamo ng lahat ng mga parameter bawat pagtawag, kundi parang isang malaking team ng mga eksperto, kung may gawain, tatawagin lang ang mga kaugnay na eksperto.

Para sa mga lokal na chip, mahalaga rin ito.

Nakakabawas ito sa komputasyonal na presyon na dapat tanggihan sa bawat inference, at nagiging mas madaling tanggapin ng inference card ang mga mahabang konteksto at Agent scenarios.

Hakbang 3, ang pag-adapt sa operator at kernel layer.

Ang pinakamalakas na bahagi ng CUDA ecosystem ay ang malaking bilang ng mga pangunahing pagkalkula na napanatili ng NVIDIA, kung saan maraming mga mataas na performance computing ay maaaring direkta na gamitin.

Ang kahalagahan ng V4 ay ang pagkuha ng ilang mga pangunahing kalkulasyon mula sa black box ng NVIDIA at pagpapalit nito sa mas maaring i-transfer at maaring i-adopt na kustomisadong mga daanan ng kalkulasyon.

Sa mas simpleng salita, ang V4 ay parang pagbubukas ng mga pinakamahalagang bahagi ng engine upang ang mga kumpanya tulad ng Huawei Ascend at Cambricon ay maaaring i-re-tune ito ayon sa kanilang sariling chip architecture.

Hakbang apat, ang framework ng pagdededuksyon at layer ng serbisyo.

Kung ang pagkakasundo ng lokal na chip ay nagtatapos lamang sa “paggawa ng Demo”, ang industriyal na kahalagahan nito ay hindi malaki. Ang tunay na dapat pagtuunan ng pansin ay kung makakapasok ba ito sa isang serbisyo na maaaring i-call at i-bill.

Ayon sa panloob na pagsubok, sa昇腾950PR, ang V4 inference speed ay may malaking pagpapabuti kumpara sa mga nakaraang bersyon, at may malinaw na pagbaba sa enerhiyang ginagamit, na nagtataglay ng mas higit sa dalawang beses ang performance ng isang card sa mga partikular na mababang precision na scenario kumpara sa NVIDIA H20.

Binanggit ng DeepSeek na kasalukuyang limitado ang V4-Pro dahil sa mataas na computing power, at limitado ang throughput ng serbisyo; inaasahan na bababa nang malaki ang presyo pagkatapos ng malaking paglalabas ng Ascend 950 super nodes sa ikalawang kalahati ng taon.

Nagpapakita ito na kasunod ng mas malaking produksyon ng lokal na hardware tulad ng Ascend, ang V4 ay magkakaroon ng karagdagang pagpapabuti sa throughput at value-for-money.

Ngunit mahalagang tandaan na ang V4 ay hindi pa nagpalit ng buong GPU at CUDA ng NVIDIA. Ang pagtatrabaho ng modelo ay maaaring kailangan pa rin ng NVIDIA, ngunit ang inference ay maaari nang palitan nang paulit-ulit sa lokal.

Ito ay talagang very realistic na business path.

Ang pagtatrain ay isang pahintulot na pagpapalakas, isang pagtatrain, isang pagpapalit, isang pag-iterate. Ang pagpapagana ay isang patuloy na gastos, araw-araw na milyon o bilyon na pagtawag mula sa mga user, at bawat pagtawag ay nangangailangan ng computing power.

Ang pinakamalaking gastos ng mga kumpanya ng modelo ay ang pagpapatakbo, at sa habang panahon ay lalong lalong magiging mas nakatuon sa pagpapaliwanag. Sino man ang kayang mas mura at mas matatag na sagutin ang pangangailangan sa pagpapaliwanag, siya ang makakakuha ng tunay na kalamangan sa aplikasyon ng industriya.

Ang DeepSeek V4 ay unang nagbigay ng isang ruta na hindi nagtatayong CUDA ng NVIDIA bilang default para sa pag-deploy ng pag-iisip ng mga pinakamoderno na modelo ng China.

Sapat na ang hakbang na ito.

Epekto ng V4 sa aplikasyon ng industriya

Kung ang pagkakasundo ng lokal na chip ay sumasagot kung kaya itong i-run, ang presyo ay sumasagot sa isang mas realistiko na tanong:

Kaya ba ng mga negosyo?

Noong nakaraan, ang pinakamalakas na punto ng DeepSeek ay ang kakayahang i-lower ang presyo nang husto habang nananatili sa kakayahan na malapit sa mga modelo sa harap.

Ganito rin sa V3, R1, ganito rin sa V4.

Ang pagkakaiba ay na ito ay hindi nagpapalaban sa presyo sa karaniwang kontekstong window, kundi patuloy na nagpapababa ng presyo sa ilalim ng 1M konteksto + kakayahan ng Agent.

Ayon sa opisyal na presyo ng DeepSeek:

Ang cache hit para sa V4-Flash ay ₱0.20/milyong tokens, ang cache miss ay ₱1.00/milyong tokens, at ang output ay ₱2.00/milyong tokens;

Ang cache hit input sa V4-Pro ay ₱1 bawat milyong tokens, ang cache miss input ay ₱12 bawat milyong tokens, at ang output ay ₱24 bawat milyong tokens.

Ilagay ito sa loob ng mga lokal na modelo na katulad nito para tingnan:

Kumpara sa阿里Qwen3.6-Plus sa antas ng 256K-1M, ang presyo ng output ng V4-Pro ay halos kalahati, habang mas mababa pa ang V4-Flash.

Kumpara sa Xiaomi MiMo Pro Series sa antas ng 256K-1M, mas mura nang malinaw ang V4-Flash at V4-Pro.

Ang konteksto ng Kimi K2.6 ay 256K, kumpara sa V4-Pro na may mas mahabang konteksto at mas mababang presyo; ang V4-Flash naman ay diretso nang bawasan ang gastos sa madalas na paggamit sa isang ibang antas.

Malaking kahalagahan ito para sa mga enterprise application.

Dahil sa 1M na konteksto, ibig sabihin ay maaaring basahin ng modelo ang buong code repository, malalaking bundle ng kontrata, mga几百-pahina ng prospectus, mahabang minutes ng meeting, o ang kasaysayang estado na nakumpila habang nagpapatupad ang isang Agent.

Noong nakaraan, maraming corporate applications ang naka-antay dito: sapat ang kakayahan ng model, ngunit kulang ang konteksto; sapat ang konteksto, ngunit sobrang mahal; maaaring tanggapin ang presyo, ngunit hindi sapat ang katatagan ng model.

Halimbawa, isang negosyo na gumagawa ng AI na nag-aaral at nag-aanalisa, kailangan ng modelo na basahin ang taunang ulat ng kumpanya, mga tala mula sa telepono na pag-uusap tungkol sa pagsusuri, mga ulat sa industriya, balita tungkol sa mga kalaban, at mga panloob na tala.

Kapag ang konteksto ay may 128K o 256K lamang, madalas ay kailangan ng sistema na patuloy na maghihiwalay, maghahanap, at magsumaryo, kaya nawawala ang impormasyon sa maraming pag-compress.

Ang 1M na konteksto ay nagpapahintulot sa model na panatilihin ang higit pang orihinal na materyales, at mabawasan ang pagkakalimot o pagkakawala ng mga bahagi.

Halimbawa ay ang code agent.

Hindi ito isang pag-sulat ng ilang linya ng code nang isang beses, kundi kailangan mong basahin ang repository, unawain ang mga dependency, baguhin ang mga file, jalurin ang mga test, at ayusin muli batay sa mga error. Ang prosesong ito ay magrerepete at magkakaroon ng patuloy na paggamit ng tokens.

Kung ang bawat hakbang ay mahal, ang agent ay magiging limitado sa mga demo lamang, ngunit kung sapat ang kagandahan ng mga token, maaari itong pumasok sa tunay na proseso ng pagpapalawak.

Ito rin ang industriyal na halaga ng V4.

Hindi ito kailangang ang pinakamalakas na modelo, ngunit maaaring maging ang pinaka-karaniwang modelo sa mga negosyo.

Binalik ulit ni DeepSeek ang AI mula sa eksklusibong laruan ng ilang malalaking kumpanya, patungo sa isang produktibong kasangkapan na maaaring i-deploy sa scale sa maraming industriya.

Totoong halaga ng V4

Nang dumating ang 1M context sa isang napakababang presyo sa harap ng industriya, ang totoong halaga ng DeepSeek V4 ay naging makikita.

Lahat ng ito ay batay sa isang pundasyon na ang lokal na computing power ay hindi pa kumpleto.

Sa harap ng sistematisong pagkakaiba sa ekosistema ng lokal na chip, ang team ng DeepSeek ay hindi pumili na maghintay hanggang maging matatag ang ekosistema bago ilunsad.

Patuloy nilang isinikat ang window ng pagpapalabas, ginugol ang ilang buwan para sa malalimang pagco-coordinate at pagsubok kasama ang mga kasosyo tulad ng Huawei—ang antas ng teknikal na hamon na ito ay mas malaki kaysa sa anumang ipinapalagay ng labas.

Dahil dito, ang pagkamit ng V4 ng halos pinakamataas na kakayahan sa pag-iisip at Agent sa lokal na computing power ay lubos na mahirap.

Patunay ng V4 na kahit may pagkakaiba sa hardware ecosystem, ang Chinese team ay patuloy na makakapagbigay ng kompetitibong performance sa pamamagitan ng ekstremong engineering investment at software-hardware collaboration.

Kasalungat, mayroon pa ring kalayuan mula sa ganap na pagiging matatag.

Ang kahusayan ng toolchain ng Ascend platform, ang katatagan ng sobrang malaking cluster, at ang mas malalim na pag-optimize sa higit pang espesipikong escenario, ay nangangailangan ng patuloy na pagsisikap ng lahat ng bahagi ng industriya.

Ngunit ang tagumpay ng V4 ay nagbigay-daan sa isang mapagkukunan para sa mga susunod na modelo.

Ito ay nagbigay ng malakas na pagsuporta sa自主可控 ng buong AI supply chain.

Sa kasalukuyang panahon na puno ng kawalan ng katiyakan sa labas, ang kakayahang lumampas sa mga limitasyon ay mas karapat-dapat sa paggalang kaysa sa mga simpleng parameter.

Hindi mapapaloko sa pagmamalaki, hindi natatakot sa pagmamaliit, sumusunod sa tamang daan at nagpapakita ng katarungan sa sarili.

Ang pahayag na ito mula sa opisyal na DeepSeek ay ang pinakamabuting paliwanag nito.