Ang DeepSeek V4 at Meituan LongCat 2.0 ay Bumabagsak sa Barrier ng Trilyong Parameter

Ang mga lokal na AI na kompanya ay nagsisimula nang subukan na magtatag ng kanilang sariling daan.

Sa simula ng taong ito, ang mga tech community sa abroad ay nakikinig sa problema ng computing power ng China.

Sa Enero, sinabi ni Musk sa isang podcast na ang China ay “magiging mas malaki kaysa sa ibang bahagi ng mundo” sa AI computing power. Sa Pebrero, sinabi ni Sam Altman, CEO ng OpenAI, na ang teknolohikal na pag-unlad ng China sa larangan ng artificial intelligence ay “nagiging nakakagulat.” Muli at muli ring sinabi ni Jensen Huang, CEO ng NVIDIA: “Ang pagpapahintulot sa teknolohiya ng China ay magiging sanhi ng pagpapabilis ng kanilang sariling pagpapalawak.”

Ang taong 2025 ay maaaring ituring na taon ng pagkikita sa galing ng supply. Ang mga lokal na GPU tulad ng Moore Threads at MuXi股份 ay patuloy na pumasok sa mga merkado ng kapital, at mas lalo pang pinapalalim ang industriyal na pundasyon ng mga lokal na malalaking modelo. Sa 2026, ang mga pagbabago ay nagsalupot pababa sa chain ng industriya, at noong huling bahagi ng Abril, ilang lokal na malalaking modelo ay inilabas ang kanilang mga bagong bersyon.

Noong Abril 20, Moonshot ay naglunsad ng modelo na Kimi K2.6 na may kakayahang sumulat ng mahabang code; noong Abril 24, inilabas ang DeepSeek V4; susunod ay inilunsad ang pagsusuri ng LongCat-2.0-Preview ng Meituan, kung saan ang kabuuang sukat ng mga parametrong parehong hihigit sa isang trilyon at parehong sumusuporta sa 1M napakahabang konteksto.

Mahalagang banggitin na ang DeepSeek V4 ay nakakompleto ng paglipat at pag-adapt mula sa NVIDIA stack patungo sa Huawei Ascend platform; samantalang ang Meituan LongCat2.0 ay isang trillion-parameter na malaking modelo na nagtratrabaho sa buong proseso ng pagtuturo at pag-infer gamit ang lokal na computing power, na gumagamit ng 50,000 hanggang 60,000 lokal na computing chips.

Mahigit sa isang panahon, ang karaniwang estratehiya ng mga propesyonal sa AI sa Tsina ay ang pagsasamantala ng mga umiiral at matatag na solusyon. Ngayon, ang mga lokal na kumpanya sa AI ay nagsisimulang subukan ang pagbuo ng kanilang sariling daan.

Paggawa ng daan sa kagubatan

Paano mo matutupad ang isang mahirap na gawain?

Ang sagot ng manunulat ng science fiction na Arthur Clarke ay: "Ang tanging paraan ay gawin ang imposible bilang punto ng pagmumula."

Ang DeepSeek V4 ay nagdaraan ng maraming pagbabago sa oras mula sa unang pagtakda hanggang sa pagsasalba. Ang pangkalahatang palagay ng labas ay ang isa sa mga dahilan ay ang pangangailangan na ilipat ang pangunahing code mula sa NVIDIA CUDA.

Ang CUDA ecosystem, na pinaglalaban ng mahigit sa sampung taon, ay isang makapangyarihan at may sapat na mga kasangkapan na development platform. Ang lokal na compute ecosystem ay nasa unang yugto pa lamang ng pagbuo. Ang proseso ng pag-migrate ng code ay nangangahulugan na kailangan ng mga developer na gawin ang malaking pagrereconstruct ng mga paaalala sa framework.

Natupad ng DeepSeek ang huling layunin; dalawang araw pagkatapos ng paglalabas ng V4, inihayag ng JPMorgan Chase sa isang ulat na ang V4 ay nakamit ang tamang pagkakasya sa Huawei Ascend chip, na nagpapatotoo sa kakayahan ng lokal na computing power sa pinakamodernong AI inference; at sa pamamagitan ng mga teknikal na pagpapabuti sa ilalim na arkitektura tulad ng hybrid attention architecture, napababa nang malaki ng DeepSeek ang gastos sa inference.

Ginamit ng DeepSeek ang paraan ng mga tech enthusiast upang bawasan ang gastos at pataasin ang efisensiya, nakumpleto ang matigas na migrasyon sa pamamagitan ng pag-rewrite ng kalahati ng trabaho ng malaking modelo. Sa parehong araw, inilabas ang pagsubok ng Meituan LongCat-2.0-Preview, na tumatakbo nang direkta sa lokal na computing power.

Ano ang mga hamon sa engineering na kinakaharap ng lokal na computing power? Tingnan natin ang LongCat-2.0-Preview bilang halimbawa.

Ang unang hamon ay sa pisikal na lebel. Ang kapasidad at bandwidth ng memorya ng GPU ng lokal na hardware ay iba sa mga chip ng NVIDIA; habang tinuturuan at inilalagay ang modelo na may trilyon na parameter, ang tim ng Meituan ay nakakaranas ng malaking hamon sa inhenyeriya, kailangan nilang mag-alaala ng mas maraming pwersa para i-debug ang mga estratehiya ng parallelismo at i-optimize ang memorya ng GPU.

Ang pangalawang hamon ay ang kasaganaan ng software ecosystem; upang matiyak ang eksaktong pag-uulit sa buong proseso ng pag-train batay sa mga katangian ng lokal na chip, kailangan ng tim na muli at i-optimize ang mga pangunahing operator, pati na rin ang pagbuo ng kanilang sariling ganap na deterministikong operator.

Ang ikatlong hamon ay ang katatagan ng cluster ng libo-libo ng GPU, kung saan ang pagkabigo sa hardware ay hindi maiiwasan sa isang sobrang malaking cluster na gumagamit ng 50,000 hanggang 60,000 na lokal na GPU. Upang masolusyunan ito, nilikha ng team ang isang buong sistema para sa fault tolerance at automatic recovery.

Sa huling bahagi, batay sa mga katangian ng lokal na hardware, ang tim ay nagdisenyo ng mga espesipikong pagkakasunod-sunod sa framework at istruktura ng modelo upang malampasan ang mga limitasyon ng pangkalahatang framework at mapabuti ang performance ng pagkalkula.

Ang pag-optimize ng algorithm ni DeepSeek ay nagbaba ng mga paghingi sa computing power at nagbaba ng presyo ng model; ang mga praktikal na pagpapatupad ni Meituan ay nagpatunay sa kakayahan ng lokal na chip. Ang mga pag-aaral na ito ay nagbigay din ng mga kasanayan at karanasan para sa ekosistema ng lokal na chip.

Sinabi ni Liang Wenfeng: “Hindi namin inaasahan na maging isang catfish, ngunit naging catfish kami nang walang inaasahan,” at ngayon, ang “epekto ng catfish” ay nagsisimula nang makita, at hindi nag-iisa ang DeepSeek.

Mula sa isang punto hanggang sa sistema

Noong panahon ni Tang Daosheng mula sa Tencent Cloud, mayroon siyang ganitong metapora: “Ang malaking modelo ay ang engine, at ang gumagamit ay ang driver.” Madali para sa mga gumagamit na pansinin ang performance ng engine, ngunit ang mga mahusay na driver ay makikita na mahalaga rin ang fuel at chassis.

Ang pag-unlad ng computing power sa China ay nakasalalay sa magkakasamang pag-unlad ng buong supply chain. Ang mga pangunahing kumpanya sa bawat yugto ay patuloy na nagpapabuti sa kanilang mga kahinaan.

Sa produksyon, ang publikong data ay nagpapakita na ang produksyon ng mga chip sa Tsina ay patuloy na umuunlad, ngunit may 'dumbbell' na istruktura, kung saan ang mga matatandang proseso na 28nm at higit pa ang pangunahing bahagi, habang ang kakayahan sa mga advanced na proseso na 14nm at mas mababa ay patuloy na limitado.

Sa harap ng katotohanan na kulang ang EUV lithography machine, ang SMIC, Hua Hong Semiconductor, at iba pang mga kumpanya ay nagpapatuloy sa pagpapaunlad ng iba’t ibang proseso tulad ng multi-patterning upang hanapin ang balanse sa loob ng pisikal na limitasyon. Ayon sa maraming ulat, ang yield ng N+2 process ng SMIC (katumbas ng 7nm) ay nababawas na sa higit sa 80%, na nangangahulugan na nakalampas na sila sa hangganan para sa komersyal na produksyon.

Sa aspeto ng computing power, mayroon pa ring pagkakaiba ang lokal na chip sa computing power per card kumpara sa NVIDIA. Ang pagpapatupad ng mga produkto tulad ng Huawei Ascend 910C ay nagpapakita na sa pamamagitan ng ekstremong linear speedup sa cluster, maaari ring maisagawa ang pag-train ng malalaking modelo.

Ang nagtatagumpay sa ekosistema ay nagtatagumpay sa mundo. Ang malalim na parapet na binuo ng NVIDIA CUDA ay may isang mahalagang dahilan: ang pagbuo ng pangkalahatang pamantayan sa pagkakatugma ng software at hardware.

Nakikita rin ng mga propesyonal sa industriya ang punto na ito. Halimbawa, ang Cambricon ay naglunsad ng isang pangunahing software platform na kompatibol sa mga pangunahing framework upang bawasan ang hadlang sa paglipat ng mga developer. Ang open-source system na pinangunahan ng Beijing Academy of Artificial Intelligence ay nagtatayo ng isang isangpamantayang ilalim na interface na nagpapahintulot sa mga modelong itaas na mag-run sa iba’t ibang lokal na chip.

May maraming malalaking kompanya sa internet sa bansa na may mga galaw din—ang dual-track strategy ng Baidu, ang pag-invest ng千亿 ng ByteDance—lahat ay naghahanap ng mas mahusay na solusyon para sa infrastructure ng computing power.

Batay sa publikong data, sa loob ng mga nakaraang taon, tinatapos ng Meituan ang pagpapalawak sa kahigitan sa 21 na kumpanya na nakatuon sa semiconductor/mga smart hardware at mga pangkalahatang malaking modelo. Kasama rito ang mga kumpanya sa antas ng chip computing tulad ng Moore Threads at Muxi Shares, pati na rin ang Aixinyuanzhi sa larangan ng visual chip; pati na rin ang maraming iba pang kumpanya tulad ng Guangzhou Zhongshan at Dongfang Suanxin sa mga espesipikong sektor tulad ng bagong materyales.

Samantalang patuloy na sinusunod ang teknikal na aspeto, ang industriyal na kapital ay nagsisilbing investor at ko-creator ng computing power, at unti-unting bumubuo ng positibong siklo.

Mula sa digital na mundo, patungo sa mga aktwal na gawain

Kasalukuyang nasa mahalagang punto ng ikatlong alon ang artificial intelligence, at pinapaglaban ng malalaking modelo ito mula sa mahinang artificial intelligence patungo sa pangkalahatang artificial intelligence, at mas mahalaga pa, pinapaglaban ang mga robot mula sa panahon ng 1.0 na espesyalisadong robot patungo sa panahon ng 2.0 na pangkalahatang embodied intelligence.

Sinabi ni Wang Zhongyuan, pangulo ng Beijing Academy of Artificial Intelligence, na ang mahalagang puntos ng kakayahan ng AI ay ang pisikal na mundo.

Sa isang panig, maraming lokal na manufacturer ay nagtatrabaho upang gawing maaaring "bumasa ng libu-libong aklat" ang malalaking modelo sa cloud, upang mapabuti ang katalinuhan at kahusayan sa lohikal na pag-iisip ng modelo. Sa kabilang panig, kailangan din ng malalaking modelo na "maglakbay ng libo-libong milya"—halimbawa, ang Wenxin Large Model ay inilagay sa sistema ng desisyon para sa autonomous driving; ang HuanYuan Large Model ay may solusyon sa industrial inspection na nasa ilang mga produksyon na linya.

Ang mga serbisyo ng Meituan tulad ng pagpapadala ng pagkain, pagbisita sa mga tindahan, at accommodation ay bumubuo sa pinakakomplikadong network ng pagpapatupad ng mga gawain sa araw-araw na buhay. Mayroon dito malaking dami ng totoong mga skena: mula sa bilis ng paglalabas ng pagkain sa kusina ng negosyo, hanggang sa mga kurier sa ilalim ng malakas na ulan, at pati na ang isang gabi na mensahe ng isang user na “gusto kong kumain ng hotpot.”

Sinabi nang malinaw ni Wang Xing na ang App ng Meituan ay dapat muna itaas sa antas ng “AI-powered App.” Ibig sabihin nito, ang layunin ng pagtuturo kay LongCat ay hindi lamang sagutin ang “Sino ang may masarap na pork stir-fry?”, kundi “hanapin ang tindahan, piliin ang pinakamahusay na promo voucher, at mag-book ng 2 upuan sa Biyernes ng gabi sa 7:00 PM.”

Ito ay nangangahulugan na mahalaga ang epekto ng pagpapadala ng gawain, at nagpapaliwanag kung bakit pinapahalagahan ng Meituan ang pagbuo ng AI na batayan sa pisikal na mundo.

Mula sa pagpapabuti ng mga parameter hanggang sa pagpapagana ng computing power, ang mga lokal na malalaking modelo ay nagtatapos sa pag-unlad mula sa «gamitin» patungo sa «magandang gamitin».

Walang shortcut sa daan na ito. Sa hinaharap, kapag patuloy na nagkakaroon ng kimikal na reaksyon ang mga algoritmo, computing power, kapital, at mga aplikasyon, ang kuwento ng Chinese AI ay magsasalip mula sa «single-point breakthrough» patungo sa «systemic evolution».

Ito ay mula sa WeChat public account na “Lan Dong Business”, may-akda: Yu Weilin