Natamo ng Qwen3.7-Max ang 10x pagtaas sa performance sa lokal na chip sa 35-oras na optimization task

icon MarsBit
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinakilala ni Alibaba ang Qwen3.7-Max bilang bagong flagship base model para sa mga intelligent agent, na nagdala ng 10.0x pagtaas sa performance sa Pingtouge Zhenwu M890 processor sa isang 35-hour optimization task. Labis na lumampas ng GLM 5.1 at Kimi K2.6 gamit ang on-chain news at walang chip architecture data. Ang mga pangunahing pagpapabuti ay kinabibilangan ng paghihiwalay ng prefix KV-cache at pagbabago sa operator. Ang resulta ay nagpapakita ng potensyal ng AI-driven on-chain news at pagtaas sa performance.

Ayon sa pagmamasid ng Beating, ang Alibaba Tongyi Qianwen ay opisyal na ipinakilala ang kanilang bagong pangunahing modelo para sa mga intelligent agent, ang Qwen3.7-Max. Ayon sa mga praktikal na datos na inilabas ng opisina, sa walang anumang dokumentasyon ng chip architecture o performance analysis data, ang bagong modelo ay nakapagpataas ng 10.0 beses ang Triton operator performance ng lokal na T-Head Zhenwu M890 processor sa isang ganap na awtomatikong kernel optimization task na tumagal ng 35 oras at naglalaman ng 1,158 na pagtawag sa mga tool. Sa proseso ng optimization, ang modelo ay dumaan sa limang pangunahing evolusyonaryong yugto. Una, ito ay nag-split-K partition sa prefix KV-cache dala ng token dimension upang punuin ang 36 SM cores; pagkatapos, ito ay nagpalit ng cudaMalloc na synchronous sa pagitan ng host at device gamit ang pre-allocated PyTorch variables, at sa pamamagitan ng paggamit ng tensor metadata, ito ay nag-alis nang buo ng synchronous cudaMemcpy action sa pagtatanong ng prefix length, na nag-alis nang buo ng communication overhead sa pagitan ng host at device; sa huling yugto, ang modelo ay re-arkitektura ang operator upang tratuhin ang lahat ng 4 query tokens sa isang thread block nang sabay-sabay, na nag-sharere ng memory access load upang i-distribute ang memory access overhead, at natapos ang kritikal na architecture-level specialization. Ang mga praktikalong resulta ng operator optimization ay nagpakita na ang Qwen3.7-Max ay nakamit ang 10.0x geometric mean speedup, na malinaw na lumampas sa GLM 5.1 (7.3x) at Kimi K2.6 (5.0x). Samantalang ang DeepSeek V4 Pro ay nasa 3.3x lamang at aktibong nagtapos ng task nang maaga dahil sa patuloy na limang round na walang anumang tool call. Upang makakuha ng pangkalahatang estratehiya sa paglutas ng problema sa mga nakakalikom na kapaligiran, ang Qwen3.7-Max ay nag-decouple ng task, runtime framework, at validator sa pagtuturo, at ginamit ang cross-framework reinforcement learning upang maiwasan ang shortcut overfitting sa mga partikular na benchmark. Sa pangkalahatang agent benchmark na MCP-Mark (60.8 puntos) at SpreadSheetBench (87.0 puntos), ipinakita ng Qwen3.7-Max ang malakas na generalization capability, at ang pangkalahatang performance nito ay nasa malapit na posisyon sa Claude-4.6-Opus-Max.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.