Natamo ng Qwen3.7-Max ang 10x pagtaas sa performance sa lokal na chip sa 35-oras na optimization task

Ayon sa pagmamasid ng Beating, ang Alibaba Tongyi Qianwen ay opisyal na ipinakilala ang kanilang bagong pangunahing modelo para sa mga intelligent agent, ang Qwen3.7-Max. Ayon sa mga praktikal na datos na inilabas ng opisina, sa walang anumang dokumentasyon ng chip architecture o performance analysis data, ang bagong modelo ay nakapagpataas ng 10.0 beses ang Triton operator performance ng lokal na T-Head Zhenwu M890 processor sa isang ganap na awtomatikong kernel optimization task na tumagal ng 35 oras at naglalaman ng 1,158 na pagtawag sa mga tool. Sa proseso ng optimization, ang modelo ay dumaan sa limang pangunahing evolusyonaryong yugto. Una, ito ay nag-split-K partition sa prefix KV-cache dala ng token dimension upang punuin ang 36 SM cores; pagkatapos, ito ay nagpalit ng cudaMalloc na synchronous sa pagitan ng host at device gamit ang pre-allocated PyTorch variables, at sa pamamagitan ng paggamit ng tensor metadata, ito ay nag-alis nang buo ng synchronous cudaMemcpy action sa pagtatanong ng prefix length, na nag-alis nang buo ng communication overhead sa pagitan ng host at device; sa huling yugto, ang modelo ay re-arkitektura ang operator upang tratuhin ang lahat ng 4 query tokens sa isang thread block nang sabay-sabay, na nag-sharere ng memory access load upang i-distribute ang memory access overhead, at natapos ang kritikal na architecture-level specialization. Ang mga praktikalong resulta ng operator optimization ay nagpakita na ang Qwen3.7-Max ay nakamit ang 10.0x geometric mean speedup, na malinaw na lumampas sa GLM 5.1 (7.3x) at Kimi K2.6 (5.0x). Samantalang ang DeepSeek V4 Pro ay nasa 3.3x lamang at aktibong nagtapos ng task nang maaga dahil sa patuloy na limang round na walang anumang tool call. Upang makakuha ng pangkalahatang estratehiya sa paglutas ng problema sa mga nakakalikom na kapaligiran, ang Qwen3.7-Max ay nag-decouple ng task, runtime framework, at validator sa pagtuturo, at ginamit ang cross-framework reinforcement learning upang maiwasan ang shortcut overfitting sa mga partikular na benchmark. Sa pangkalahatang agent benchmark na MCP-Mark (60.8 puntos) at SpreadSheetBench (87.0 puntos), ipinakita ng Qwen3.7-Max ang malakas na generalization capability, at ang pangkalahatang performance nito ay nasa malapit na posisyon sa Claude-4.6-Opus-Max.