Nakakamit ng GLM-5.1 ang unang puwesto sa pagitan ng mga open-source na modelo sa Artificial Analysis Coding Agent Benchmark

iconKuCoinFlash
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Ipinakilala ng on-chain analysis firm na Artificial Analysis ang Coding Agent Index noong Mayo 13 (UTC+8), na nag-evaluate sa mga modelo sa SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, at SWE-Atlas-QnA. Tinatapos ng GLM-5.1 (nagpapatakbo sa Claude Code) ang mga open-source model, habang pinamumunuan ng Opus 4.7 (Cursor CLI) ang lahat. Tinataya ng benchmark ang tunay na mundo ng coding, terminal tasks, at technical Q&A. Ipinapakita ng GLM-5.1 ang pinakamataas na performans sa open-source, kasama ang pagtaas ng open interest sa mga lokal na modelo.

Mensahe ng AIMPACT, Mayo 13 (UTC+8), ang global na kilalang evaluator na Artificial Analysis ay naglabas ng bagong Coding Agent benchmark—Ang Artificial Analysis Coding Agent Index, na ginagamit upang masukat ang performance ng mga Agent harnesses at model combinations sa tatlong pangunahing benchmark: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2, at SWE-Atlas-QnA. Sa pagtataya na ito, ang proprietary model na Opus 4.7 (na tumatakbo sa Cursor CLI) ay nakuha ang unang pwesto sa buong mundo, habang ang GLM-5.1 (na tumatakbo sa Claude Code) ay nakuha ang unang pwesto sa open-source. Ang benchmark na ito ay kumakapit sa totoong programming tasks, agentic terminal tasks, at teknikal na tanong-sagot, na layuning ipakita ang totoong performance sa mga aktuwal na programming Agent scenarios. Ayon sa pananaw sa artikulo, ang GLM-5.1 ay kumakatawan sa SOTA capability ng lokal na malalaking model sa ganitong scenario. (Pinagmulan: InFoQ)

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.