GLM-5.2 gembar-gembor “juara long-horizon coding agent” SWE-Marathon 只有 13%。Opus 4.8 26%。 在開源模型和 FrontierSWE 上還算不錯。 但他們的 long-horizon 確實特別,只在簡報亮點中表現出色。 行銷依舊是冠軍 😆
FitzgeraldGLM-5.2 gembar-gembor “juara long-horizon coding agent” SWE-Marathon 只有 13%。Opus 4.8 26%。 在開源模型和 FrontierSWE 上還算不錯。 但他們的 long-horizon 確實特別,只在簡報亮點中表現出色。 行銷依舊是冠軍 😆