GLM-5.2 gembar-gembor「長時間コーディングエージェントの王者」 SWE-Marathonはわずか13%。Opus 4.8は26%。 オープンモデルとFrontierSWEではまだまあまあの性能だ。 でも、彼らの長時間タスク性能は、スライドのハイライトでしか優れていない。 マーケティングは依然として最強だ😆
FitzgeraldGLM-5.2 gembar-gembor「長時間コーディングエージェントの王者」 SWE-Marathonはわずか13%。Opus 4.8は26%。 オープンモデルとFrontierSWEではまだまあまあの性能だ。 でも、彼らの長時間タスク性能は、スライドのハイライトでしか優れていない。 マーケティングは依然として最強だ😆