Opus 4.8 是目前最優秀的編碼模型 Cognition 的 FrontierCode 可能是我們迄今見過品質最高的編碼基準測試 它不僅僅使用單元測試來評分,還測試回歸安全性、機械潔淨度、測試正確性、範圍和代碼品質 20 多位開源開發者手工打造了 150 個任務,每個任務耗時超過 40 小時才完成 它還測試了更多樣化的程式語言

Opus 4.8 是目前最優秀的編碼模型 Cognition 的 FrontierCode 可能是我們迄今見過品質最高的編碼基準測試 它不僅僅使用單元測試來評分,還測試回歸安全性、機械潔淨度、測試正確性、範圍和代碼品質 20 多位開源開發者手工打造了 150 個任務,每個任務耗時超過 40 小時才完成 它還測試了更多樣化的程式語言


