根據 Chainthink 的資料,Anthropic 發布了一份報告,指出其研究人員在 SCONE-bench 基準測試中測試了 Claude Opus 4.5、Claude Sonnet 4.5 和 GPT-5 模型。該基準測試包含 405 份從 2020 年到 2025 年間受到攻擊的真實世界合約。這些模型識別出了在 2025 年 3 月之後被攻擊的合約中,存在價值約 460 萬美元的可利用漏洞。此外,在對 2,849 份最近部署且沒有已知漏洞的合約進行的模擬測試中,Sonnet 4.5 和 GPT-5 各自發現了兩個全新的零日漏洞,這些漏洞可能導致 3,694 美元的損失,其中 GPT-5 的 API 成本達到 3,476 美元。
