AI 中最大的未解問題可能不是對齊或幻覺。 而是評估。⚠️ 我們仍缺乏可靠的方法來衡量模型是否真正變得更聰明,還是只是更擅長應對基準測試。 Goodhart 法則: 「當一個指標變成目標時,它就不再是一個好的指標。」 實驗室優化的是: ↳ MMLU ↳ HumanEval ↳ MATH 模型在這些測試中表現出色。🏆 但現實世界的智能更為複雜: ↳ 長期推理 ↳ 開放式任務 ↳ 未見過的環境 ↳ 真實的人類互動 我們可能正在透過基準測試,給自己一種虛假的進步感。🧠 #AI #Edu3Labs

AI 中最大的未解問題可能不是對齊或幻覺。 而是評估。⚠️ 我們仍缺乏可靠的方法來衡量模型是否真正變得更聰明,還是只是更擅長應對基準測試。 Goodhart 法則: 「當一個指標變成目標時,它就不再是一個好的指標。」 實驗室優化的是: ↳ MMLU ↳ HumanEval ↳ MATH 模型在這些測試中表現出色。🏆 但現實世界的智能更為複雜: ↳ 長期推理 ↳ 開放式任務 ↳ 未見過的環境 ↳ 真實的人類互動 我們可能正在透過基準測試,給自己一種虛假的進步感。🧠 #AI #Edu3Labs
