AIにおける最大の未解決問題は、アライメントや幻覚ではないかもしれない。 それは評価だ。⚠️ まだ、モデルが本当に賢くなっているのか、それともベンチマークにだけ強くなっているのかを正確に測る方法がない。 グハートの法則: 「測定基準が目標になると、それはもはや良い測定基準ではなくなってしまう。」 ラボは以下を最適化している: ↳ MMLU ↳ HumanEval ↳ MATH モデルはこれらを完璧にこなす。🏆 しかし、現実世界の知性ははるかに複雑だ: ↳ 長期的な推論 ↳ 開放的なタスク ↳ 未経験の環境 ↳ 実際の人間とのやり取り 私たちは、ベンチマークによって進歩の錯覚に陥っている可能性がある。🧠 #AI #Edu3Labs


