長期的な強化学習は、ほぼすべての問題に対する答えである。 人間は経験を通じて嗜好を身につける。 しかし人間は、継続的に学習する狡猾な存在でもあり、強化学習と事前学習の有効な比率は桁違いに高い。 一方、ほとんどのLLMはおそらく10:1以下の比率だろう。

長期的な強化学習は、ほぼすべての問題に対する答えである。 人間は経験を通じて嗜好を身につける。 しかし人間は、継続的に学習する狡猾な存在でもあり、強化学習と事前学習の有効な比率は桁違いに高い。 一方、ほとんどのLLMはおそらく10:1以下の比率だろう。