policy improvement1 [강화학습] Dynamic Programming 다음으로 dynamic programming을 알아보자. dynamic programming은 쉽게 말하면 어려운 문제를 쪼개서 푸는 것을 말한다. 이는 transition probability / dynamics를 알 때만 사용할 수 있으며, 모르면 dynamic programming으로 해결할 수 없다. dynamic programming은 value function을 구하는 policy evaluation과 더 좋은 policy를 구하는 policy improvement로 이루어진다. 이들을 bellman equation에 대입해서 반복하면 policy iteration이다.policy evaluation특정 state에 대해서 value function을 구하고 그를 bellman equation.. 2025. 4. 5. 이전 1 다음