robbins-monro1 [강화학습] Monte Carlo & Temporal Difference 강화학습의 가장 기초적인 알고리즘으로 자주 소개되는 Dynamic Programming(DP) 은 매우 강력하지만 한 가지 큰 전제가 필요하다. environment의 $P(s′∣s,a)$ 와 $R(s,a)$를 모두 알고 있어야 한다는 점이다. 예를 들어, FrozenLake 환경에서 '오른쪽으로 가면 80% 확률로 미끄러지고, 20%는 멈춘다'는 사실을 DP는 미리 알고 있어야 한다. (앞서 구현했던 예제에서는 미끄러지지 않는 환경이었다.)하지만 실제 현실 세계에서 그런 확률이나 보상을 정확히 알 수 있는 경우는 거의 없다. 이러한 모델 기반(Model-Based) 접근 방식의 한계를 극복하기 위해 등장한 것이 바로 Monte Carlo 방식의 Model-Free 강화학습이다. dynamic prog.. 2025. 4. 5. 이전 1 다음