강화학습3 [강화학습] DQN Q-learning은 가장 기본적인 value-based 방법으로, 주어진 state에서 어떤 action을 선택해야 가장 큰 reward을 받을 수 있을지를 학습한다. 그러나 Q-table을 직접 저장하는 방식은 state-action 공간이 커질수록 비효율적이고, 이미지처럼 고차원 입력을 다룰 수 없다는 근본적인 한계를 가진다. 이러한 한계를 극복하기 위해 나온 것이 바로 Deep Q-Network (DQN) 이다. DQN은 Q-learning에 딥러닝을 접목시켜, 신경망을 통해 Q값을 근사함으로써 복잡한 환경에서도 policy를 학습할 수 있게 만든다. DQN은 이를 해결하기 위해 Q값을 출력하는 DNN을 도입한다. 즉, 입력으로는 state를, 출력으로는 가능한 각 action에 대한 Q값 $Q(.. 2025. 4. 27. [강화학습] Dynamic Programming 다음으로 dynamic programming을 알아보자. dynamic programming은 쉽게 말하면 어려운 문제를 쪼개서 푸는 것을 말한다. 이는 transition probability / dynamics를 알 때만 사용할 수 있으며, 모르면 dynamic programming으로 해결할 수 없다. dynamic programming은 value function을 구하는 policy evaluation과 더 좋은 policy를 구하는 policy improvement로 이루어진다. 이들을 bellman equation에 대입해서 반복하면 policy iteration이다.policy evaluation특정 state에 대해서 value function을 구하고 그를 bellman equation.. 2025. 4. 5. [강화학습] Markov Decision Process 강화학습의 기초가 되는 Markov Decision Process을 알아보자.먼저, action을 하는 agent와 그를 둘러싼 모든 환경 environment를 중심으로 학습이 이루어진다. 이렇게 말하면 잘 와닿지 않으니 그림과 함께 알아보자. discrete time step t에 대해 현재 state $S_t$를 agent가 받으면 그에 대해 특정 action $A_t$를 하여 나타나는 다음 state $S_{t+1}$를 바탕으로 reward $R_{t+1}$를 제공한다. agent는 reward을 많이 받는 action을 하도록 학습되기 때문에 return은 현재 시점부터 그 이후의 미래까지 누적된 reward이 되고, 우리의 학습 목표는 이 return의 기댓값을 최대로 만드는 것이다. 이때,.. 2025. 4. 3. 이전 1 다음