cart pole1 [강화학습] DQN Q-learning은 가장 기본적인 value-based 방법으로, 주어진 state에서 어떤 action을 선택해야 가장 큰 reward을 받을 수 있을지를 학습한다. 그러나 Q-table을 직접 저장하는 방식은 state-action 공간이 커질수록 비효율적이고, 이미지처럼 고차원 입력을 다룰 수 없다는 근본적인 한계를 가진다. 이러한 한계를 극복하기 위해 나온 것이 바로 Deep Q-Network (DQN) 이다. DQN은 Q-learning에 딥러닝을 접목시켜, 신경망을 통해 Q값을 근사함으로써 복잡한 환경에서도 policy를 학습할 수 있게 만든다. DQN은 이를 해결하기 위해 Q값을 출력하는 DNN을 도입한다. 즉, 입력으로는 state를, 출력으로는 가능한 각 action에 대한 Q값 $Q(.. 2025. 4. 27. 이전 1 다음