off-policy1 [강화학습] TD: SARSA vs Q-learning TD learning은 다음 스텝의 정보를 바탕으로 value function을 업데이트하는 방식이다. TD learning 중 on-policy는 SARSA, off-policy는 Q-learning이 대표적이다. SARSA는 policy를 따르며 학습하는 on-policy 알고리즘으로, 학습에 사용하는 행동도 현재 사용하는 policy에서 선택된 행동이다.$$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha \left[ r_t + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)\right]$$$$Q(s_t,a_t) \leftarrow (1-\alpha)Q(s_t,a_t) + \alpha \left( r_t + \gamma Q(s_{t+1},a_{t+1}).. 2025. 4. 8. 이전 1 다음