on-policy Learning vs off-policy Learning
강화학습의 on-policy 와 off-policy update 방식의 차이점을 생각하고 정리합니다. 먼저, 직관적인 배경 지식에 대해 먼저 알고 갑니다. on-policy와 off-policy를 나누는 기준은 무엇인가?Q-learning (off-policy)\begin{equation} Q(a, s) \leftarrow Q(a, s)+\alpha \cdot\left(r_s+\gamma \max _{a^{\prime}} Q\left(a^{\prime}, s^{\prime}\right)-Q(a, s)\right) \end{equation} Sarsa (on-policy)\begin{equation} Q(a, s) \leftarrow Q(a, s)+\alpha \cdot\left(r_s+\gamma \cd..