티스토리 Latex 수식 작성하기
·
카테고리 없음
1. 스킨 편집 들어가기2. HTML 편집이런데에 꾸겨 넣으시면 됩니다. 3. Test$$ X^2 = 9 $$
on-policy Learning vs off-policy Learning
·
인공지능 대학원/강화학습
강화학습의 on-policy 와 off-policy update 방식의 차이점을 생각하고 정리합니다. 먼저, 직관적인 배경 지식에 대해 먼저 알고 갑니다. on-policy와 off-policy를 나누는 기준은 무엇인가?Q-learning (off-policy)\begin{equation} Q(a, s) \leftarrow Q(a, s)+\alpha \cdot\left(r_s+\gamma \max _{a^{\prime}} Q\left(a^{\prime}, s^{\prime}\right)-Q(a, s)\right) \end{equation} Sarsa (on-policy)\begin{equation} Q(a, s) \leftarrow Q(a, s)+\alpha \cdot\left(r_s+\gamma \cd..
강화학습의 Bellman equation 추가 설명
·
인공지능 대학원/강화학습
1. State Value Function$$ V^\pi(s)=\mathbb{E}_\pi\left[G_t \mid s_t=s\right]=\mathbb{E}\left[\sum_{i=0}^{\infty} \gamma^i r_{t+1+i} \mid s_t=s\right] $$강화 학습을 공부한다면, state value function에 대해 많이 보았을것이다. $$ \sum_{a, s^{\prime}} \pi(a \mid s) P_{s s^{\prime}}^a\left[R\left(s, a, s^{\prime}\right)+\gamma V^\pi\left(s^{\prime}\right)\right] $$결국은 Bellman equation 형태로 정리가 가능한데, 왜 가능한지에 대한 수식 전개와 그림 전개..
Trust Region Policy Optimization (TRPO)
·
인공지능 대학원/강화학습
DDPG의 최대 단점은 성능의 monotonically improvement가 안된다. 따라서 TRPO는 Minorization-Maximization algorithm과 Trust-region이 사용된다. Trust-region이 사용되면, monotonically improvement가 보장이 된다. TRPO는 성능이 좋지만, 구현이 어렵고 계산 비용이 너무 높아 잘 사용하지 않는다.
Deep Deterministic Policy Gradient (DDPG)
·
인공지능 대학원/강화학습
보호되어 있는 글입니다.
Asynchronous Advantage Actor-Critic (A3C)
·
인공지능 대학원/강화학습
A3C 여러 Agent를 동시에 학습하여 단 하나의 globla network을 update하는 방법이다. 언뜻 보면, multi agent RL과 유사해보이지만 MARL은 각 에이전트 간의 경쟁, 소통 등이 주를 이루기 때문에 큰 연관성은 없다. 당연히, 여러 개의 에이전트를 병렬로 학습하기 때문에 temporal correlation이 크지 않다. 그 이유로는 미로를 빠져나가는 에이전트를 학습시킨다고 할 때, 미로의 전 구간에 에이전트 들을 풀어놓고 학습을 진행한다면, 미로의 모든 구간에 대한 정보가 네트워크에 포함되기 때문이다. A3C는 critic network으로 advantage function을 사용한다. $$ A(s, a)=Q(s, a)-V(s) $$하지만, 2개의 value를 추정하기 위..