A3C 여러 Agent를 동시에 학습하여 단 하나의 globla network을 update하는 방법이다. 언뜻 보면, multi agent RL과 유사해보이지만 MARL은 각 에이전트 간의 경쟁, 소통 등이 주를 이루기 때문에 큰 연관성은 없다. 당연히, 여러 개의 에이전트를 병렬로 학습하기 때문에 temporal correlation이 크지 않다. 그 이유로는 미로를 빠져나가는 에이전트를 학습시킨다고 할 때, 미로의 전 구간에 에이전트 들을 풀어놓고 학습을 진행한다면, 미로의 모든 구간에 대한 정보가 네트워크에 포함되기 때문이다. A3C는 critic network으로 advantage function을 사용한다. $$ A(s, a)=Q(s, a)-V(s) $$하지만, 2개의 value를 추정하기 위..