반응형
DDPG의 최대 단점은 성능의 monotonically improvement가 안된다.
따라서 TRPO는 Minorization-Maximization algorithm과 Trust-region이 사용된다.
Trust-region이 사용되면, monotonically improvement가 보장이 된다.
TRPO는 성능이 좋지만, 구현이 어렵고 계산 비용이 너무 높아 잘 사용하지 않는다.
반응형
'인공지능 대학원 > 강화학습' 카테고리의 다른 글
on-policy Learning vs off-policy Learning (0) | 2025.04.17 |
---|---|
강화학습의 Bellman equation 추가 설명 (0) | 2025.04.14 |
Deep Deterministic Policy Gradient (DDPG) (1) | 2025.04.10 |
Asynchronous Advantage Actor-Critic (A3C) (0) | 2025.04.10 |
[강화학습 기초 이론] Actor-Critic method (0) | 2025.04.04 |