Trust Region Policy Optimization (TRPO)

2025. 4. 10. 15:28·인공지능 대학원/강화학습
반응형

DDPG의 최대 단점은 성능의 monotonically improvement가 안된다.

 

따라서 TRPO는 Minorization-Maximization algorithm과 Trust-region이 사용된다.

 

Trust-region이 사용되면, monotonically improvement가 보장이 된다.

 

TRPO는 성능이 좋지만, 구현이 어렵고 계산 비용이 너무 높아 잘 사용하지 않는다.

 

 

 

반응형

'인공지능 대학원 > 강화학습' 카테고리의 다른 글

on-policy Learning vs off-policy Learning  (0) 2025.04.17
강화학습의 Bellman equation 추가 설명  (0) 2025.04.14
Deep Deterministic Policy Gradient (DDPG)  (1) 2025.04.10
Asynchronous Advantage Actor-Critic (A3C)  (0) 2025.04.10
[강화학습 기초 이론] Actor-Critic method  (0) 2025.04.04
'인공지능 대학원/강화학습' 카테고리의 다른 글
  • on-policy Learning vs off-policy Learning
  • 강화학습의 Bellman equation 추가 설명
  • Deep Deterministic Policy Gradient (DDPG)
  • Asynchronous Advantage Actor-Critic (A3C)
우다다123
우다다123
  • 우다다123
    우다다
    우다다123
  • 전체
    오늘
    어제
    • 분류 전체보기 (36)
      • 인공지능 대학원 (25)
        • 머신러닝, 딥러닝 (6)
        • 강화학습 (10)
        • 확률론 (6)
        • 선형대수 (1)
      • Ubuntu & Linux (6)
      • Coding (4)
      • Coding Test (0)
  • 블로그 메뉴

    • 카테고리
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • 반응형
  • hELLO· Designed By정상우.v4.10.3
우다다123
Trust Region Policy Optimization (TRPO)
상단으로

티스토리툴바