강화학습의 Bellman equation 추가 설명

2025. 4. 14. 15:15·인공지능 대학원/강화학습
반응형

1. State Value Function

$$
V^\pi(s)=\mathbb{E}_\pi\left[G_t \mid s_t=s\right]=\mathbb{E}\left[\sum_{i=0}^{\infty} \gamma^i r_{t+1+i} \mid s_t=s\right]
$$

강화 학습을 공부한다면, state value function에 대해 많이 보았을것이다.

 

$$
\sum_{a, s^{\prime}} \pi(a \mid s) P_{s s^{\prime}}^a\left[R\left(s, a, s^{\prime}\right)+\gamma V^\pi\left(s^{\prime}\right)\right]
$$

결국은 Bellman equation 형태로 정리가 가능한데, 왜 가능한지에 대한 수식 전개와 그림 전개를 해보고 싶었다.

 

위와 같은 State의 전개가 있다고 가정해보자.

 

그리고 다시 한번 수식을 보자.

 

$$
\begin{aligned}
V_\pi\left(s_0\right) & =E_\pi\left[\sum_{i=0}^{\infty} \gamma r_{t+1+i} \mid s_t=s\right] \\
& =E_\pi\left[r_{t+1}\right]+E_\pi\left[\gamma r_{t+2}\right]+E_\pi\left[\gamma^2 r_{t + 3}\right] \cdots
\end{aligned}
$$

위와 같이 분해가 된다.

 

각 항의 의미는 t+1, t+2,... 단계에서의 보상의 평균을 의미합니다.

그림으로 본다면

 

위와 같은 구조가 터미널 state까지 진행될것 같아요.

 

(1) $r_1$ 을 받기까지의 과정

$\pi\left(a_1\left(s_0\right) P\left(s_1 \mid s_0, a_1\right) \cdot r_1\right.$
(2) $r_1^{\prime}$ 을 받기까지의 과정

$\pi\left(a_1 \mid S_0\right) P\left(s_1 \mid S_0, a_1\right) \cdot \pi\left(a_0^{\prime} \mid S_1\right) P\left(S_2\left|S_1\right| a_0^{\prime}\right) \cdot r_1^{\prime}$

 

위에는 이해를 위해 각 보상 한번에 대한 수식을 썼다. 하지만, 우리가 기대하는 것은 각 step에서의 보상의 평균이기 때문에,

모든 갈래에 대한 확률을 곱해주어야 한다.

 

$$
\begin{aligned}
& 1 \ldots . E\left[r_{t+1}\right]=\sum_s \sum_a \pi(a \mid s) p\left(s^{\prime} \mid s, a\right) r_{t+1} \\
& 2 \ldots V E\left[r_{t+2}\right]=\sum_{s^{\prime}} \sum_a \pi(a \mid s) p\left(s^{\prime} \mid s, a\right)\left[\sum_{s^{\prime}} \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) p\left(s^{\prime} \mid s^{\prime}, a^{\prime}\right) \cdot r_{t+2}\right] \\
& 3 \ldots \gamma^{\prime} E\left[r_{t+3}\right]=\cdots
\end{aligned}
$$

 

위의 식의 1, 2, 3에서 더 나아가 T인 터미널까지 더해주면 특정 state의 state value function인 것이다.

하지만, Bellman equation, 즉 재귀식으로 표현하기 위해 즉각적인 보상 + 다음 state의 state value function으로 대체할 수 있다.

 

$$
\begin{aligned}
V_\pi(s) & =\sum_{s^{\prime}} \sum_a \pi(a \mid s) P\left(s ^ { \prime } ( s , a ) \left[r_{t+1}+\sum_{s^{\prime}} \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) P\left(s^{\prime \prime} \mid s^{\prime}, a^{\prime}\right)+\left[r_{t+2}+\sum_{s^{\prime \prime}} \sum_{a^{\prime \prime}} \cdots\right]\right.\right. \\
& =\sum_{s^{\prime}, a} \pi(a \mid s) P\left(s^{\prime}(s, a)\left[r_{t+1}+\gamma E\left[\sum_{i=0}^{\infty} \gamma^i r_{t+2+i} \mid s_{t+1}=s^{\prime}\right]\right]\right. \\
& =\sum_{s^{\prime}, a} \pi(a \mid s) P\left(s^{\prime} \mid s, a\right)\left[r_{t+1}+\gamma V_\pi\left(s^{\prime}\right)\right]
\end{aligned}
$$

 

최종적으로 위와같은 Bellman equation 형식의 State value function이 도출되게 된다.

 

반응형

'인공지능 대학원 > 강화학습' 카테고리의 다른 글

on-policy Learning vs off-policy Learning  (0) 2025.04.17
Trust Region Policy Optimization (TRPO)  (0) 2025.04.10
Deep Deterministic Policy Gradient (DDPG)  (1) 2025.04.10
Asynchronous Advantage Actor-Critic (A3C)  (0) 2025.04.10
[강화학습 기초 이론] Actor-Critic method  (0) 2025.04.04
'인공지능 대학원/강화학습' 카테고리의 다른 글
  • on-policy Learning vs off-policy Learning
  • Trust Region Policy Optimization (TRPO)
  • Deep Deterministic Policy Gradient (DDPG)
  • Asynchronous Advantage Actor-Critic (A3C)
우다다123
우다다123
  • 우다다123
    우다다
    우다다123
  • 전체
    오늘
    어제
    • 분류 전체보기 (36)
      • 인공지능 대학원 (25)
        • 머신러닝, 딥러닝 (6)
        • 강화학습 (10)
        • 확률론 (6)
        • 선형대수 (1)
      • Ubuntu & Linux (6)
      • Coding (4)
      • Coding Test (0)
  • 블로그 메뉴

    • 카테고리
  • 링크

  • 공지사항

  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • 반응형
  • hELLO· Designed By정상우.v4.10.3
우다다123
강화학습의 Bellman equation 추가 설명
상단으로

티스토리툴바