1. State Value Function
$$
V^\pi(s)=\mathbb{E}_\pi\left[G_t \mid s_t=s\right]=\mathbb{E}\left[\sum_{i=0}^{\infty} \gamma^i r_{t+1+i} \mid s_t=s\right]
$$
강화 학습을 공부한다면, state value function에 대해 많이 보았을것이다.
$$
\sum_{a, s^{\prime}} \pi(a \mid s) P_{s s^{\prime}}^a\left[R\left(s, a, s^{\prime}\right)+\gamma V^\pi\left(s^{\prime}\right)\right]
$$
결국은 Bellman equation 형태로 정리가 가능한데, 왜 가능한지에 대한 수식 전개와 그림 전개를 해보고 싶었다.
위와 같은 State의 전개가 있다고 가정해보자.
그리고 다시 한번 수식을 보자.
$$
\begin{aligned}
V_\pi\left(s_0\right) & =E_\pi\left[\sum_{i=0}^{\infty} \gamma r_{t+1+i} \mid s_t=s\right] \\
& =E_\pi\left[r_{t+1}\right]+E_\pi\left[\gamma r_{t+2}\right]+E_\pi\left[\gamma^2 r_{t + 3}\right] \cdots
\end{aligned}
$$
위와 같이 분해가 된다.
각 항의 의미는 t+1, t+2,... 단계에서의 보상의 평균을 의미합니다.
그림으로 본다면
위와 같은 구조가 터미널 state까지 진행될것 같아요.
(1) $r_1$ 을 받기까지의 과정
$\pi\left(a_1\left(s_0\right) P\left(s_1 \mid s_0, a_1\right) \cdot r_1\right.$
(2) $r_1^{\prime}$ 을 받기까지의 과정
$\pi\left(a_1 \mid S_0\right) P\left(s_1 \mid S_0, a_1\right) \cdot \pi\left(a_0^{\prime} \mid S_1\right) P\left(S_2\left|S_1\right| a_0^{\prime}\right) \cdot r_1^{\prime}$
위에는 이해를 위해 각 보상 한번에 대한 수식을 썼다. 하지만, 우리가 기대하는 것은 각 step에서의 보상의 평균이기 때문에,
모든 갈래에 대한 확률을 곱해주어야 한다.
$$
\begin{aligned}
& 1 \ldots . E\left[r_{t+1}\right]=\sum_s \sum_a \pi(a \mid s) p\left(s^{\prime} \mid s, a\right) r_{t+1} \\
& 2 \ldots V E\left[r_{t+2}\right]=\sum_{s^{\prime}} \sum_a \pi(a \mid s) p\left(s^{\prime} \mid s, a\right)\left[\sum_{s^{\prime}} \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) p\left(s^{\prime} \mid s^{\prime}, a^{\prime}\right) \cdot r_{t+2}\right] \\
& 3 \ldots \gamma^{\prime} E\left[r_{t+3}\right]=\cdots
\end{aligned}
$$
위의 식의 1, 2, 3에서 더 나아가 T인 터미널까지 더해주면 특정 state의 state value function인 것이다.
하지만, Bellman equation, 즉 재귀식으로 표현하기 위해 즉각적인 보상 + 다음 state의 state value function으로 대체할 수 있다.
$$
\begin{aligned}
V_\pi(s) & =\sum_{s^{\prime}} \sum_a \pi(a \mid s) P\left(s ^ { \prime } ( s , a ) \left[r_{t+1}+\sum_{s^{\prime}} \sum_{a^{\prime}} \pi\left(a^{\prime} \mid s^{\prime}\right) P\left(s^{\prime \prime} \mid s^{\prime}, a^{\prime}\right)+\left[r_{t+2}+\sum_{s^{\prime \prime}} \sum_{a^{\prime \prime}} \cdots\right]\right.\right. \\
& =\sum_{s^{\prime}, a} \pi(a \mid s) P\left(s^{\prime}(s, a)\left[r_{t+1}+\gamma E\left[\sum_{i=0}^{\infty} \gamma^i r_{t+2+i} \mid s_{t+1}=s^{\prime}\right]\right]\right. \\
& =\sum_{s^{\prime}, a} \pi(a \mid s) P\left(s^{\prime} \mid s, a\right)\left[r_{t+1}+\gamma V_\pi\left(s^{\prime}\right)\right]
\end{aligned}
$$
최종적으로 위와같은 Bellman equation 형식의 State value function이 도출되게 된다.
'인공지능 대학원 > 강화학습' 카테고리의 다른 글
on-policy Learning vs off-policy Learning (0) | 2025.04.17 |
---|---|
Trust Region Policy Optimization (TRPO) (0) | 2025.04.10 |
Deep Deterministic Policy Gradient (DDPG) (1) | 2025.04.10 |
Asynchronous Advantage Actor-Critic (A3C) (0) | 2025.04.10 |
[강화학습 기초 이론] Actor-Critic method (0) | 2025.04.04 |