【强化学习理论】状态价值函数与动作价值函数系列公式推导

这篇具有很好参考价值的文章主要介绍了【强化学习理论】状态价值函数与动作价值函数系列公式推导。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

由于时常对状态价值函数与动作价值函数之间的定义区别、公式关系迷惑不清，此次进行梳理并作记录。

理解公式推导需要先了解基础定义中几个概念。

基础定义

奖励函数

奖励函数有两种记法。

①记作 $r (s)$ ，表示某状态 $s$ 的奖励，指：转移到该状态时能够获得的奖励的期望，即：
$\mathbb {E}[R_t | S_t = s]$

为什么是用 $R_t$ 的期望而不是直接用 $R_t$ 来表示这个状态的奖励？

因为对于一个相同的状态，其采取的动作不同，获得的奖励 $R_t$ 可能不同。

②记作 $r (s, a)$ ，表示某状态 $s$ 下采取动作 $a$ 的奖励，指：转移到该状态并采取该动作时能够获得的奖励的期望，即：
$\mathbb{E}[R_t | S_t = s, A_t = a]$

为什么是用 $R_t$ 的期望而不是直接用 $R_t$ 来表示这个状态下采取这个动作的奖励？

因为对于一个相同的状态，即使采取的动作相同，其下一个状态 $s^{\prime}$ 也可能不同，之后获得的奖励 $R_{t+1}$ 也可能不同，最终获得的回报 $G_t$ 自然也不同。

回报

回报 (Return)，记作 $G_t$ ，指从 $t$ 时刻的状态 $s_t$ 开始，直至终止状态时，所有奖励的衰减之和，即：
$\begin{aligned} G_t =& R_t + \gamma R_{t+1} + \gamma ^ 2 R_{t + 2} + ... \\ =& \sum_{k = 0}^{\infty} \gamma ^ k R_{t + k} \end{aligned}$

价值

价值 (value)，是一个基于状态的概念，某个状态的价值指：从某时刻的某状态 $s$ 开始，直至终止状态时，累积奖励（也就是回报 $G_t$ ）的期望。

1、为什么是要用** $G_t$ 的期望**而不能直接用 $G_t$ ？

因为对于相同的起始状态 $s$ ，其 $G_t$ 可以是不一样的。想要客观地评价一个状态的价值，就要尽可能地考虑它能带来的不同的回报。

2、为什么 $G_t$ 可以是不一样的？

因为在交互进行的过程中，起始状态 $s_t$ 可能转到不同的状态 $s^{\prime}$ ，得到的 $R_t$ 也不同，最终的回报 $G_t$ 自然也就不同。

价值函数

价值函数 (value function)，记作 $V (s)$ ，可以理解成一个映射关系，输入是状态 $s$ ，输出是该状态的价值，即：
$\mathbb{E} [G_t | S_t = s]$

奖励函数和价值函数的区别是什么？

按照我自己的理解，奖励函数是只关注状态当前能获得的收益，价值函数则关注从当前状态开始直至未来结束时的所有收益。

状态转移矩阵

状态转移矩阵，可记作 $P(s^{\prime} | s)$ ，表示状态 $s$ 转移到状态 $s^{\prime}$ 的概率。

在状态集合有限的情况下，可以用矩阵表示；若状态集合不是有限的，则称为状态转移函数。

策略

策略 (policy)，记作 $\pi$ 。可以将策略理解成：在已知输入状态 $s$ 的情况下，采取动作 $a$ 的概率，即：
$\pi(s, a) =\pi(a | s)= P(A_t = a | S_t = s)$
策略 $\pi$ （的取值）只与当前的状态 $s$ 相关，与当前状态之前的状态无关。

对于同样的状态 $s$ ，使用的策略 $\pi$ 不同，采取的动作 $a$ 不同，价值value也就不同。

状态转移函数

状态转移函数，可记作 $P(s^{\prime} | s, a)$ ，表示在状态 $s$ 执行动作 $a$ 后到达状态 $s^{\prime}$ 的概率。

与状态转移矩阵相比，状态转移函数可以表示状态集合不是有限的情况。

状态转移有两种表现形式，一种是 $P(s^{\prime} | s)$ ，另一种是 $P(s^{\prime} | s, a)$ ，连接两者之间的桥梁是策略 $\pi$ ，即：
$P(s^{\prime} | s) = \sum_{a \in A} \pi(a | s)P(s^{\prime} | s, a)$

状态价值函数

状态价值函数 (state-value function)，可记作 $V^{\pi}(s)$ ，表示：马尔可夫决策过程中，智能体从状态 $s$ 出发，遵循策略 $\pi$ 获得的回报 $G_t$ 的期望，即：
$V^{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = t]$

看起来和价值函数很像，只不过价值函数中没有强调策略。

下面这两个问题及其回答，跟理解价值时提的那两个问题和回答是相似的。

1、为什么是回报 $G_t$ 的期望而不是只用回报 $G_t$ 就行了？

因为对于同一个状态 $s$ 和给定的策略 $\pi$ ，其 $G_t$ 可能不同。想要客观地评价一个状态在给定策略下的价值，就要尽可能地考虑它能带来的不同的回报。

2、为什么 $G_t$ 可以是不一样的？

因为对于同一个状态 $s$ 和给定的策略 $\pi$ ，智能体在当前状态采取的动作 $a$ 可能不同（特别是当使用的策略是随机性策略时），得到的 $R_t$ 不同，最终的 $G_t$ 也可能不同。

动作价值函数

动作价值函数 (action-value function)，可记作 $Q^{\pi}(s, a)$ ，表示：马尔可夫决策过程中，智能体从状态 $s$ 出发，根据策略 $\pi$ 执行动作 $a$ ，最终获得的回报 $G_t$ 的期望，即：
$Q^{\pi}(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a]$

看起来和状态价值函数很像，只不过状态价值函数中没有强调动作。

下面这两个问题及其回答，跟理解状态价值函数时提的那两个问题和回答是相似的。

1、为什么是回报 $G_t$ 的期望而不是只用回报 $G_t$ 就行了？

因为对于同一个状态 $s$ 、给定的策略 $\pi$ 和给定的动作 $a$ ，其 $G_t$ 可能不同。想要客观地评价一个状态在给定策略下的价值，就要尽可能地考虑它能带来的不同的回报。

2、为什么 $G_t$ 可以是不一样的？

因为对于同一个状态 $s$ 、给定的策略 $\pi$ 和给定的动作 $a$ ，其下一步到达的状态 $s^{\prime}$ 可能不同（因为环境可能已经发生不同的变化了），智能体在不同采取的动作 $a$ 可能不同（特别是当使用的策略是随机性策略时），得到的 $R_t$ 不同，最终的 $G_t$ 也可能不同。

状态价值函数与动作价值函数之间的关系

关系1

$V^{\pi}(s) = \sum_{a \in A} \pi(a | s) Q^{\pi}(s, a)$

关系1的推导基础：①状态价值函数的定义；②动作价值函数的定义。推导过程如下：
$\begin{aligned} V^{\pi}(s) &= \mathbb {E}_{\pi}[G_t | S_t = s] \\ &= \sum_{a \in A} \pi(a | s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \\ &= \sum_{a \in A} \pi(a | s) Q^{\pi}(s, a) \end{aligned}$
第1行使用了状态价值函数的定义；

从第2行转换到第3行的理解使用了动作价值函数的定义。

在此我就第2行为何将 $\mathbb{E}_{\pi}[G_{t} | S_t = s]$ 转换成 $\sum_{a \in A} \pi(a | s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]$ ，而不是 $\sum_{a \in A} \pi(a | s) G_t$ （这两种想法的差别只在于有没有对 $G_{t}$ 求期望）给出自己的解释：后者虽然看起来比较符合数学期望的公式形式：状态 $s$ 根据概率 $\pi(a | s)$ 选择动作 $a$ 后，后面乘上的对象应该就是对应的状态 $s$ 采取动作 $a$ 所得到的回报 $G_{t}$ 。但是前文在解释动作价值函数的定义时提到：对于同一个状态 $s$ 、给定的策略 $\pi$ 和给定的动作 $a$ ，其 $G_t$ 可能不同。也就是说， $(s, a)$ 与 $G_{t}$ 并不是一一对应的关系，因此也无法直接相乘。此时就要找一个既能与 $(s, a)$ 一一对应、又能概括 $(s, a)$ 的收益的概念。这时，动作价值这一概念就成了不错的选择。它对 $(s, a)$ 能对应的多个 $G_{t}$ 计算数学期望，近似计算出 $(s, a)$ 的整体收益（这样看来，其实第2行也是可以省略的，直接就能推出第3行了）。

关系2

$Q^{\pi}(s, a) = r(s, a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) V^{\pi}(s^{\prime})$

关系2的推导基础：①动作价值函数的定义；②回报的定义；③奖励函数的定义；④状态价值函数的定义。推导过程如下：
$\begin{aligned} Q^{\pi}(s, a) &= \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \\ &= \mathbb{E}_{\pi}[R_t + \gamma R_{t+1} + \gamma^2R_{t+2}+ ... | S_t = s, A_t = a] \\ &= \mathbb{E}_{\pi}[R_t + \gamma (R_{t+1} + \gamma R_{t+2} + ...) | S_t = s, A_t = a] \\ &= \mathbb{E}_{\pi}[R_t | S_t = s, A_t = a] + \gamma \mathbb{E}_{\pi}[G_{t+1} | S_t = s, A_t = a] \\ &= r(s, a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) \mathbb{E}_{\pi}[G_{t+1} | S_{t+1} = s^{\prime}] \\ &= r(s, a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) V^{\pi}(s^{\prime}) \end{aligned}$
推导过程中，第1行的等式使用了动作价值函数的定义；

第1行到第2行的转化、第3行到第4行的转化使用了回报 (Return)的定义；

第4行到第5行的转化使用了奖励函数的定义；

第5行到第6行的转化使用了状态价值函数的定义。

在此我就第5行的第2个子项为何将 $\mathbb{E}_{\pi}[G_{t+1} | S_t = s, A_t = a]$ 拆解成 $\sum_{s^{\prime} \in S} P(s^{\prime} | s, a) \mathbb{E}_{\pi}[G_{t+1} | S_{t+1} = s^{\prime}]$ ，而不是 $\sum_{s^{\prime} \in S} P(s^{\prime} | s, a) G_{t+1}$ （这两种想法的差别只在于有没有对 $G_{t+1}$ 求期望）给出自己的解释：后者虽然看起来比较符合数学期望的公式形式：状态 $s$ 、动作 $a$ 根据概率 $P(s^{\prime} | s, a)$ 转移到状态 $s^{\prime}$ 后，后面乘上的对象应该就是对应的状态 $s^{\prime}$ 的回报 $G_{t+1}$ 。但是前文在解释价值的定义时提到：对于相同的起始状态 $s$ ，其 $G_t$ 可以是不一样的。也就是说， $s^{\prime}$ 与 $G_{t+1}$ 并不是一一对应的关系，因此也无法直接相乘。此时就要找一个既能与 $s^{\prime}$ 一一对应、又能概括状态 $s^{\prime}$ 的收益的概念。这时，价值这一概念就成了不错的选择。它对 $s^{\prime}$ 能对应的多个 $G_{t+1}$ 计算数学期望，近似计算出状态 $s^{\prime}$ 的整体收益（这样看来，其实第5行也是可以省略的，直接就能推出第6行了）。

另外，特别提醒：
$\begin{aligned} Q^{\pi}(s, a) &= \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \\ &= \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) \mathbb{E}[G_{t+1} | S_{t+1} = s^{\prime}] \end{aligned}$
不能这样转！因为这样就没有考虑 $R_t$ 了，从 $G_t$ 直接绕到了 $G_{t+1}$ 。

贝尔曼方程 (Bellman Equation)

下式即为贝尔曼方程。
$\gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s) V(s^{\prime})$
与价值函数的原式相比，贝尔曼方程允许使用者在知晓奖励函数和状态转移矩阵的情况下即可计算价值函数的解析解。

贝尔曼方程的推导基础：①回报的定义；②奖励函数的定义；③价值函数的定义。推导过程如下：
$\begin{aligned} V(s) &= \mathbb{E}[G_t | S_t = s] \\ &= \mathbb{E}[R_t + \gamma R_{t + 1} + \gamma ^ 2 R_{t + 2} + ... | S_t = s] \\ &= \mathbb{E}[R_t + \gamma (R_{t + 1} + \gamma R_{t + 2} + ...) | S_t = s] \\ &= \mathbb{E}[R_t + \gamma G_{t + 1} | S_t = s] \\ &= \mathbb{E}[R_t | S_t = s] + \gamma \mathbb{E}[G_{t + 1} | S_t = s] \\ &= r(s) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s) \mathbb{E}[G_{t + 1} | S_{t + 1} = s^{\prime}] \\ &= r(s) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s) V(s^{\prime}) \end{aligned}$
推导过程中，第1行到第2行的转化、第3行到第4行的转化使用了回报 (Return)的定义；

第5行到第6行的转化使用了奖励函数的定义；

第6行到第7行的转化使用了价值函数的定义。

在此我就第6行的第2个子项为何将 $\mathbb{E}[G_{t + 1} | S_t = s]$ 拆解成 $\sum_{s^{\prime} \in S} P(s^{\prime} | s) \mathbb{E}[G_{t + 1} | S_{t + 1} = s^{\prime}]$ ，而不是 $\sum_{s^{\prime} \in S} P(s^{\prime} | s) G_{t + 1}$ （这两种想法的差别只在于有没有对 $G_{t+1}$ 求期望）给出自己的解释：后者虽然看起来比较符合数学期望的公式形式：状态 $s$ 根据概率 $P(s^{\prime} | s)$ 转移到状态 $s^{\prime}$ 后，后面乘上的对象应该就是对应的状态 $s^{\prime}$ 的回报 $G_{t+1}$ 。但是前文在解释价值的定义时提到：对于相同的起始状态 $s$ ，其 $G_t$ 可以是不一样的。也就是说， $s^{\prime}$ 与 $G_{t+1}$ 并不是一一对应的关系，因此也无法直接相乘。此时就要找一个既能与 $s^{\prime}$ 一一对应、又能概括状态 $s^{\prime}$ 的收益的概念。这时，价值这一概念就成了不错的选择。它对 $s^{\prime}$ 能对应的多个 $G_{t+1}$ 计算数学期望，近似计算出状态 $s^{\prime}$ 的整体收益（这样看来，其实第6行也是可以省略的，直接就能推出第7行了）。

贝尔曼期望方程 (Bellman Expectation Equation)

其实贝尔曼期望方程即是前面的贝尔曼方程，只是在引入动作 $a$ 之后更加完整。

根据状态价值函数和动作价值函数的两个关系，可以推出2个价值函数的贝尔曼期望方程。

方程1

$V^{\pi}(s) = \sum_{a \in A} \pi(a|s) \left[ r(s,a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) V^{\pi}(s^{\prime}) \right]$
推导过程如下：将关系2式代入关系1式，得：
$\begin{aligned} V^{\pi}(s) &= \sum_{a \in A} \pi(a|s) Q^{\pi}(s,a) \\ &= \sum_{a \in A} \pi(a|s) \left[ r(s,a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) V^{\pi}(s^{\prime}) \right] \end{aligned}$

方程2

$Q^{\pi}(s,a) = r(s,a) + \gamma \sum_{s^{\prime} \in S}P(s^{\prime} | s, a) \sum_{a^{\prime} \in A} \pi(a^{\prime} | s^{\prime}) Q^{\pi}(s^{\prime}, a^{\prime})$

推导过程如下：将关系1式代入关系2式，得：
$\begin{aligned} Q^{\pi}(s,a) &= r(s,a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) V^{\pi}(s^{\prime}) \\ &=r(s,a) + \gamma \sum_{s^{\prime} \in S} P(s^{\prime} | s, a) \sum_{a^{\prime} \in A} \pi(a^{\prime}| s^{\prime})Q^{\pi}(s^{\prime},a^{\prime}) \end{aligned}$