强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）-Toy模板网

这篇具有很好参考价值的文章主要介绍了强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本系列文章介绍强化学习基础知识与经典算法原理，大部分内容来自西湖大学赵世钰老师的强化学习的数学原理课程（参考资料1），并参考了部分参考资料2、3的内容进行补充。

系列博文索引：

强化学习的数学原理学习笔记 - RL基础知识
强化学习的数学原理学习笔记 - 基于模型（Model-based）
强化学习的数学原理学习笔记 - 蒙特卡洛方法（Monte Carlo）
强化学习的数学原理学习笔记 - 时序差分学习（Temporal Difference）
强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）
强化学习的数学原理学习笔记 - 策略梯度（Policy Gradient）
强化学习的数学原理学习笔记 - Actor-Critic

参考资料：

【强化学习的数学原理】课程：从零开始到透彻理解（完结）（主要）
Sutton & Barto Book: Reinforcement Learning: An Introduction
机器学习笔记

*注：【】内文字为个人想法，不一定准确

概览：RL方法分类

强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）,机器学习,笔记,强化学习,人工智能,深度学习,机器学习
*图源：https://zhuanlan.zhihu.com/p/36494307

值函数近似（Value function approximation）

在先前的方法中，状态/动作值均以表格的（tabular）形式呈现。但是当状态/动作空间较大或者连续时，以上算法会面临存储开销和泛化能力的问题。因此，考虑通过特定函数的形式近似状态值。

Basic idea

*A simple example
假设状态值 $v (s)$ 与状态 $s$ 之间呈线性关系，设 $\hat{v}(s, w)$ 是对 $v (s)$ 的估计，则有下式：
强化学习的数学原理学习笔记 - 值函数近似（Value Function Approximation）,机器学习,笔记,强化学习,人工智能,深度学习,机器学习
其中， $w$ 为参数向量， $\phi(s)$ 为状态 $s$ 的特征向量。
这样做的好处在于大大降低了存储开销：不需要存储每个状态值，只需要存储 $w$ （即 $a$ 和 $b$ 两个参数）即可。但是弊端在于通过函数近似得到的结果并不一定准确。这种思想可以继续推广到高阶及非线性函数，以提升估计的准确性。

值函数近似的idea：使用参数化（parameterized）的函数近似状态和动作值，即 $\hat{v}(s, w) \approx v_\pi(s)$ ，其中 $\in \mathbb{R}^m$ 是参数向量。

好处：(1) 便于存储：只需要存储参数，不需要存储状态，而参数的维度往往远小于状态的数量；(2) 泛化能力：当访问一个状态后，参数值发生改变，则整个函数估计发生改变，其余未被访问的状态的状态值同样会发生改变，因此不需要访问每个状态来完成学习过程。

目标函数（objective function）

值函数近似的目标是使得估计值尽可能接近真实状态值，其目标函数为：
$\mathbb{E} [ (v_\pi(S) - \hat{v}(S,w))^2 ]$
值函数近似的目标，即找到能够使得 $J (w)$ 最小的 $w$ 。本质上是做策略评估中的状态值估计。
其中， $\in \mathcal{S}$ 为随机变量，其概率分布为平稳分布（stationary distribution），描述长期行为（long-run behavior），也被称为steady-state distribution或limiting distribution【*一个随机过程/马尔可夫过程中的概念】。直观理解：如果一个agent按照一个给定策略运行了足够久，其马尔可夫过程最终会达到一个平稳状态【即模型（状态转移概率）是稳定的】。

设 $\{ d_\pi (s) \}_{s\in \mathcal{S}}$ 表示策略 $\pi$ 下的马尔可夫过程的平稳分布，有 $d_\pi (s) \geq 0$ 且 $\textstyle \sum_{s\in \mathcal{S}} d_\pi(s) =1$ 。则值函数近似的目标函数可以写作：
$\mathbb{E} [ (v_\pi(S) - \hat{v}(S,w))^2 ] = \sum_{s\in \mathcal{S}} d_\pi (s) (v_\pi(S) - \hat{v}(S,w))^2$
其中， $d_\pi (s)$ 表示agent处于状态 $s$ 的概率，同时也是该状态的（重要性）权重值，因此上式可以看作是对不同状态的估计误差的平方的加权平均。

优化算法（optimization algorithm）

采用随机梯度下降（SGD）算法优化（最小化）目标函数 $J (w)$ （推导过程略）：
$w_{t+1} = w_t - \alpha_t (v_\pi(s_t) - \hat{v}(s_t, w_t)) \nabla_w \hat{v}(s_t, w_t)$

注意到其中 $v_\pi(s_t)$ 是未知的，其可以用MC或TD近似：

MC with 值函数近似：用 $g_t$ （从 $s_t$ 出发的累计折扣回报）近似 $v_\pi(s_t)$
- $w_{t+1} = w_t - \alpha_t (g_t - \hat{v}(s_t, w_t)) \nabla_w \hat{v}(s_t, w_t)$
TD with 值函数近似：用 $r_{t+1} + \gamma \hat{v}(s_{t+1}, w_t)$ 近似 $v_\pi(s_t)$
- $w_{t+1} = w_t - \alpha_t [r_{t+1} + \gamma \hat{v}(s_{t+1}, w_t) - \hat{v}(s_t, w_t)] \nabla_w \hat{v}(s_t, w_t)$
  - TD target： $r_{t+1} + \gamma \hat{v}(s_{t+1}, w_t)$
- *实际上这种方法并不是在优化原本的目标函数，而是在优化另一个相关的目标函数，称作projected Bellman error（详细内容略）

$\hat{v} (s, w)$ 的形式选择：早期用线性函数，目前通用神经网络（Neural Network，NN）来拟合未知非线性函数。线性函数的好处在于其理论性非常容易分析，弊端在于其特征向量（比如其阶数）难以选择。
*若 $\hat{v} (s, w)$ 为线性函数，则其等价于tabular representation，因此可以将tabular representation看作linear function approximation的一种特殊情况。

Sarsa / Q-learning with function approximation

Sarsa with function approximation

其实就是把TD with function approximation中的状态值换为动作值：
$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma \hat{q}(s_{t+1}, a_{t+1}, w_t) - \hat{q}(s_t, a_t, w_t)] \nabla_w \hat{q}(s_t, a_t, w_t)$

和Tabular Sarsa的区别：不是直接更新动作值 $q (s, a)$ ，而是更新参数值 $w$ 。

采用ε-Greedy方法进行策略提升：
$\pi_{k+1}(a|s_t) = \begin{cases} 1-\frac{\varepsilon}{|\mathcal{A} (s)|} (|\mathcal{A}(s)|-1) &\text{if } a = \argmax_{a\in\mathcal{A(s_t)}} \hat{q}(s_t, a, w_{t+1}) \\ \frac{\varepsilon}{|\mathcal{A}(s)|} &\text{otherwise} \end{cases}$
注意其中的 $\hat{q}(s_t, a, w_{t+1})$ 需要通过函数计算得到。

Q-learning with function approximation

$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma {\color{red} \max_{a \in \mathcal{A}(s_{t+1})} \hat{q}(s_{t+1}, a_{t}, w_t)} - \hat{q}(s_t, a_t, w_t)] \nabla_w \hat{q}(s_t, a_t, w_t)$

🟦DQN (Deep Q-learning)

尽管在Q-learning with function approximation中，可以使用神经网络作为 $\hat{q} (s, a, w)$ ，但其需要复杂的底层运算（如求梯度），因此提出了DQN（Deep Q-learning / Deep Q Network）作为替代。

DQN的目标函数/损失（loss）函数：
$\mathbb{E} \Big[ \Big(R + \gamma \max_{\alpha \in \mathcal{A} (S') } \hat{q} (S', a, w) - \hat{q} (S, A ,w) \Big) ^2 \Big]$
其中， $(S, A, R, S^{'})$ 均为随机变量， $\gamma \max_{\alpha \in \mathcal{A} (S') } \hat{q} (S', a, w) - \hat{q} (S, A ,w)$ 为Q-learning的TD error，也即Bellman optimlity error，当该值为0时取得最优。

关键技术1：两个网络

直接采用梯度下降优化损失函数并不容易，因为其中两项都包含 $w$ ，求梯度较复杂。一个简单的思路是，将 $\gamma \textstyle \max_{\alpha \in \mathcal{A} (S') } \hat{q} (S', a, w)$ 视作常数，只需求解 $\hat{q} (S, A ,w)$ 的梯度即可。
因此，DQN引入了两个网络的设计：

main network：对应 $\hat{q} (S, A ,w)$
target network：对应 $\hat{q} (S', a, w_T)$

main network的参数 $w$ 实时更新，但target network的参数 $w_T$ 并非实时更新，而是隔一段时间把main network的 $w$ 赋值过来，因此在这段时间内， $w_T$ 可以被视为常数。

DQN的basic idea：使用梯度下降（GD）优化损失函数，对应梯度为：
$\nabla_w J = \mathbb{E} \Big[ \Big(R + \gamma \max_{\alpha \in \mathcal{A} (S') } {\color{red} \hat{q} (S', a, w_T) } - {\color{blue} \hat{q} (S, A ,w) } \Big) {\color{blue} \nabla_w \hat{q} (S, A ,w) } \Big]$

训练过程（详见下）：在每次迭代中，DQN从回放缓存（replay buffer）中取mini-batch采样 ${(s, a, r, s')\}$ ，以 $s$ 和 $a$ 作为输入计算得到 $y_T = r + \gamma \textstyle \max_{\alpha \in \mathcal{A} (s') } \hat{q} (s', a, w_T)$ ，并基于mini-batch ${ (s, a, y_T) \}$ 最小化损失函数 $y_T - \hat{q} (s, a ,w) )^2$ 以训练main network。之后，将main network的参数 $w$ 赋值给target network的 $w_T$ 。

关键技术2：经验回放（Experience replay）

DQN在收集经验采样后，将其存储在回放缓存（replay buffer） $\mathcal{B} = \{ (s, a, r, s') \}$ 中。当需要使用采样训练神经网络时，从回放缓存中按照均匀分布（uniform distribution）随机取mini-batch的采样，该过程称为经验回放。

均匀分布：对所有 $(s, a)$ 对等概率访问（不等概率的话，需要先验知识才能确定哪些 $(s, a)$ 对更重要）
- 这里是把 $(S, A)$ 对看作一个随机变量
回放缓存：经验采样的采集有先后顺序，直接按照其顺序使用可能不满足均匀分布的要求，因此将过往经验先存起来再均匀采样，去除采样间的相关性

*实际上经验回放也可以用于tabular Q-learning中，还能提高其采样效率（因为可以重复利用）。

DQN算法步骤（off-policy）

目标：从行为策略 $\pi_b$ 生成的经验采样中，学习一个最优的target network以近似最优动作值
在每次迭代中：

从回放缓存 $\mathcal{B}$ 中均匀取mini-batch采样
对于每个采样 $(s, a, r, s^{'})$ ，计算 $y_T = r + \gamma \textstyle \max_{\alpha \in \mathcal{A} (s') } \hat{q} (s', a, w_T)$ ，其中 $w_T$ 为target network的参数
使用mini-batch采样 ${ (s, a, y_T) \}$ 更新main network，以最小化损失函数 $y_T - \hat{q} (s, a ,w) )^2$