强化学习Chapter2——优化目标（1）-Toy模板网

这篇具有很好参考价值的文章主要介绍了强化学习Chapter2——优化目标（1）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

强化学习Chapter2——优化目标（1）

上节涉及强化学习基本思路以及利用数学方式表征强化学习，但对强化学习的目标并没有进行详尽的定义。本节的目标旨在介绍 algorithm-free 的优化目标，即本文将不涉及算法地详述强化学习的目标。

上文提到，强化学习的目标可以解释为：在一个 Trajectories \(\tau\) 中积累的 Reward 尽可能高，也即是 Return 尽可能高。为了表示这个目标，首先要表征 Trajectory，而后者的形式为：

\[(s_0, a_1, s_1, a_2,s_3,...) \]

为了保证结论的普适性，假设环境的迁移也是随机的，即在给定 \(s_t, a_t\) 后，迁移到 \(s_{t+1}\) 是一个概率行为，也就是说 \(s_{t+1}\) 是从一个分布中采样获得的。

\[P(s_{t+1}|s_t,a_t) \]

除此之外，\(a_t\) 实际上也是 \(s_t\) 的函数（这里依然假设策略是随机的），即

\[a_t \sim \pi(\cdot|s_t) \]

因此表征单步的状态迁移，实际上是如下形式：

\[P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

最后，任何轨迹都是从一个 \(s_0\) 出发的，而该初始状态是随机任取的，所以可以设置一个 start-state distribution \(\rho_0\) ：

\[s_0\sim\rho_0(\cdot) \]

在此基础上就能获取一个轨迹的表示了：

\[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

若设对于轨迹 \(\tau\) 的回报 Return 为 \(R(\tau)\)，强化学习目标为 \(J\)，则有：

\[J(\pi)=\int_\tau P(\tau|\pi)R(\tau)=E_{\tau\sim\pi}[R(\tau)] \]

可以看出，这一切的缘由，都是策略 \(\pi\) ，因此强化学习的优化目标，就是获取使得 \(J\) 最大的 \(\pi\)：

\[\pi^*=\arg \max_\pi J(\pi) \]

右上角的星号表明他是最优的（optimal policy）。文章来源地址https://www.toymoban.com/news/detail-553778.html

到了这里，关于强化学习Chapter2——优化目标（1）的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！