强化学习Chapter2——优化目标(1)
上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义。本节的目标旨在介绍 algorithm-free 的优化目标,即本文将不涉及算法地详述强化学习的目标。
强化学习一般性目标
上文提到,强化学习的目标可以解释为:在一个 Trajectories \(\tau\) 中积累的 Reward 尽可能高,也即是 Return 尽可能高。为了表示这个目标,首先要表征 Trajectory,而后者的形式为:
为了保证结论的普适性,假设环境的迁移也是随机的,即在给定 \(s_t, a_t\) 后,迁移到 \(s_{t+1}\) 是一个概率行为,也就是说 \(s_{t+1}\) 是从一个分布中采样获得的。
除此之外,\(a_t\) 实际上也是 \(s_t\) 的函数(这里依然假设策略是随机的),即
因此表征单步的状态迁移,实际上是如下形式:
最后,任何轨迹都是从一个 \(s_0\) 出发的,而该初始状态是随机任取的,所以可以设置一个 start-state distribution \(\rho_0\) :
在此基础上就能获取一个轨迹的表示了:
若设对于轨迹 \(\tau\) 的回报 Return 为 \(R(\tau)\),强化学习目标为 \(J\),则有:
可以看出,这一切的缘由,都是策略 \(\pi\) ,因此强化学习的优化目标,就是获取使得 \(J\) 最大的 \(\pi\):文章来源:https://www.toymoban.com/news/detail-553778.html
右上角的星号表明他是最优的(optimal policy)。文章来源地址https://www.toymoban.com/news/detail-553778.html
到了这里,关于强化学习Chapter2——优化目标(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!