分类目录:《深入理解强化学习》总目录
文章《深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法,同时我们也可以用动态规划的方法,一直迭代贝尔曼方程,直到价值函数收敛,我们就可以得到某个状态的价值。我们通过自举(Bootstrapping)的方法不停地迭代贝尔曼方程,当最后更新的状态与我们上一个状态的区别并不大的时候,更新就可以停止,我们就可以输出最新的 V ′ ( s ) V'(s) V′(s)作为它当前的状态的价值。这里就是把贝尔曼方程变成一个贝尔曼更新(Bellman Update),这样就可以得到状态的价值。
动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计,如下文所示算法中的第3行用 V ′ V' V′来更新 V V V。根据其他估算值来更新估算值的思想,我们称其为自举。
动态规划方法来计算价值
输入:随机产生轨迹的个数 N N N
(1) ∀ s ∈ S : V ′ ( s ) = 0 , V ( s ) = + ∞ \forall s\in S: V'(s)=0, V(s)=+\infty ∀s∈S:V′(s)=0,V(s)=+∞
(2) if ∣ ∣ V − V ′ ∣ ∣ < ϵ \ \ ||V-V'||<\epsilon ∣∣V−V′∣∣<ϵ
(3) V = V ′ \quad V=V' V=V′
(4) ∀ s ∈ S : V ′ ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) \quad \forall s\in S: V'(s)=R(s)+\gamma\sum_{s'\in S}P(s' | s)V(s') ∀s∈S:V′(s)=R(s)+γ∑s′∈SP(s′∣s)V(s′)
(5) ∀ s ∈ S : \forall s\in S: ∀s∈S: 返回 V ( s ) V(s) V(s)文章来源:https://www.toymoban.com/news/detail-753059.html
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022文章来源地址https://www.toymoban.com/news/detail-753059.html
到了这里,关于深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!