深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]

这篇具有很好参考价值的文章主要介绍了深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《深入理解强化学习》总目录


文章《深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法,同时我们也可以用动态规划的方法,一直迭代贝尔曼方程,直到价值函数收敛,我们就可以得到某个状态的价值。我们通过自举(Bootstrapping)的方法不停地迭代贝尔曼方程,当最后更新的状态与我们上一个状态的区别并不大的时候,更新就可以停止,我们就可以输出最新的 V ′ ( s ) V'(s) V(s)作为它当前的状态的价值。这里就是把贝尔曼方程变成一个贝尔曼更新(Bellman Update),这样就可以得到状态的价值。

动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计,如下文所示算法中的第3行用 V ′ V' V来更新 V V V。根据其他估算值来更新估算值的思想,我们称其为自举。

动态规划方法来计算价值
输入:随机产生轨迹的个数 N N N
(1) ∀ s ∈ S : V ′ ( s ) = 0 , V ( s ) = + ∞ \forall s\in S: V'(s)=0, V(s)=+\infty sS:V(s)=0,V(s)=+
(2) if    ∣ ∣ V − V ′ ∣ ∣ < ϵ \ \ ||V-V'||<\epsilon   ∣∣VV∣∣<ϵ
(3) V = V ′ \quad V=V' V=V
(4) ∀ s ∈ S : V ′ ( s ) = R ( s ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s ) V ( s ′ ) \quad \forall s\in S: V'(s)=R(s)+\gamma\sum_{s'\in S}P(s' | s)V(s') sS:V(s)=R(s)+γsSP(ss)V(s)
(5) ∀ s ∈ S : \forall s\in S: sS: 返回 V ( s ) V(s) V(s)

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022文章来源地址https://www.toymoban.com/news/detail-753059.html

到了这里,关于深入理解强化学习——马尔可夫决策过程:马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能专栏第十讲——马尔可夫决策过程

    马尔可夫决策过程(Markov Decision Process, MDP)是一类用于描述决策问题的数学模型。该模型可以将决策问题的状态、决策、动作、收益等概念进行形式化,并通过数学方法进行求解,得到一个最优的决策策略。马尔可夫决策过程广泛应用于智能控制、机器学习、人工智能等领域

    2024年02月08日
    浏览(41)
  • 深入理解机器学习——概率图模型(Probabilistic Graphical Model):马尔可夫随机场(Markov Random Field,MRF)

    分类目录:《深入理解机器学习》总目录 马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系。马尔可夫随机场有一组势函数(Potential Functions),亦称“因

    2024年02月12日
    浏览(48)
  • 基于应用值迭代的马尔可夫决策过程(MDP)的策略的机器人研究(Matlab代码实现)

     💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码实现 MDP(

    2024年02月15日
    浏览(42)
  • 强化学习从基础到进阶-案例与实践[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

    【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项目实现、学术应用项目实现 专栏详细介绍 :【强化学习原理+项目专栏】必看系列:单智能体、多智能体算法原理+项目实战、相关技巧(调参、画图等、趣味项

    2024年02月15日
    浏览(135)
  • 强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

    马尔可夫性质(Markov property,MP) :如果某一个过程未来的状态与过去的状态无关,只由现在的状态决定,那么其具有马尔可夫性质。换句话说,一个状态的下一个状态只取决于它的当前状态,而与它当前状态之前的状态都没有关系。 马尔可夫链(Markov chain) : 概率论和数

    2024年03月26日
    浏览(52)
  • 马尔可夫链:随机过程的数学建模及MATLAB实现

    目录 1. 马尔可夫链简介 1.1. 马尔可夫性质 1.2. 马尔可夫链定义

    2024年02月13日
    浏览(40)
  • 【机器学习】马尔可夫链与隐马尔可夫模型(HMM)

            马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain),因俄国数学家安德烈·马尔可夫(A.A.Markov)得名。描述的是状态空间中经过从一个状态到另一个状态的转换的 随机过程 。该过程要求具备“无记忆”的性质: 下一状态的概率分布只能

    2024年02月13日
    浏览(44)
  • 机器学习:马尔可夫模型

    后续遇到合适的案例会再补充   马尔可夫模型(Markov Model, MM)是一种统计模型,广泛应用在自然语言处理等领域中。 1.1 数学定义   考虑一组随机变量序列 X = { X 0 , X 1 , … , X t , …   } X={X_{0},X_{1},dots,X_{t},dots} X = { X 0 ​ , X 1 ​ , … , X t ​ , … } ,其中 X t X_{t} X t ​ 表

    2024年02月13日
    浏览(42)
  • 机器学习算法 - 马尔可夫链

    马尔可夫链(Markov Chain)可以说是机器学习和人工智能的基石,在强化学习、自然语言处理、金融领域、天气预测、语音识别方面都有着极其广泛的应用 The future is independent of the past given the present   未来独立于过去,只基于当下。 这句人生哲理的话也代表了马尔科夫链的思想

    2024年01月17日
    浏览(38)
  • 学习笔记:马尔可夫模型

    安德雷·马尔可夫(Andrey Markov),俄国数学家,在概率论、数理统计和随机过程等领域做出了重要贡献,20世纪初期提出了一种数学模型,即马尔可夫过程Markov Process),用于描述具有“无记忆性”的随机过程。 马尔可夫性质(Markov Property)是概率论中的一个概念,它是指一个随

    2024年02月04日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包