学习深度强化学习---第3部分----RL蒙特卡罗相关算法

这篇具有很好参考价值的文章主要介绍了学习深度强化学习---第3部分----RL蒙特卡罗相关算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)
法2:免模型强化学习法(即蒙特卡罗方法)
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
经历完整的MDP序列:从初始状态S0或某一中间状态St,经过动作,奖励,状态,直到最终的终止状态ST。经历完整的MDP序列不一定从初始状态开始。
一个经历完整的MDP序列称为一次采样
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
可以使用模拟程序来采样m条经历完整的MDP序列。

1)每条MDP序列的终止状态有可能一样有可能不一样,因为一个问题可能有多个终止状态
2)T1、T2、。。。Tm不是相同的
3)一个MDP序列可能从多种初始状态或多种中间状态开始。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
上面的MDP序列中动作是根据π来决定的,如果要评估这个策略π,就要计算这个策略的动作值函数(或状态值函数),以下一动作值函数Q(s,a)为例
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
根据Q(s,a)的表达式是无法求出该期望的,因此希望使用样本的均值来近似该期望。此样本来自上面抽样出的MDP序列。
假设Gi(s,a)表示第i条MDP序列中从状态s开始执行动作a获得的累计折扣奖励。此时即可计算Q(s,a)。下式使用统计模拟出的m条MDP序列中得到的动作值函数均值来估计真实动作值函数的期望:
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
此处会出现一个问题(这个老师讲的不清楚,此处我听不懂,下面是瞎写的):
s取自状态空间,a取自动作空间,(s,a)取自两个空间的乘积。对于m条MDP,如10000条MDP,10000sa的结果很大,采样效率较低
因此引入定义:
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
因此
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
好好看下下面这个算法,看懂了就懂了前面那些老师没讲清楚的内容。算法是很清晰的。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
上面这个算法是先产生多个序列才去迭代算法
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
i表示当前统计到第i条链,因为第k条链上不一定有(s,a)
k不是第k条链,而是表示(s,a)在1,2,3,。。。i条链中出现的次数
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
算法3-1和算法3-2都是在维持一个这种的表格。
基于表格的方法,这种方法是针对离散的状态空间和动作空间。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习

动态规划算出来的解是精确地解,蒙特卡罗的解是估计出来的
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习

3.3节 蒙特卡罗强化学习

学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
上面的表是稀疏的,解决该问题提出来两种解决方式,如下:
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
1)保证每一个(s,a)都作为MDP链的初始状态。
2)在确定性策略中一些状态之后必然会发生某动作,其他动作将不会发生,软策略的改进在于,使确定性动作概率转为e,其他动作改为e/动作的个数。软策略中的其中一种称为e贪婪策略
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
如何保证状态-动作对都已出现在MDP序列中?三种方法:
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
下面这个算法不用细致研究
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
下面这个算法中的过程:(),括号内容可以不在那里执行
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习

3.4节 异策略蒙特卡罗法

学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
两种策略的示例如下:
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
观察上图使用的均匀分布的采样方法来划分区间大小,其实在函数导数较大的地方也使用这种均匀划分区间的方法不太合适。因为此时矩形面试远大于曲线下方面积。因此有了一个想法,在导数大的地方划分的密集一点,在导数较小的地方划分的稀疏一点。因此有了重要性采样。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
其中π策略是未知的,使用p分布来代替π分布是为了能实现不均衡采样,p分布可以认为就是已知的不均衡分布。上面的式子中π/p·f的取值会很困难,但是做到了最起码得采样是不均衡采样,即重要性采样。

已知一个行为策略π和一个状态转移概率p,如何计算一个已知的MDP序列存在的概率是多少?
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
ρ就叫重要性权重,这个值类似于积分中的π/p
使用b分布来进行采样对行为策略π进行评估,需要最终乘以一个重要性权重。
重要性权重分:一般重要性采样和加权重要性采样
2、一般重要性采样的公式是下面第一个
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
上面算法中的异策略表现在待改进的策略与行为策略不一样。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
尾部学习效应:是指重要性采样得到的MDP序列只学习后面一些状态和动作。

对于确定性策略使用异策略效果不会很好。
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习
学习深度强化学习---第3部分----RL蒙特卡罗相关算法,强化学习,强化学习文章来源地址https://www.toymoban.com/news/detail-759171.html

到了这里,关于学习深度强化学习---第3部分----RL蒙特卡罗相关算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MPI和OpenMP实现蒙特卡罗算法

    基本思想 当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。 数学应用: 通常蒙特·卡罗方法通过构造符合

    2024年02月05日
    浏览(39)
  • 关于蒙特卡罗方法及其在信号处理中的应用

        最近想探讨一下毫米波雷达测量准确度及其改善的问题,这个话题下可供讨论的问题有很多,蒙特卡罗方法(或者说基于蒙特卡罗方法对测量准确度以及精度的评估)是其中之一,该方法是一个十分有效的工具,在科研(发paper)上也是不可少的。在探讨测量的准确度之前,我

    2024年02月05日
    浏览(46)
  • 蒙特卡罗(洛)模拟——手把手教你数学建模

    蒙特卡罗方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问

    2024年02月09日
    浏览(58)
  • 蒙特卡罗方法:当丢失确定性时的处理办法

    蒙特卡罗(Monte Carlo),也可翻译为蒙特卡洛,只是不同的音译选词,比较常用的是蒙特卡罗。是摩洛哥的一片城区,以拥有豪华赌场闻名,蒙特卡罗方法是基于概率的。基本思想:如果你想预测一件事情的结果,你只要把随机生成的各种输入值,把这件事模拟很多遍,根据

    2023年04月10日
    浏览(40)
  • 随机游走任务中时间差分(0)和常数α蒙特卡罗方法的比较

            在这篇文章中,我们讨论了常α MC 方法和 TD(0) 方法之间的区别,并比较了它们在随机游走任务中的性能。TD方法在本文的所有测试中都覆盖了MC方法,因此将TD视为强化学习任务的方法是更可取的选择。         蒙特卡洛(MC)和时间差分(TD)方法都是强化

    2024年02月10日
    浏览(40)
  • MATLAB运动学之蒙特卡罗法求积分与机器人工作域分析

    蒙特卡罗法又叫做统计模拟法、随机抽样技术,是一种随机模拟方法以概率和统计理论方法为基础的一种计算方法,通俗来说是可以使用随机数来解决很多计算问题的一种方法,很直观简单,尤其对于一些求解积分无解的情况,非常好使且简单粗暴。 以 y = x² 为例,我们需要

    2024年02月04日
    浏览(43)
  • R语言随机波动模型SV:马尔可夫蒙特卡罗法MCMC、正则化广义矩估计和准最大似然估计上证指数收益时间序列

    本文详细介绍了如何使用R语言进行随机波动模型SV的模拟和估计,包括马尔可夫蒙特卡罗法(MCMC)、正则化广义矩估计法和准最大似然估计法。

    2024年02月10日
    浏览(55)
  • 深度学习3. 强化学习-Reinforcement learning | RL

    强化学习是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 目录 什么是强化学习? 强化学习的应用场景 强化学习的主流算法 强化学习(reinforcement learning) 强化学习并不是某一种

    2024年02月11日
    浏览(41)
  • 强化学习相关开源项目介绍 | Stable Baselines 3 | SKRL | RL Games | RSL-RL

    如是我闻 :本文将介绍四个与强化学习相关的开源项目:Stable Baselines 3、SKRL和RL Games,以及RSL-RL。 Stable Baselines 3 Stable Baselines 3(SB3)是一个建立在PyTorch之上的强化学习库,旨在提供高质量的实现强化学习算法。SB3是Stable Baselines库的后续版本,后者是基于TensorFlow的。SB3致力

    2024年02月22日
    浏览(36)
  • 【RL】我的强化学习代理

              强化学习代理是一个自主决策的人工智能智能系统,它通过与环境进行交互,通过试错学习,逐步优化其行为以实现其目标。这种代理能够学习如何在环境中进行行为,以实现预期的目标。代理可以通过尝试不同的行为来评估其对环境的影响,并根据它做出的决

    2024年02月14日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包