【强化学习】贝尔曼公式 - bellman equation

这篇具有很好参考价值的文章主要介绍了【强化学习】贝尔曼公式 - bellman equation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

return作用

【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
还是用这个迷宫游戏说。
首先明确,不撞墙到终点比撞墙到终点好。路径越短到终点越好。

  1. 不撞墙到终点比撞墙到终点好。你可以把撞墙这个reward设置成负数,不撞墙设置成0。那么在最终return进行累加的时候,不撞墙的return就会大。
  2. 路径越短到终点越好。我们计算return的时候还会乘上一个discount rate。介于0~1之间。走了几步这个rate就几次方再乘上reward进行求和。所以越后面到终点获得到的reward乘上这个rate就会越小
    【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
    所以return可以来进行衡量我目前这个路径到底好还是不好

return计算

return可以衡量路径好还是不好那么也可以用来说明这个决策好还是不好。可以进行比较了。所以就需要进行对于return的计算。
比如说给出一个policy怎么计算他在这个policy下的return值为多少。
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
可以列出return式子长这样
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
可以用巧方法,把后面这个discount rate提出去变这样
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
每个都这样变换一下变成这样
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
然后把这几个标量组合到一起去,写成向量形式
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习

然后就可以对这个矩阵方程进行求解,就可以解出这个V的向量值,也就是对应每一个return

这个就是贝尔曼公式
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习

state value

刚刚的这个例子的策略是一个state只有一个action,但实际上我一个state不一定只有有一个action,可能会有好多个action进行选择做。所以需要新的指标,这个就是state value。
return实际上是针对一个trajectory进行一个reward进行一个累计。
那么如果我一个state有好几个action进行选择,然后每一个action进入了不同state,他们又有好几个action,推下去就有好多个好多个trajectory,也就是有好多个return。
state value就是把所有他们加起来算期望。也就是我只关心我的起点是这个state。只要是以这个state为起点就加进来算期望。最终得到的就是这个状态的state value
然后注意的是,这个state value也是要基于这个决策的。所以state value实际上会有两个参数,一个是policy一个是state。
例子
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
然后刚刚的那个return的例子,以及我们学习过的马尔科夫的性质,可以察觉到state value可以写成一个递推的式子。数学上确实也可以做的到。严谨的推理长这样:
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
把GT也就是return的第一步拆解了出来,再拆开期望进行分离,前部分就是关于行为获得reward的期望,后面就是discount rate乘上转移后状态的期望
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
然后去仔细分析一下这个概率取值。就会发现这个代表当前这个状态的各个行为的reward的期望
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
同样这个自习分析一下概率,可以发现这一项代表能够根据s状态转移到的不同状态对应的state value的期望

然后把前后两项相同的条件概率提出去就可以得到贝尔曼公式
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习
参考第二个return特例,也可以写出贝尔曼公式的向量形式
【强化学习】贝尔曼公式 - bellman equation,强化学习,机器学习

action value

最后再说说action value。
return值可以反映我这个trajectory好不好。那么他进行期望,得到的state value就可以说明我这个状态是否是更接近我的目标的。
那么我们还需要进行考虑的是,我在我这个state 我到底需要进行那个action?所以就有action value。
感觉一下,我的做出action是不是有一个reward,然后我进行了action是不是到了一个新的state。所以我的action value就是把他们加起来。然后有多个action,算期望就行。
同理action value主要拿来评判我这个action到底哪个会好一点的。
有数学定义与证明。
这里略文章来源地址https://www.toymoban.com/news/detail-694087.html

到了这里,关于【强化学习】贝尔曼公式 - bellman equation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 贝尔曼福特算法——负权值单源最短路径

    title: 贝尔曼福特算法——负权值单源最短路径 date: 2023-05-16 11:42:26 tags: 数据结构与算法 **问题:**具有负权值非环图的单源最短路径算法 git地址:https://github.com/944613709/HIT-Data-Structures-and-Algorithms 对图中的边进行V-1轮遍历,对所有的边松弛(对每条边v1-v2,如果d[v2]+Weight(v1-v2)

    2024年02月14日
    浏览(39)
  • 【强化学习理论】状态价值函数与动作价值函数系列公式推导

    由于时常对状态价值函数与动作价值函数之间的定义区别、公式关系迷惑不清,此次进行梳理并作记录。 理解公式推导需要先了解基础定义中几个概念。 奖励函数 奖励函数 有两种记法。 ①记作 r ( s ) r(s) r ( s ) ,表示某状态 s s s 的奖励,指:转移到该状态时能够获得的奖励

    2024年02月10日
    浏览(50)
  • 卡尔曼滤波算法的五大核心公式含义

    在SLAM中经常会用的卡尔曼滤波算法,这里简单的记录一下卡尔曼滤波算法的五大核心公式,以便后续查询,公式的推导不在作赘述,直接放出卡尔曼滤波算法的五大核心公式: 1. 状态更新方程 x k ^ = F k x ^ k − 1 + B k u k hat{x_k}={F_k}hat{x}_{k-1}+{B_k}{u_k} x k ​ ^ ​ = F k ​ x ^ k −

    2024年02月05日
    浏览(44)
  • 卡尔曼家族从零解剖-(05)卡尔曼滤波→公式推导,应用通俗讲解,c++代码示例

    讲解关于slam一系列文章汇总链接:史上最全slam从零开始,针对于本栏目讲解的 卡尔曼家族从零解剖 链接 :卡尔曼家族从零解剖-(00)目录最新无死角讲解:https://blog.csdn.net/weixin_43013761/article/details/133846882   文末正下方中心提供了本人 联系方式, 点击本人照片即可显示 W X → 官

    2024年02月05日
    浏览(49)
  • 卡尔曼滤波学习笔记

    从直观上来看,卡尔曼滤波是把两个存在误差的结果 融合 在一起,得到一个从数学上可以得到证明的 最优估计值 。 而这两个存在误差的结果,一个是从理论上推导出来的,称之为 先验估计值 ;一个是用传感器测量出来的,称之为 测量值 。它们之所以存在误差,是因为前

    2024年02月11日
    浏览(45)
  • 【机器学习】强化学习 (一)强化学习简介

    一、强化学习简介 1.1 问题定义 1.2 马尔可夫决策过程 举例说明马尔可夫决策过程 例1: 例2: 执行动作的策略 强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有: Q学习(Q-lea

    2024年01月20日
    浏览(44)
  • 【简历完善】- SLAM - 第一篇:卡尔曼滤波的学习

    场景:晚上你需要从自己的卧室去上厕所,你知道家里的布局,了解自己的步长,但是没有灯。你如何才能走到厕所呢? “预测” = “估计”。下面所说的预测和估计就是一回事。不同博客里面这两个词语大概意思也是一致的。 比如,你摸黑走了10步,你“估计”你“大概”

    2024年02月14日
    浏览(33)
  • 强化学习:MuJoCo机器人强化学习仿真入门(1)

        声明 :我们跳过mujoco环境的搭建,搭建环境不难,可自行百度 下面开始进入正题(需要有一定的python基础与xml基础):  下面进入到建立机器人模型的部分: 需要先介绍URDF模型文件和导出MJCF格式  介绍完毕,下面开始进行mujoco仿真: 首先将这4个文件复制到.mujoco/muj

    2024年01月24日
    浏览(55)
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记

    通用超参数 Duel Structure VS→该state在当前policy下的value QSA→该state进行这个action在当前policy下的value advantage = VS - QSA 裁剪区域的确定? 34 194按行输出min,33 193min为90*90 background knowledge [bisect Module] python自带的二分查找的包 基本使用 bisect with list 在一个increasing array插入一个元素

    2024年04月13日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包