强化学习Chapter2——优化目标(1)

这篇具有很好参考价值的文章主要介绍了强化学习Chapter2——优化目标(1)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

强化学习Chapter2——优化目标(1)

上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义。本节的目标旨在介绍 algorithm-free 的优化目标,即本文将不涉及算法地详述强化学习的目标。

强化学习一般性目标

上文提到,强化学习的目标可以解释为:在一个 Trajectories \(\tau\) 中积累的 Reward 尽可能高,也即是 Return 尽可能高。为了表示这个目标,首先要表征 Trajectory,而后者的形式为:

\[(s_0, a_1, s_1, a_2,s_3,...) \]

为了保证结论的普适性,假设环境的迁移也是随机的,即在给定 \(s_t, a_t\) 后,迁移到 \(s_{t+1}\) 是一个概率行为,也就是说 \(s_{t+1}\) 是从一个分布中采样获得的。

\[P(s_{t+1}|s_t,a_t) \]

除此之外,\(a_t\) 实际上也是 \(s_t\) 的函数(这里依然假设策略是随机的),即

\[a_t \sim \pi(\cdot|s_t) \]

因此表征单步的状态迁移,实际上是如下形式:

\[P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

最后,任何轨迹都是从一个 \(s_0\) 出发的,而该初始状态是随机任取的,所以可以设置一个 start-state distribution \(\rho_0\)

\[s_0\sim\rho_0(\cdot) \]

在此基础上就能获取一个轨迹的表示了:

\[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t) \]

若设对于轨迹 \(\tau\) 的回报 Return 为 \(R(\tau)\),强化学习目标为 \(J\),则有:

\[J(\pi)=\int_\tau P(\tau|\pi)R(\tau)=E_{\tau\sim\pi}[R(\tau)] \]

可以看出,这一切的缘由,都是策略 \(\pi\) ,因此强化学习的优化目标,就是获取使得 \(J\) 最大的 \(\pi\)

\[\pi^*=\arg \max_\pi J(\pi) \]

右上角的星号表明他是最优的(optimal policy)。文章来源地址https://www.toymoban.com/news/detail-553778.html

到了这里,关于强化学习Chapter2——优化目标(1)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模基础算法Chapter2.1 -- 整数规划(ILP): 分支定界+割平面

    By 进栈需检票 当题目要求的最优解是整数,例如物件的数量,参与人员的数量等时,就不能继续使用之前的线性规划了(当出现小数的情况),这个时候需考虑整数规划这样的一种建模形式 但是目前所流行的求整数规划的方法,只适用于整数线性规划,不能解决一切的整数

    2024年02月12日
    浏览(35)
  • 【Go语言】Golang保姆级入门教程 Go初学者chapter2

    setting的首选项 一个程序就是一个世界 变量是程序的基本组成单位 变量的使用步骤 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zuxG8imp-1691479164956)(https://cdn.staticaly.com/gh/hudiework/img@main/image-20230726152905139.png)] 变量表示内存中的一个存储区 注意:

    2024年02月14日
    浏览(43)
  • 【长文阅读】MAMBA作者博士论文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter2

    Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023. 本文是MAMBA作者的博士毕业论文,为了理清楚MAMBA专门花时间拜读这篇长达330页的博士论文,由于知识水平有限,只能尽自己所能概述记录,并适当补充一些相关数学背景,欢迎探讨与批评指正。内容多,分章节

    2024年01月20日
    浏览(33)
  • 基于深度强化学习的目标驱动型视觉导航泛化模型

    参考论文《Towards Generalization in Target-Driven Visual Navigation by Using Deep Reinforcement Learning》   目标是仅使用视觉输入就能导航并到达用户指定目标的机器人,对于此类问题的解决办法一般有两种。 将经典导航系统与目标检测模块结合起来。 基于地图的导航算法或者SLAM系统与最

    2024年02月06日
    浏览(42)
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记

    通用超参数 Duel Structure VS→该state在当前policy下的value QSA→该state进行这个action在当前policy下的value advantage = VS - QSA 裁剪区域的确定? 34 194按行输出min,33 193min为90*90 background knowledge [bisect Module] python自带的二分查找的包 基本使用 bisect with list 在一个increasing array插入一个元素

    2024年04月13日
    浏览(34)
  • 论文复现-多目标强化学习-envelope MOQ-learning

    目录 introduction 1 总体思想 2 算法 2.1 输入 2.2 输出 2.3 损失函数 2.3.1 Critic loss 2.3.2 Actor loss 2.4 更新方式 2.4.1 数据收集方式 2.4.2 参数更新方式 2.5 损失函数中偏好和输入网络偏好的关系 3 其他bug和优化技巧 一种多目标强化学习算法,来自2019 Nips《A Generalized Algorithm for Multi-Obje

    2024年02月05日
    浏览(33)
  • 强化学习基础三大优化方法:(一)动态规划

    强化学习是一类解决马尔可夫决策过程的方法,其中, 动态规划、蒙特卡洛 以及 时序差分 是强化学习算法的三大基础算法。本文就其实际效果来对比三种方法以及其子方法的不同与优缺点。本文就动态规划方法进行简单介绍。 动态规划是一类优化方法,在给定一个马尔可

    2024年02月08日
    浏览(69)
  • OM | 强化学习 + 约束规划求解组合优化问题

    组合优化在航空航天、交通规划以及经济学等众多学科领域中有广泛应用,其目标是在有限集中寻找最优解。然而状态空间过大的问题让目前组合优化变得棘手。在过去的几年中,使用深度强化学习(deep reinforcement learning,DRL)解决组合优化问题受到广泛关注。然而,现有的

    2024年02月10日
    浏览(38)
  • ChatGPT强化学习大杀器——近端策略优化(PPO)

    近端策略优化 ( P roximal P olicy O ptimization)来自 Proximal Policy Optimization Algorithms (Schulman et. al., 2017)这篇论文,是当前最先进的强化学习 (RL) 算法。这种优雅的算法可以用于各种任务,并且已经在很多项目中得到了应用,最近火爆的ChatGPT就采用了该算法。 网上讲解ChatGPT算法

    2024年01月21日
    浏览(39)
  • 中科院自动化所:基于关系图深度强化学习的机器人多目标包围问题新算法

    摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的深度强化学习方法,应用于多目标避碰包围问题(MECA),使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。研究成果在2022年ICRA大会发表。   在多机器人系统的研究领域中,包围控

    2024年01月16日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包