【论文】Continuous Rapid Action Value Estimates阅读笔记

这篇具有很好参考价值的文章主要介绍了【论文】Continuous Rapid Action Value Estimates阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

之前在阅读KR-UCT论文时,里面提到过与UCT结合的主要两种启发式方法旨在指导探索策略,通过使用渐进拓宽(PW)限制考虑的行动的数量,并使用快速行动价值估计(RAVE)选择最有前途的行动。因此找了一篇RAVE来学习一下。


MCTS最常使用上置信树算法来处理探索和利用之间的权衡,而一些启发式算法被用于指导在大型搜索空间中的探索。在这些启发式方法中,包括快速行动值估计(RAVE)。虽然RAVE被认为是MCTS效率的一个关键因素,但到目前为止,它一直局限于离散的作用空间和状态空间。本文的重点是利用基于高斯卷积的平滑技术将RAVE扩展到连续动作和状态空间。

PW和RAVE提出的原因:

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

根据式(1),每一个可能的动作都必须在每个状态中选择一次,当手臂数量在时间范围下很大,这是很难处理的(every possible action must be selected once in each state, which is hardly tractable when the number of arms is large in front of the time horizon,实在不知道该怎么通俗地解释,只能意会,不能言传);同样,式(1)不能用于一个连续的手臂空间。为了解决这个限制,每个节点树中要考虑的手臂的数量受到限制(PW启发式),手臂的选择也受到控制(RAVE)。

Progressive WideningPW): 

渐进扩展(PW)启发式根据访问的次数n (s)限制了状态s中考虑的动作的数量。渐进式增宽也被用于连续的动作空间。具体地说,PW在状态s中允许的动作的数量pw(n(s))被设置为【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的整数部分,p=为2或4。在增加pw(n(s))后,RAVE用于选择下一个要考虑的操作。 

(之后会再找一篇有关PW的论文进行学习)

Rapid Action Value Estimation(RAVE):

快速行动价值估计(RAVE),它旨在通过分享沿着游戏树的不同子树收集的奖励,对行动进行更稳健的评估。形式上,设【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示在访问状态s后选择了动作a的所有树行走的平均经验奖励,并且设【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记是这种树行走的次数。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 是动作a的【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记之和。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

连续RAVE算法 :

连续动作空间: 

虽然所提出的离散RAVE方法支持动作值的快速估计,但其可靠性随着可以考虑的动作数量在相同的情况下增加其他因素的增加而降低。事实上,在连续的动作空间a中,期望中给定动作的尝试次数为0,这使得RAVE无用。因此,我们可以很自然地考虑动作值的平滑估计,例如使用高斯卷积。

给定训练集:【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

与某个【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记相关的值y的高斯估计定义为:【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

其中,σ是一个平滑参数,加权x和d(x,x‘)的最近邻的相对重要性,表示空间上所选择的距离。在本文的其余部分中,将只考虑【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记上的欧氏距离。

沿着这条线,让【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示从s开始的树行走,让【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示相关的累积经验奖励。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记被定义为:

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

 其中【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记是一个问题相关参数(为了同质性,与动作空间的平方维数成正比);【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示所有【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记中涉及的动作的总数,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示随着现有经验证据的增加而达到高斯卷积的峰值。计数器【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记同样用高斯卷积估计,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记(用【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记计算)

离散情况下的【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记和连续情况下的【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记都考虑了所有访问状态S和之后收集的累积奖励的tree-walks。两者的区别在于【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记只考虑执行动作a的tree-walks,而【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记认为都有一个根据执行的动作和考虑的动作a之间的距离呈指数下降的权重。因为【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记更biased(因为它考虑了所有的动作,尽管是加权),因此考虑了 【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 的动态组合:

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记选择最大化【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的动作

要注意的是,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记仅作为动作空间【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的有限子集进行计算,由于PW效应,每一个状态节点只考虑一定数量的动作,相关的连续快速动作值估计(RAVE)在每次tree-walk之后更新。

连续状态空间:

如前所述,  【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 都十分biased,因为它们考虑每一次tree-walk有条件地访问状态s,并在之后执行动作a或其他相似的动作,尽管这一动作可能会在一个与状态s很不同的状态【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记中执行。

在连续状态空间里,它很自然根据【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记之间的距离来加权与某些状态-动作对【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记相关的贡献。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

其中,常数【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记与问题有关,与状态空间的平方维数成正比,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记作为估计【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的可用证据的峰值。


实验验证

实验目标和实验设定

实验的主要目标是相对于MCTS/UCT基线,评估动作和状态-动作连续RAVE启发式的效率。

这两种启发式都插入了相同的MCTS/UCT算法与双渐进拓宽和默认参数。经过几次初步实验,将问题相关参数【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的值设置为【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记,其中【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记分别对应于动作空间和状态空间的维数。在动作空间和状态空间中所选择的距离都是欧氏距离。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 一式中的k被设定为50。

实验的第二个目标是研究连续RAVE启发式对时间范围和状态空间大小的敏感性。

寻宝问题

状态空间:这个寻宝问题的游戏环境是一个长宽为D的正方形竞技场,所以智能体的状态空间是【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

智能体的目标:从起始点(位于左下角)出发,到达右上角的Treasure终点。

动作空间:智能体的速度是固定的,它的方向角a(应该就是动作空间了)的取值范围是【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

奖励设置:在每一时间步中,智能体会得到一个即时奖励-1;最终到达Treasure终点是给予奖励1000;如果在洞里则会得到即时奖励-500。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

游戏考虑了两种选择:具有确定性或机率性转移概率;有或没有洞(竞技场中心的长宽为h的正方形)。

转移概率【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记定义为:

在状态【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记下选择动作(也就是方向角)a时,智能体到达状态【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记,其中【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记表示从【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记中均匀抽取的随机变量(确定性情况下【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

 tree-walk停止的条件:智能体到达treasure终点或掉进洞里;或走了10D的距离。

在确定性情况设置下,最佳奖励是1000减去起始位置和treasure终点之间的最短路径,也就是需要避开洞。而在机率性情况的设置下,最优策略很难找到。

寻宝问题实验结果

情况一:【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记在没有洞、确定性转移下的比较结果

在这种最简单的设置中,方法之间并没有显著的差异,尽管【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记显著地改善了UCT小时间预算。有趣的是,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记并没有显著改善【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记。因为最优化轨迹时从初始点到treasure终点的直线,最优选择并不依赖于当前状态。当最优选择取决于当前状态时,也就是在更复杂的设置中,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记的优势将会凸显出来。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

情况二:机率性转移【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记,最优动作【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记取决于状态s

在这种情况下, 【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 都明显改善了UCT,但出乎意料的是,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记更表现地优秀,尤其是噪音是适中的时候。原因如下:一方面,当不考虑状态的时候,估计方差(estimate variance)比较低;另一方面,最优选择仅仅略微取决于状态s。总的来说,【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记因此使估计更快地收敛,而其偏差保持中等。这一解释被证实为  【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 之间的差距随着噪声振幅的增大而减小。

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

情况三: 出现洞

这里的最优移动取决于当前的状态,即使是在确定性转移设置里。正如预期那样, 在所有确定性和机率性转移设置里, 【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记都明显改善【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 ,尽管它们之间的差距随着噪声振幅的增加而减小。此外,  【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记 都改善了UCT

【论文】Continuous Rapid Action Value Estimates阅读笔记,论文、代码学习,笔记

能源管理问题 

大略看了一下,和我的课题关系不是特别大,就先不仔细研究了,等到之后需要的时候再看。文章来源地址https://www.toymoban.com/news/detail-837339.html

到了这里,关于【论文】Continuous Rapid Action Value Estimates阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • A Closer Look at Invalid Action Masking in Policy Gradient Algorithms 论文阅读

    原文链接:http://arxiv.org/abs/2006.14171 这篇文章证明了无效动作掩蔽可以看作是在计算动作概率分布时应用状态相关的可微函数来产生行为策略。接下来,设计了实验来比较无效动作掩饰和无效动作惩罚的性能。 无效动作惩罚:这是一种常见的方法,对无效动作给予负奖励,以

    2024年03月14日
    浏览(36)
  • Practical Memory Leak Detection using Guarded Value-Flow Analysis 论文阅读

    本文于 2007 年投稿于 ACM-SIGPLAN 会议 1 。 指针在代码编写过程中可能出现以下两种问题: 存在一条执行路径,指针未成功释放(内存泄漏),如下面代码中注释部分所表明的: 存在一条执行路径,指针被重复释放(未定义行为),如 free 一个空指针。 最笨拙的方法是枚举每

    2024年02月08日
    浏览(30)
  • K8s in Action 阅读笔记——【14】Securing cluster nodes and the network

    迄今为止,创建了 Pod 而不考虑它们允许消耗多少 CPU 和内存。但是,正如将在本章中看到的那样,设置 Pod 预期消耗和允许消耗的最大数量是任何 Pod 定义的重要部分。设置这两组参数可以确保 Pod 只占用 Kubernetes 集群提供的资源中的份额,并且还影响 Pod 在集群中的调度方式

    2024年02月08日
    浏览(29)
  • K8s in Action 阅读笔记——【13】Securing cluster nodes and the network

    Pod中的容器通常在不同的Linux名称空间下运行,这使得它们的进程与其他容器或节点默认名称空间下运行的进程隔离开来。 例如,我们学习到每个Pod都拥有自己的IP和端口空间,因为它使用其自己的网络名称空间。同样,每个Pod也拥有自己的进程树,因为它有自己的PID名称空

    2024年02月11日
    浏览(29)
  • 论文阅读:Vary论文阅读笔记

    论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了,内心一直想找个专门的时间来细细品读自己感兴趣的论文。现在想来,无异于是自己骗自己了,因为根本就不存在那个专门的时间。所以改变最好的时候就是现在。 因为自己一

    2024年01月19日
    浏览(35)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(43)
  • [论文阅读笔记18] DiffusionDet论文笔记与代码解读

    扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记. 论文地址: 论文 代码: 代码 首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的

    2023年04月08日
    浏览(42)
  • 论文阅读:Segment Anything之阅读笔记

    引言 论文:Segment Anything是Meta出的图像语义分割的算法。这个算法因其强大的zero-shot泛化能力让人惊艳,这不抽空拿来学习了一下。 该算法的代码写得很清楚、简洁和规范,读来让人赏心悦目。推荐去看源码,很有意思。 本篇文章,将以问答形式来解读阅读过程中遇到的困

    2024年02月13日
    浏览(24)
  • PointMixer论文阅读笔记

    MLP-mixer是最近很流行的一种网络结构,比起Transformer和CNN的节构笨重,MLP-mixer不仅节构简单,而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳,PointMixer就是在保留了MLP-mixer优点的同时,还可以很好的处理点云问题。PointMixer可以很好的处理intra-set, inter-set

    2024年02月19日
    浏览(27)
  • Retinexformer 论文阅读笔记

    清华大学、维尔兹堡大学和苏黎世联邦理工学院在ICCV2023的一篇transformer做暗图增强的工作,开源。 文章认为,Retinex的 I = R ⊙ L I=Rodot L I = R ⊙ L 假设干净的R和L,但实际上由于噪声,并不干净,所以分别为L和R添加干扰项,把公式改成如下: 本文采用先预测 L ‾ overline L

    2024年01月21日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包