用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL

这篇具有很好参考价值的文章主要介绍了用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


目录
  • 全文快读
  • 1 intro
  • 3 背景
  • 4 method
    • 4.1 model-based 算法:GP-VI-MFRL
    • 4.2 model-free 算法:GPQ-MFRL
  • 5 experiment
  • 6 讨论与展望

全文快读

  • 题目:Multi-fidelity Reinforcement Learning With Gaussian Processes: Model-Based and Model-Free Algorithms
  • 链接:https://ieeexplore.ieee.org/abstract/document/9069479
  • IEEE Robotics & Automation Magazine 是 robotics 顶刊。
  • main idea:
    • 基于 14 年的最初的那篇 MFRL 论文(本站博客),
    • 利用相邻 state-action 的空间相关性来加速学习,用 gaussian processes 建模 env dynamics(model-based)/ Q function(model-free),从而得到 model-based model-free 两种 MFRL 算法。
    • 算法结构跟 14 年的 MFRL 基本一致。
  • 全文没有数学证明。

1 intro

  • 利用相邻 state-action 的空间相关性来加速学习:通过 Gaussian Process(GP)作为函数逼近器。
  • 主要贡献:两个算法。
    • model-based MFRL 算法 GP-VI-MFRL,估计转换函数,然后使用 value iteration 计算最优策略。
    • model-free MFRL 算法 GPQ-MFRL,直接估计最优 Q 值以及随后的最优策略。

3 背景

  • 高斯过程:https://www.zhihu.com/question/46631426
  • GP 被证明是 RL 中具有收敛保证的一致函数逼近器。

4 method

4.1 model-based 算法:GP-VI-MFRL

用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL
  • 结构:包括 1 model learner、2 planner。
    • model learner 使用 GP regression 学 env transition: s_{t+1} = f(s_t,a_t),使用高斯分布的形式。
    • 使用 value iteration 作为 planner,用学到的 env transition 计算出最优策略。
  • 算法:
    • 在执行一个 action 前,agent 检查(第 8 行)它是否对当前 state-action pair 在前一个模拟器 Σi-1 中的 transition function 有足够准确的估计(方差小于 σ_th)。
      • 如果不是,并且如果当前环境中的 transition model 发生了变化,它就会切换到 Σi-1,并在 Σi-1 中执行 action 。
    • 跟踪当前模拟器中,最近访问的 L 个 state-action 对的方差。若方差和低于阈值 σ_th^sum(第 15 行),表明 agent 对当前模拟器很有信心,可以推进到下一个模拟器。
      • 在最初的工作中 [2],agent 遇到一定数量的已知 state-action 对后,就会切换到更高保真度的模拟器。
    • (第 7 行)如果一个 state-action pair 的后验方差下降到阈值 σ_th 以下(即 agent 对该 transition 有足够准确的估计),当前环境的模型就会改变,即 change = TRUE。
    • 第 10 - 13 行描述了算法的主体, agent 执行贪婪地选择的 action(第 6 行),并在 Di 中记录观察到的 transition (第 11 行)。 transition function 的 GP 模型在每一步之后被更新(第 12 行)。每次更新 transition function 后,都会计算新的 Q 值估计(第 13 行)。
      • 对每个模拟器,使用一个单独的 GP 来估计它的 transition function 。
    • 终止条件(第 5 行):步数限制、价值函数的变化、最大的 env 切换次数…
    • planner 利用上级(第 26 - 28 行)和下级模拟器(第 25 行)的转换知识,鼓励当前模拟器的探索。
      • 对于每一个 state-action pair (s,a),planner 寻找最大保真度的模拟器(第 26 行遍历所有模拟器),这个模拟器对 (s,a) 的 transition 有一个已知的估计(第 28 行),使用这个估计在当前模拟器中进行规划(第 28 行)。
        • 如果方差低于一个阈值,那么一个估计值就被称为“已知”。
      • 如果没有这样的模拟器,那么它就使用在前一个模拟器中学到的 Q 值,再加上一个保真度参数 β(第 25 行),这个参数是连续的模拟器中最佳 Q 值之间的最大可能差异。
    • 必须进行状态空间离散化,以规划 action 。然而,学到的 transition function 是连续的。

4.2 model-free 算法:GPQ-MFRL

用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL
  • 直接使用 GPs 学习最佳 Q 值,而非学习 env model。
    • 基本假设:附近的 state-action pair 产生类似的 Q 值。
    • GPs 使用 squared-exponential kernel。
    • 同样,每个模拟器使用单独的 GP。
  • 算法:
    • 使用类似的阈值(σ_th 和 σ_th^sum)来确定何时切换到低保真或高保真模拟器。
    • GPQ-MFRL 检查 agent 在前一个模拟器中是否对最佳 Q 值有足够准确的估计(第 8 行),如果没有,切换到前一个模拟器。
    • 第 10 - 15 行描述了算法的主体,agent 将 transition 存入 Di(第 11 行),然后为每个 Di 中的 transition 更新目标值(第 14 行)(batch training)。GP 模型在每一步后被更新(第 16 行)。
    • agent 利用在上级模拟器中收集的经验(第 25 - 27 行)来选择当前模拟器中的最佳行动(第 6 行),利用最高已知 Q 值((s,a) 的后验方差小于阈值 σ_th)的模拟器(第 27 行),来选择当前模拟器的下一个动作。
      • 如果不存在这样的高保真模拟器,则使用低一层模拟器的 Q 值(第 24 行),使用保真度参数 β。
    • 每当 agent 在模拟器中收集到新的样本时,GPQ-MFRL 就会进行一次 batch re-training(第 13 - 15 行),使用新样本的知识,更新以前训练数据的 y 值。
    • 然后,用这些更新的 y 值,来训练 GPs 形式的 Q 值(第 16 行)。
      • 更新 GP 的计算成本是数据量的三次方;然而,我们可以使用稀疏 GP 技术 [6] 对数据集进行修剪,即,只用一小部分数据来 fit GP。
    • 不容易选择置信度界限的值。在目前的实验中,我们选择 σ_th^sum 为可能的最大 Q 值的 10%,σ_th 为 σ_th^sum 的 1/5。

5 experiment

  • 写的蛮清楚的。
  • GP-MFRL 比 14 年最初的 MFRL 效果更好(用的 high-fidelity 样本更少)。
  • GP-VI-MFRL(model-based)在训练最开始时比 GPQ-MFRL(model-free)表现更好,与传统 RL 经验一致,即 model-based>model-free。

6 讨论与展望

  • 未来可以将 MFRL 技术与 sim2real 方法进行比较 [1]。
    • 与 sim2real 不同的是,MFRL 技术明确决定何时在模拟器之间切换,并使用两层以上的模拟器。
    • 或许可以将这两个想法结合起来:使用 MFRL 来利用一些更便宜 / 更快的模拟器;使用参数化的模拟器,来引入领域适应 / 随机化(domain adaptation/randomization),以获得更好的 generalization。
  • 可改进的地方:在目前的方法中,进行 GP 回归时,来自不同模拟器的数据没有结合起来。
    • 1 使用多任务 GPs,它可以同时产生多个输出,分别对应于每个保真度模拟器。
    • 2 使用 deep GP ,将不同保真度的数据 拿来训同一个 NN。
    • 对以上两种情况,我们希望直接学习不同环境下的数值之间的相关性。



文章来源地址https://www.toymoban.com/news/detail-415299.html

到了这里,关于用 Gaussian Process 建模 state-action 空间相关性,加速 Multi-Fidelity RL的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数学建模:相关性分析

    🔆 文章首发于我的个人博客:欢迎大佬们来逛逛 Pearson Spearman Kendall tua-b t检验(t-test)临界值表-t检验表.xls T检验代码: myTtest005.m 相关性分析及SPSS软件操作.pdf

    2024年02月09日
    浏览(31)
  • 数学建模-相关性分析(Matlab)

     注意:代码文件仅供参考,一定不要直接用于自己的数模论文中 国赛对于论文的查重要求非常严格,代码雷同也算作抄袭 如何修改代码避免查重的方法:https://www.bilibili.com/video/av59423231   //清风数学建模 连续数据、正态分布、线性关系三者同时满足优先用。 一般处理这种

    2024年02月07日
    浏览(33)
  • 机器学习参数|数学建模|自相关性

    目录 1.定义和影响 1.1自相关性产生的原因 1.2自相关的后果 2.减小影响方法 2.1如何判断数据存在自相关性 a.用相关计量软件 b.Durbin-Watson Statistics(德宾-瓦特逊检验) c.Q-Statistics 以(box-pierce)- Eviews(7th version第七版本)为例子 2.2如何减弱模型的自相关性 a.GLS or FGLS b.HAC:Heteroscedastici

    2024年02月09日
    浏览(29)
  • 【数学建模】清风数模正课5 相关性分析

    相关性分析的关键是计算相关系数,在本节课中将会介绍两种常用的相关系数: 皮尔逊相关系数 (Pearson)和 斯皮尔曼相关系数 (Spearman)。 它们可以用来衡量两个变量间相关性的大小,对于不同类型的数据,我们要用不同的相关系数进行计算分析。 统计学概念 在学习这两

    2024年02月11日
    浏览(31)
  • Vuex中的States、Mutations、Actions、Getters、Modules、Plugins的作用(推荐使用版本)

    目录 一、State 二、Mutations 三、Actions 四、Getters 五、Modules 前提:state.js要引入,  下面我都省略了 所有共享数据都放到Store的state中存储 访问: 作用:修改Vuex中的全局数据 1、只能通过Mutation变更Store中的数据 2、操作有点繁琐,但可以集中监控所有数据变化 定义mutations: 组

    2024年02月05日
    浏览(26)
  • 【VUEX】state、mutations、actions、getters、modules以及辅助函数mapState和mapGetters

    Vuex 简介:vuex是vue.js的状态管理库 提供一种集中式存储管理应用程序中的所有组件的状态,并将其分离到一个可预测的状态容器中。 五个核心属性:state、mutations、actions、getters、modules 属性 作用 state 存放状态 (数据),所有组件共享 mutations 唯一可以修改state的地方, 改变

    2024年02月13日
    浏览(32)
  • 【GeoDa实用技巧100例】020:地学空间关联性(相关性)分析全解

    随着计算机技术在各领域广泛应用,人们可以方便地进行大规模的空间统计和空间计量工作。在这些探索过程中,人们发现,无论在政治经济领域,还是在生物地理方面,空间关联性现象是普遍存在的,且近处比远处关联性更强。托布勒将此称为地理学第一定律。 地理学第一

    2024年02月12日
    浏览(32)
  • 数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

    目录 前言 一、基本概念及二者适用范围比较 1、什么是相关性分析 2、什么是相关系数 3、适用范围比较 二、相关系数 1.皮尔逊相关系数(Pearson correlation) 1、线性检验 2、正态检验 3、求相关系数 2、斯皮尔曼相关系数(Spearman correlation) 1、秩相关系数 2、使用条件 3、求相

    2024年01月17日
    浏览(30)
  • 数学建模预测模型MATLAB代码大合集及皮尔逊相关性分析(无需调试、开源)

           选取2000-2017年x省碳排放量为训练集,2018-2022x省碳排放量作为测试集,以此来预测2023-2026年x省碳排放量。设置训练次数为 1000次,学习速率为0.2;对该训练集BP神经网络模型拟合后模型的训练样本、验 证样本和测试样本的均方误差分别是0.000012、0.0023、0.0042,整体的误

    2024年02月08日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包