论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

这篇具有很好参考价值的文章主要介绍了论文阅读--Conservative Q-Learning for Offline Reinforcement Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略,而无需进一步的交互。然而,在实际应用中,离线RL是一个主要的挑战,标准的离线RL方法可能会由于数据集和学习到的策略之间的分布偏移而导致的过高估计,特别是在复杂和多模态数据分布上的训练时。在本文中,我们提出了保守Q学习( CQL ),旨在通过学习一个保守的Q函数来解决这些限制,使得一个策略在这个Q函数下的期望值低于其真实值。我们从理论上证明了CQL对现行策略的价值产生了一个下界,可以将其纳入到一个具有理论改进保证的政策学习过程中。在实际应用中,CQL通过一个简单的Q值正则化器来增强标准的贝尔曼错误目标,该正则化器在现有的深度Q学习和行动者-评论家实现的基础上更易于实现。在离散和连续控制域上,我们都表明CQL显著优于现有的离线强化学习方法,通常学习策略可以获得2 ~ 5倍的最终回报,特别是在从复杂和多模态数据分布中学习时。

论文概述

本文主要介绍了一个名为Conservative Q-Learning (CQL)的离线强化学习算法,该算法旨在克服现有离线强化学习算法在数据分布与学习策略之间存在差异时可能导致的过度估计问题。CQL通过学习一个保守的Q函数来解决这个问题,从而为离线强化学习提供了一种有效的解决方案。此外,本文还讨论了CQL的理论性质以及在各种控制领域的实验表现。

The Conservative Q-Learning (CQL) Framework(保守Q学习( Cql )框架)

保守离策略评估:

理论分析表明,CQL通过在训练过程中正则化Q值来学习一个保守的Q函数,使得该Q函数下界估计策略的真实值。

保守Q学习在离线RL中的应用:

通过将CQL应用于离线RL,可以从之前收集的静态数据集中学习有效策略,而无需进一步与环境互动。

保守策略改进保证:

理论分析证明,CQL生成的策略更新在优化过程中是“保守”的,意味着每个后续策略迭代都是根据其值的下界估计进行优化的。

实际算法和实现细节:

实际上,CQL可以通过在现有的深度Q学习和actor-critic实现上添加CQL正则化项来实现,代码量少于20行。

实验评估:

在多个领域和数据集组成上,CQL在离线RL方法方面表现优越,尤其是在学习复杂多模态数据分布时。CQL经常比现有的离线RL方法学到的策略获得2-5倍的最终回报。

  • Conservative Off-Policy Evaluation

在这部分中,作者讨论了如何通过在训练过程中对Q值进行正则化来学习保守的Q函数。这个保守的Q函数的期望值在给定策略下能够下界估计真实的策略值。作者的理论分析表明,CQL产生的值是当前策略的下界,并且可以将其纳入一个具有理论改进保证的策略学习过程中。

  • Conservative Q-Learning for Offline RL

在这部分中,作者讨论了CQL家族中的两个特殊实例,并在第6节中进行了实证评估。首先,如果R(µ)是与先验分布ρ(a|s)的KL散度,即R(µ) = -D_KL(µ, ρ),那么我们得到µ(a|s)∝ρ(a|s)·exp(Q(s, a))(请参考附录A中的推导)。此外,作者还讨论了CQL的实证性能以及与其他离线RL方法的比较。

  • Safe Policy Improvement Guarantees

在这部分中,作者定义了任何策略π的经验回报,然后证明了CQL优化了一个带有惩罚的RL经验目标。接下来,作者构建了CQL的安全策略改进保证,证明了CQL在实际MDP中提供了ζ安全的策略改进。最后,作者讨论了CQL在不同场景下的实证性能以及与其他离线RL方法的比较。文章来源地址https://www.toymoban.com/news/detail-854766.html

实用算法及实现细节

  1. 算法:CQL可以作为Q-learning算法(使用B * 而不是B π 在方程3,4中)或作为actor-critic算法。实际上,CQL通过在标准Bellman误差目标中添加一个简单的Q值正则化器来实现,这在现有的深度Q学习和actor-critic实现上很容易实现。
  2. 实现细节:CQL的实现只需在现有的软actor-critic(SAC)实现的基础上添加20行代码,以及在QR-DQN实现的基础上添加20行代码。权衡因子α通过Lagrangian对偶梯度下降进行自动调整,对于离散控制,α固定在附录F中描述的常数值。
  3. 超参数设置:除了策略学习率选择为3e-5(与Q函数的学习率相比,后者为3e-4或1e-4)之外,其他超参数与SAC相同。
  4. CQL变体:CQL可以实例化为不同的优化问题,例如CQL(H)和CQL(ρ)。实验证明,CQL在不同的任务上表现出色,尤其是在学习复杂和多模态数据分布时,往往比现有的离线RL方法高出2倍至5倍的最终回报。

到了这里,关于论文阅读--Conservative Q-Learning for Offline Reinforcement Learning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Cache-Aided MEC for IoT: Resource Allocation Using Deep Graph Reinforcement Learning》阅读笔记

    MEC使能的IoT能够解决物联网中时延敏感/计算敏感服务的需要 提出cache-aided MEC卸载框架,允许用户将计算任务卸载到边缘服务器上。 该框架的目标是最小化计算卸载和资源分类配的系统时延,将系统建模为部分可观测马尔可夫过程的多智能体决策问题。 提出基于深度图卷积强

    2024年02月02日
    浏览(45)
  • 论文阅读06-Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning

    标题:Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning 会议:MSWiM ’23 (CCF-C) 注:本文仅用户学习。 问题:边缘计算可以很好地缓解云计算网络拥塞和高通信开销等问题。然而,考虑到边缘计算资源是有限的,需要采用合理的优化策略提高首先资源的

    2024年02月21日
    浏览(53)
  • 【论文阅读——Profit Allocation for Federated Learning】

    由于更为严格的数据管理法规,如《通用数据保护条例》(GDPR),传统的机器学习服务生产模式正在转向联邦学习这一范式。联邦学习允许多个数据提供者在其本地保留数据的同时,协作训练一个共享模型。推动联邦学习实际应用的关键在于如何将联合模型产生的利润公平地

    2024年04月13日
    浏览(52)
  • 【论文阅读】Equivariant Contrastive Learning for Sequential Recommendation

    2023-RecSys https://github.com/Tokkiu/ECL 对比学习(CL)有利于对具有信息性自我监督信号的顺序推荐模型的训练。 现有的解决方案应用一般的顺序数据增强策略来生成正对,并鼓励它们的表示是不变的。 然而,由于用户行为序列的固有属性,一些增强策略,如项目替代,可能会导致

    2024年01月18日
    浏览(45)
  • Learning Sample Relationship for Exposure Correction 论文阅读笔记

    这是中科大发表在CVPR2023的一篇论文,提出了一个module和一个损失项,能够提高现有exposure correction网络的性能。这已经是最近第三次看到这种论文了,前两篇分别是CVPR2022的ENC(和这篇文章是同一个一作作者)和CVPR2023的SKF,都是类似即插即用地提出一些模块来提高现有方法的

    2024年02月07日
    浏览(54)
  • 材料论文阅读/中文记录:Scaling deep learning for materials discovery

    Merchant A, Batzner S, Schoenholz S S, et al. Scaling deep learning for materials discovery[J]. Nature, 2023: 1-6. 全文速览 这篇文章主要讲了一种名为 GNoME 的 材料发现框架 。该框架利用机器学习和高通量计算方法,通过预测材料的稳定性和性质,加速新材料的发现。文章介绍了GNoME的 工作原理和方

    2024年02月02日
    浏览(63)
  • 论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

    论文十问十答: Q1论文试图解决什么问题? 多标签文本分类问题 Q2这是否是一个新的问题? 不是 Q3这篇文章要验证一个什么科学假设? 因为文本标签越多,分类就越难,所以就将文本类型进行分层分类,这样就可以加大文本分类的准确度。 Q4有哪些相关研究?如何归类?谁

    2023年04月09日
    浏览(43)
  • 论文阅读:Heterogeneous Graph Contrastive Learning for Recommendation(WSDM ’23)

    论文链接 在推荐系统中,图神经网络在建模图结构数据上已经变成一个强有力的工具。但是现实生活的推荐语义通常涉及异质关系(像用户的社交关系,物品知识关系的依赖),这些都包含丰富的语义信息去提升表征能力的学习。同时,对比自监督学习在推荐系统中也取得了

    2024年02月08日
    浏览(49)
  • Generative Cooperative Learning for Unsupervised Video Anomaly Detection 论文阅读

    文章信息: 发表于:CVPR 2022 原文链接:https://openaccess.thecvf.com/content/CVPR2022/papers/Zaheer_Generative_Cooperative_Learning_for_Unsupervised_Video_Anomaly_Detection_CVPR_2022_paper.pdf 视频异常检测在弱监督和单类别分类(OCC)设置下已经得到很好的研究。然而,无监督视频异常检测方法相对较少,可

    2024年01月25日
    浏览(59)
  • Benchmarking Augmentation Methods for Learning Robust Navigation Agents 论文阅读

    题目 :Benchmarking Augmentation Methods for Learning Robust Navigation Agents: the Winning Entry of the 2021 iGibson Challenge 作者 :Naoki Yokoyama, Qian Luo 来源 :arXiv 时间 :2022 深度强化学习和可扩展的真实感模拟的最新进展使得用于各种视觉任务(包括导航)的具体人工智能日益成熟。然而,虽然在

    2024年02月14日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包