Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss

这篇具有很好参考价值的文章主要介绍了Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 Introduction

  本文建议根据样本的可学习性进行抽样,而不是从经验回放中随机抽样。如果有可能减少代理对该样本的损失,则认为该样本是可学习的。我们将可以减少样本损失的数量称为其可减少损失(ReLo)。这与Schaul等人[2016]的vanilla优先级不同,后者只是对具有高损失的样本给予高优先级,这可能会导致数据点的重复采样,而这些数据点由于噪声而无法学习。

  本文首先简要描述了当前在从缓冲区中采样时进行优先级排序的方法,然后给出了在强化学习中减少损失的直觉。
  这些实验表明,与Hessel等人[2017]中使用的Schaul等人[2016]的损失项相比,基于可减少的损失进行优先级排序是一种更鲁棒的方法,并且可以在不增加任何额外计算复杂度的情况下进行集成。

2 Background

基本概念
2.1 Experience Replay
2.2 Target Networks
2.3 Off-Policy Algorithms

3 Related Work

3.1 Reducible Loss

  优先训练在训练开始时保留训练数据的子集来训练小容量模型θho。在训练期间,这个保留模型用于 衡量一个数据点是否可以在不经过训练的情况下学习随着持有数据集的大小增加,这种估计变得更加准确。
  主模型θ和保留模型在实际训练数据上的损失之间的差异被称为可减少损失Lr,它用于小批量采样中训练数据的优先级排序

Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss
  Lr被认为通过对数据点的训练来衡量信息的增益

3.2 Prioritization Schemes

  Sinha-2020 提出了一种在当前策略平稳分布下,基于经验的似然度重新加权的方法,以保证重复可见状态值函数的近似误差较小
  Lahire-2021介绍了大批量经验回放(LaBER),通过采用 an importance sampling view(重要性采样视图)来估计梯度,以克服PER的优先级过时及其超参数敏感性的问题。LaBER首先从回放缓冲区中采样一个大批次,然后计算梯度范数,最后按优先级向下采样到一个较小大小的小批次。
  Kumar-2020提出了分布校正(DisCor),这是一种纠正反馈形式,可以使学习动态更加稳定。DisCor计算最优分布并执行加权Bellman更新以重新加权重放缓冲区中的数据分布
  受DisCor的启发, 后悔最小化经验重放(remn)-2021用an error network(误差网络)估计Q值的次优性。
  拓扑经验回放(TER)-2022将智能体的experience组织成a graph(图),该图跟踪状态q值之间的依赖性。

4 Reducible Loss for Reinforcement Learning

  受监督学习中优先训练的激励,我们提出了一种针对强化学习问题的优先排序方案,即智能体应该专注于具有更高的可减少TD误差的样本,而不是根据TD误差进行优先级排序,。这意味着,我们应该使用TD误差可以减少多少的度量,而不是TD误差

这意味着算法可以避免重复采样agent无法学习的点,并且可以专注于最小化可学习点的误差,从而提高样本效率

  为了确定样本的学习能力,我们需要了解样本的目标是如何表现的,以及它是如何随时间变化的。

  强化学习中的训练数据是由变化的策略生成的。因此,holdout model需要不时地更新。因此,在基于Q学习的强化学习方法中,hold-out模型的一个很好的代理是Eq. 8中Bellman更新中使用的目标网络:
Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss
  由于目标网络仅使用在线模型参数定期更新,因此它保留了代理在使用过时策略训练的旧数据上的性能。目标网络可以很容易地用作 没有在新样本上训练的hold-out model 的近似值。

  因此,我们将RL的可还原损失(ReLo)定义为数据点相对于在线网络(参数θ)和相对于目标网络(参数¯θ)的损失之差。
Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss

  • 与PER相比相似之处,优先级方案在低优先级点的采样行为上
    对于PER:不重要的数据点具有较低的Lθ,在ReLo中也将保持不重要。
    因为如果Lθ很低,那么根据上述公式,ReLo也会很低。
    这确保了我们保留了PER的理想行为,即不重复采样已经学习过的点
  • 不同之处在于存在较大的TD误差的采样点:
    对于PER,如果由于转换本身的固有噪声,一个数据点可能具有很高的TD误差,即使在采样多次之后仍然保持很高,但它仍然具有较高的PER优先级。
    但是它的优先级应该降低,因为可能有其他数据点更值得采样,因为它们有有用的信息,可以更快地学习。
    对于ReLo:这样一个点会很低,因为Lθ和Lθ¯都很高
    如果一个数据点被遗忘,那么Lθ将高于Lθ¯,并且ReLo将确保这些点被重新访问。

4.1 Implementation

  我们应该为ReLo error创建一个映射fmap,它对所有值都是单调递增且非负的

当目标网络与主网络通过硬更新进行更新时,该值可以归零。然而,在一次更新之后,它很快变成非零

  在实践中,我们发现将负值裁剪为零通过添加一个小参数来确保样本有最小概率:
Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss

  • 由于不需要任何额外的训练,ReLo在计算上并不昂贵。它只涉及通过目标网络的状态的一个额外的前向传递
    对于ReLo,唯一需要计算的附加项: Qtgt(st, at)计算Lθ¯。
  • ReLo也没有引入任何额外的超参数
  • ReLo不一定依赖于确切的损失公式;只需要额外计算关于目标网络参数¯θ的Lalg。

如果损失只是均方误差,那么ReLo可以被简化,可以用Qθ和Qθ¯的差来表示。
但对非策略Q学习方法的其他扩展修改了这一目标,例如分布式学习Bellemare等人[2017]最小化KL散度,但不能以相同的方式简化两个KL散度之间的差异。
为了使ReLo成为一种可以跨这些方法使用的通用技术,我们用Lθ和Lθ¯来定义它。

Algorithm 1

Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss文章来源地址https://www.toymoban.com/news/detail-447943.html

到了这里,关于Jan 2023-Prioritizing Samples in Reinforcement Learning with Reducible Loss的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Reinforcement Learning with Code 【Code 2. Tabular Sarsa】

    This note records how the author begin to learn RL. Both theoretical understanding and code practice are presented. Many material are referenced such as ZhaoShiyu’s Mathematical Foundation of Reinforcement Learning . This code refers to Mofan’s reinforcement learning course . Please consider the problem that a little mouse (denoted by red block) wants to

    2024年02月14日
    浏览(41)
  • Auto-Tuning with Reinforcement Learning for Permissioned Blockchain Systems

    在一个允许的区块链中,性能决定了它的发展,而发展很大程度上受其参数的影响。然而,由于分布式参数带来的困难,关于自动调优以获得更好性能的研究已经有些停滞;因此,很难提出有效的自动调整优化方案。为了缓解这一问题,我们首先探索了Hyperledger Fabric(一种许可

    2024年02月02日
    浏览(48)
  • 论文笔记|Not All Tasks Are Equally Difficult MultiTask Reinforcement Learning with Dynamic Depth Routing

    AAAI24 多任务强化学习致力于用单一策略完成一组不同的任务。为了通过跨多个任务共享参数来提高数据效率,常见的做法是将网络分割成不同的模块,并训练路由网络将这些模块重新组合成特定于任务的策略。然而,现有的路由方法对所有任务采用固定数量的模块,忽略了具

    2024年01月19日
    浏览(38)
  • 论文阅读06-Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning

    标题:Task Offloading Optimization in Mobile Edge Computing based on Deep Reinforcement Learning 会议:MSWiM ’23 (CCF-C) 注:本文仅用户学习。 问题:边缘计算可以很好地缓解云计算网络拥塞和高通信开销等问题。然而,考虑到边缘计算资源是有限的,需要采用合理的优化策略提高首先资源的

    2024年02月21日
    浏览(51)
  • Transfer learning in computer vision with TensorFlow Hu

    作者:禅与计算机程序设计艺术 Transfer learning is a machine learning technique that allows a model to learn new knowledge from an existing trained model on a similar task. Transfer learning can be useful for a variety of tasks such as image classification, object detection, and speech recognition. However, transfer learning has its own set of c

    2024年02月07日
    浏览(47)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(88)
  • 机器学习算法(三十):强化学习(Reinforcement Learning)

    目录 1 简介  1.1 什么是强化学习 1.2 强化学习的主要特点 1.3 强化学习的组成部分 2 强化学习训练过程  3 强化学习算法归类 3.1 Value Based 3.2 Policy Based 3.3 Actor-Critic 3.4 其他分类 4 EE(Explore Exploit)探索与利用 5 强化学习实际开展中的难点 6 强化学习的实际应用 6.1 自动驾驶

    2024年02月02日
    浏览(51)
  • 深度学习3. 强化学习-Reinforcement learning | RL

    强化学习是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 目录 什么是强化学习? 强化学习的应用场景 强化学习的主流算法 强化学习(reinforcement learning) 强化学习并不是某一种

    2024年02月11日
    浏览(38)
  • 【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)

    机器学习主要分为三类:有监督学习、无监督学习和强化学习。在本文中,我们将介绍强化学习(Reinforcement Learning)的原理、常见算法和应用领域。 强化学习(Reinforcement Learning)是机器学习中一种重要的学习范式,其目标是通过与环境的交互来学习如何做出最优的决策。 强化

    2024年02月14日
    浏览(50)
  • 论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

    摘要 在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略,而无需进一步的交互。然而,在实际应用中,离线RL是一个主要的挑战,标准的离线RL方法可能会由于数据集和学习到的策略之

    2024年04月17日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包