强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这篇具有很好参考价值的文章主要介绍了强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力

1 论文背景

CTDE:集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己的,比较典型的有qmix算法

存在问题:泛化能力一般、协作能力一般(没有通信)

解决方案:
加入通信,结合现实生活中的现象:一个公司往往分成好几个部门,每个部门都有各自的领导,领导下发任务,该论文设计了一个自组织的分组强化学习算法(SOG),每个组内的成员只和指挥者通信,提高效率
设计了一个基于变分的通信器,提高通信效率

例子:
self organized group,强化学习,论文阅读,人工智能
背景:A、B、C同时按下按钮才可以完成任务,按钮位置固定,按钮1和2相距10m,按钮3在按钮1和2中间;
观测:局部观测视野在6m,也就是说A观测不到B按;
限制:显然CTDE框架下Qmix没法解决这个问题;
引出:设计了一种基于通信的CTDE方法解决上述问题

2 论文方法

self organized group,强化学习,论文阅读,人工智能

  • 选出指挥者,指挥者向周围的智能体发出组队邀请;
  • 其余智能体选取自己想要追随的指挥者,并打包发送信息给自己的指挥者;
  • 队伍成立,指挥者给小组成员发送处理过的信息
    指挥者选取方法:
  • 随机CE:每个agent以一定概率p当指挥官
  • DPP-based CE:希望最大化指挥官之间的多样性,保证选取出来指挥官相关性小
  • PG-based CE:基于策略梯度,将指挥官的选择也视为一个强化学习任务。输入是全局状态,输出是每个agent成为指挥官的概率,用PG做梯度下降
    消息传递总体规则:
  • 分组形成后,指挥官接受组内的消息,将处理后的信息发送回分组内的成员
  • 指挥官采用累加求平均的非参数化消息混合器处理接受到的信息
    每个智能体只需要与组内的指挥官通信
    self organized group,强化学习,论文阅读,人工智能
3 实验效果

self organized group,强化学习,论文阅读,人工智能
self organized group,强化学习,论文阅读,人工智能文章来源地址https://www.toymoban.com/news/detail-822945.html

到了这里,关于强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 图像处理之《寻找和隐藏:通过深度强化学习的对抗隐写术》论文阅读

    一、文章摘要 图像隐写术的目的是将一个完整大小的图像(称为秘密)隐藏到另一个图像(称为封面)中。以往的图像隐写算法只能在一个封面中隐藏一个秘密。在这篇论文中, 我们提出了一个自适应局部图像隐写(AdaSteg)系统,允许缩放和位置自适应图像隐写 。该系统通过在局部

    2024年03月14日
    浏览(54)
  • 【论文阅读】Self-Paced Curriculum Learning

    论文下载 代码 Supplementary Materials bib: Curriculum learning (CL) or self-paced learning (SPL) represents a recently proposed learning regime inspired by the learning process of humans and animals that gradually proceeds from easy to more complex samples in training. The two methods share a similar conceptual learning paradigm, but differ in specific

    2024年02月03日
    浏览(46)
  • 论文阅读:SERE: Exploring Feature Self-relation for Self-supervised Transformer

    Self-supervised 学习目的是在无人工标注的情况下通过自定制的任务(hand-crafted pretext tasks)学习丰富的表示。 使用 自监督学习 为卷积网络(CNN)学习表示已经被验证对视觉任务有效。作为CNN的一种替代方案, 视觉变换器 (ViT)具有强大的表示能力,具有 空间自注意力和通道

    2024年02月09日
    浏览(50)
  • 【论文阅读】Self-supervised Learning: Generative or Contrastive

    研究了在计算机视觉、自然语言处理和图形学习中用于表示的新的自监督学习方法。全面回顾了现有的实证方法,并根据其目的将其归纳为三大类:生成性、对比性和生成性对比(对抗性)。进一步收集了关于自我监督学习的相关理论分析,以对自我监督学习为什么有效提供

    2024年01月18日
    浏览(56)
  • 论文阅读 Self-Supervised Burst Super-Resolution

    这是一篇 ICCV 2023 的文章,主要介绍的是用自监督的方式进行多帧超分的学习 Abstract 这篇文章介绍了一种基于自监督的学习方式来进行多帧超分的任务,这种方法只需要原始的带噪的低分辨率的图。它不需要利用模拟退化的方法来构造数据,而且模拟退化的方法又可能存在域

    2024年01月18日
    浏览(57)
  • 【论文阅读 CIDR17】Self-Driving Database Management Systems

    MySummary 之前的advisory tools来帮助DBA处理系统调优和物理设计的各个方面,都仍然需要人类对数据库的任何更改做出最终决定,并且是在问题发生后修复问题的反动措施reactionary measures 。 An truly “self-driving” database management system (DBMS)是针对autonomous operation(自主操作)设计的全新

    2024年01月18日
    浏览(45)
  • 【论文阅读】Digging Into Self-Supervised Monocular Depth Estimation

    论文:https://arxiv.org/pdf/1806.01260.pdf 代码:https://github.com/nianticlabs/monodepth2 A: 这篇论文试图解决的问题是如何提高仅使用单目图像进行深度估计的性能。具体来说,它关注的是如何在没有像素级地面真实深度数据的情况下,通过自监督学习方法训练模型来生成高质量的深度图。

    2024年04月17日
    浏览(45)
  • [论文阅读]Self-Supervised Learning for Videos: A Survey

    Schiappa, M. C., Rawat, Y. S., Shah, M. (2023). Self-Supervised Learning for Videos: A Survey. ACM Comput. Surv., 55(13s), 1–37. https://doi.org/10.1145/3577925 论文中文名称:视频的自监督学习综述 摘要: 深度学习在各个领域取得的显著成功依赖于大规模标注数据集的可用性。然而,获取标注是昂贵且需要巨

    2024年01月17日
    浏览(57)
  • 【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

    一篇CVPR2022上的论文,用于弱监督分割 Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation https://github.com/chenqi1126/SIPE https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf 现

    2024年02月11日
    浏览(40)
  • 【论文阅读 SIGMOD18】Query-based Workload Forecasting for Self-Driving

    My Summary Autonomous DBMS的第一步就是能够建模并预测工作负载,以前的预测技术对查询的资源利用率进行建模。然而,当数据库的物理设计和硬件资源发生变化时,这些指标会发生变化,从而使以前的预测模型无用。 提出了QueryBot 5000的具有鲁棒性的预测框架,它允许DBMS根据历

    2024年01月21日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包