强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这篇具有很好参考价值的文章主要介绍了强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这是一篇发表在NeurIPS2022的论文，文章提出了一种分组算法，旨在提高算法零样本泛化能力

1 论文背景

CTDE：集中训练分散执行，在训练阶段将所有智能体的Q值加到一起去训练，训练完了之后在执行阶段大家各自执行自己的，比较典型的有qmix算法

存在问题：泛化能力一般、协作能力一般（没有通信）

解决方案：
加入通信，结合现实生活中的现象：一个公司往往分成好几个部门，每个部门都有各自的领导，领导下发任务，该论文设计了一个自组织的分组强化学习算法（SOG），每个组内的成员只和指挥者通信，提高效率
设计了一个基于变分的通信器，提高通信效率

例子：
self organized group,强化学习,论文阅读,人工智能
背景：A、B、C同时按下按钮才可以完成任务，按钮位置固定，按钮1和2相距10m，按钮3在按钮1和2中间；
观测：局部观测视野在6m，也就是说A观测不到B按；
限制：显然CTDE框架下Qmix没法解决这个问题；
引出：设计了一种基于通信的CTDE方法解决上述问题

2 论文方法

self organized group,强化学习,论文阅读,人工智能

选出指挥者，指挥者向周围的智能体发出组队邀请；
其余智能体选取自己想要追随的指挥者，并打包发送信息给自己的指挥者;
队伍成立，指挥者给小组成员发送处理过的信息
指挥者选取方法：
随机CE：每个agent以一定概率p当指挥官
DPP-based CE：希望最大化指挥官之间的多样性，保证选取出来指挥官相关性小
PG-based CE:基于策略梯度，将指挥官的选择也视为一个强化学习任务。输入是全局状态，输出是每个agent成为指挥官的概率，用PG做梯度下降
消息传递总体规则：
分组形成后，指挥官接受组内的消息，将处理后的信息发送回分组内的成员
指挥官采用累加求平均的非参数化消息混合器处理接受到的信息
每个智能体只需要与组内的指挥官通信

3 实验效果

self organized group,强化学习,论文阅读,人工智能
文章来源地址https://www.toymoban.com/news/detail-822945.html

到了这里，关于强化学习论文阅读——自动分组Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！