Deep Reinforcement Learning + Potential Game + Vehicular Edge Computing

这篇具有很好参考价值的文章主要介绍了Deep Reinforcement Learning + Potential Game + Vehicular Edge Computing。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

文献 [1] 采用deep reinforcement learning和potential game研究vehicular edge computing场景下的任务卸载和资源优化分配策略

文献[2] 采用potential game设计车载边缘计算信道分配方法。

Exact potential game介绍

Exact potential game(简称EPG)是一个多人博弈理论中的概念。在EPG中,每个玩家的策略选择会影响到博弈的全局效用函数值,而且博弈的全局效用函数值可以表示为各个玩家效用函数的加和。此外,对于任意一位玩家而言,其任意两个策略选择下的效用差值可以表示为另外一位玩家某个特定策略选择下的效用差值的加和。这个特殊的性质被称为精确潜势作用(exact potential function),因此这种博弈被称为精确潜势博弈。

EPG在博弈理论和应用中有广泛的应用,例如交通流量、能源市场和通信网络中的资源分配问题等。因为它具有特殊的性质,即每个玩家的策略选择可以通过求解一个单独的优化问题来实现全局最优解。因此,EPG具有很好的可解性和收敛性。

Exact potential game证明

要证明一个精确潜势博弈存在纳什均衡点,可以通过以下步骤进行:

  1. 定义博弈的玩家集合和每个玩家的策略集合。
  2. 定义博弈的全局效用函数,使其能够表示为各个玩家效用函数的加和。
  3. 针对任意一位玩家,证明其效用函数满足精确潜势作用的性质,即任意两个策略选择下的效用差值可以表示为另外一位玩家某个特定策略选择下的效用差值的加和。
  4. 利用精确潜势作用的性质,构造一个最小化全局效用函数的优化问题,该问题的解即为精确潜势博弈的纳什均衡点。
  5. 证明该优化问题满足凸性和紧致性条件,从而保证优化问题有解。

以下是一个简单的例子来证明精确潜势博弈的存在性和可解性:

考虑一个由两个玩家A和B组成的博弈,每个玩家都有两个策略可以选择:策略1和策略2。其效用函数如下所示:

  • 玩家A的效用函数:如果A选择策略1,则其效用为0;如果A选择策略2,则其效用为1,除非B也选择了策略2,则A的效用为2。
  • 玩家B的效用函数:如果B选择策略1,则其效用为0;如果B选择策略2,则其效用为1,除非A也选择了策略2,则B的效用为2。

博弈的全局效用函数为各个玩家效用函数的加和。

接下来,我们验证该博弈是否是一个精确潜势博弈。对于玩家A而言,考虑其两个策略选择下的效用差值:若A选择策略1,则其效用差为0;若A选择策略2,则其效用差为1或2,取决于B的策略选择。如果B选择了策略1,则A的效用差为1;如果B选择了策略2,则A的效用差为2。因此,我们可以将A的效用差表示为B选择策略1时的效用差加上B选择策略2时的效用差,即A的效用差值满足精确潜势作用的性质。

同样地,对于玩家B而言,也可以验证其效用差值满足精确潜。

考虑一个具有三个玩家的EPG,其中每个玩家的策略集合为{a,b,c}。每个玩家的效用函数如下所示:

  • 玩家1:u1(a,b,c) = (a-b)^2 + (a-c)^2
  • 玩家2:u2(a,b,c) = (b-a)^2 + (b-c)^2
  • 玩家3:u3(a,b,c) = (c-a)^2 + (c-b)^2

可以验证,此EPG具有精确潜势作用的性质。为了找到纳什均衡点,需要构造一个优化问题,使得每个玩家的策略选择都是其效用函数的最小值。由于该EPG具有精确潜势作用的性质,这个优化问题可以表示为:

min (a-b)^2 + (a-c)^2 + (b-a)^2 + (b-c)^2 + (c-a)^2 + (c-b)^2

对于此问题,其最小值可以通过求解每个变量的一阶导数为0的方程组得到。解得a=b=c,即所有玩家选择同一策略的情况为纳什均衡点。因此,此EPG存在纳什均衡点,并且其纳什均衡点是全局最优解。

参考文献:

[1] Xu X, Liu K, Dai P, et al. Joint task offloading and resource optimization in NOMA-based vehicular edge computing: A game-theoretic DRL approach[J]. Journal of Systems Architecture, 2023, 134: 102780.(附有代码:https://github.com/neardws/Game-Theoretic-Deep-Reinforcement-Learning)

[2] 许新操, 刘凯, 刘春晖, 等. 基于势博弈的车载边缘计算信道分配方法[J]. 电子学报, 2021, 49(5): 851.(附有代码:GitHub - neardws/Incentive-based-Probability-Update-and-Strategy-Selection: Code of Paper "Potential Game Based Channel Allocation for Vehicular Edge Computing (基于势博弈的车载边缘计算信道分配方法)", 电子学报2021.)文章来源地址https://www.toymoban.com/news/detail-416164.html

到了这里,关于Deep Reinforcement Learning + Potential Game + Vehicular Edge Computing的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 商简智能学术成果|基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)

    商简智能学术成果|基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)

    获取更多资讯,赶快关注上面的公众号吧!   本篇论文作为商简智能的最新研究成果,发表于运筹学顶刊《INFORMS JOURNAL ON APPLIED ANALYTICS》, 首次将深度强化学习落地于大规模制造调度场景 ,该先进排程项目入围国际运筹学权威机构 INFORMS运筹学应用最高奖——Franz Edelman

    2024年02月09日
    浏览(22)
  • 机器学习算法(三十):强化学习(Reinforcement Learning)

    机器学习算法(三十):强化学习(Reinforcement Learning)

    目录 1 简介  1.1 什么是强化学习 1.2 强化学习的主要特点 1.3 强化学习的组成部分 2 强化学习训练过程  3 强化学习算法归类 3.1 Value Based 3.2 Policy Based 3.3 Actor-Critic 3.4 其他分类 4 EE(Explore Exploit)探索与利用 5 强化学习实际开展中的难点 6 强化学习的实际应用 6.1 自动驾驶

    2024年02月02日
    浏览(10)
  • 深度学习3. 强化学习-Reinforcement learning | RL

    深度学习3. 强化学习-Reinforcement learning | RL

    强化学习是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 目录 什么是强化学习? 强化学习的应用场景 强化学习的主流算法 强化学习(reinforcement learning) 强化学习并不是某一种

    2024年02月11日
    浏览(6)
  • 论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

    摘要 在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略,而无需进一步的交互。然而,在实际应用中,离线RL是一个主要的挑战,标准的离线RL方法可能会由于数据集和学习到的策略之

    2024年04月17日
    浏览(9)
  • 【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)

    【Machine Learning 系列】一文带你详解什么是强化学习(Reinforcement Learning)

    机器学习主要分为三类:有监督学习、无监督学习和强化学习。在本文中,我们将介绍强化学习(Reinforcement Learning)的原理、常见算法和应用领域。 强化学习(Reinforcement Learning)是机器学习中一种重要的学习范式,其目标是通过与环境的交互来学习如何做出最优的决策。 强化

    2024年02月14日
    浏览(9)
  • Reinforcement Learning with Code 【Code 1. Tabular Q-learning】

    Reinforcement Learning with Code 【Code 1. Tabular Q-learning】

    This note records how the author begin to learn RL. Both theoretical understanding and code practice are presented. Many material are referenced such as ZhaoShiyu’s Mathematical Foundation of Reinforcement Learning . This code refers to Mofan’s reinforcement learning course . Please consider the problem that a little mouse (denoted by red block) wants to

    2024年02月14日
    浏览(13)
  • 将 reinforcement learning 应用于智能语音识别高级优化

    作者:禅与计算机程序设计艺术 近年来,随着人工智能技术的快速发展,语音识别技术在智能助手、智能家居等领域应用广泛。然而,传统的语音识别技术在处理复杂语音场景、识别准确率等方面存在一定的局限性。为此, reinforcement learning(强化学习)技术被引入到语音识

    2024年02月08日
    浏览(8)
  • 《Reinforcement Learning: An Introduction》第6章笔记

    《Reinforcement Learning: An Introduction》第6章笔记

    If one had to identify one idea as central and novel to reinforcement learning, it would undoubtedly be temporal-difference (TD) learning. 时序差分学习(temporal-difference (TD) learning)组合了Monte Carlo和DP的思想;它像Monte Carlo方法一样不需要环境动态模型,可以直接从经验中学习;它像DP方法一样是自举(boo

    2024年02月10日
    浏览(11)
  • AIpowered Quantum Chess With Reinforcement Learning: Is

    作者:禅与计算机程序设计艺术 Quantum chess is one of the most exciting and promising topics in computer science today. We may think that quantum mechanics will revolutionize our understanding of nature but it hasn\\\'t happened yet. The field of quantum chess is still very young and researchers are trying to develop new algorithms and techniques f

    2024年02月07日
    浏览(11)
  • 【论文笔记】Skill-based Meta Reinforcement Learning

    【论文笔记】Skill-based Meta Reinforcement Learning

    研究背景。 While deep reinforcement learning methods have shown impressive results in robot learning, their sample inefficiency makes the learning of complex , long-horizon behaviors with real robot systems infeasible. 虽然深度强化学习方法在机器人学习中表现出色,但它们的样本效率使得在真实机器人系统中学习复杂、

    2024年02月12日
    浏览(9)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包