激励机制中的经济学和博弈论模型(2)

这篇具有很好参考价值的文章主要介绍了激励机制中的经济学和博弈论模型(2)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文标题:Incentive Mechanisms for Federated Learning: From Economic and Game Theoretic Perspective

分类图

激励机制中的经济学和博弈论模型(2)
总体而言,分类如下:
博弈论激励:非合作游戏、stackelberg游戏、联盟游戏
拍卖激励:盲拍、前向、倒向、双拍、组合拍卖
合同理论
匹配理论

博弈论

博弈论可以为多参与者交互决策建模,其中一个参与方的决定会潜在影响另一个参与方的。在FL的背景下,参与方可以市MO和DO,我们下面简要介绍一下博弈论的激励机制,然后它们有一些可以很好的奖励FL的参与方。一些术语:

玩家:决策者,可以选择它的动作,它们会倾向让自己的收益最大化
收益:表示玩家从游戏中赚或亏的钱
策略:是一套完整的动作计划,为了到达理想的结果。这个payoff取决于多个玩家的actions
平衡:每个玩家都可以达到它们认为的最大收益,如果它们要改变策略的话它们不会有任何收益,反应了博弈的稳定性

1)非合作博弈:每个player都是自私的,只关心自己收益的最大化,不关心FL系统的整体福利。players之间是不会合作的。我们考虑FL市场中的定价作为例子。DO(卖家)可以为提供的计算资源设置价格给MO(买家)。非合作游戏可以定义为三元组G = (Pi,ui,i belongs to N)这里N表示有N个卖家,Pi是i的卖出价格,ui是对于i来说,所有玩家固定策略时的收益。

我们有如下定义:
DEF1:假设pi是玩家i的最优策略,那么(pi,…,pn*)就是一个纳什均衡,意味着没有玩家可以通过改变当前策略(其他玩家不改变)的时候提高自己的收益,用式子表示就是:激励机制中的经济学和博弈论模型(2)

这个式子表明,纳什均衡是这个游戏的稳定结果,因为卖家如果改变它们的策略并不会获得收益(单方面)。
然而,在一个游戏里面,可能会不存在NE或者存在多个NE,这就让palyer很难预测游戏的结果。因此在非合作游戏中,我们要验证NE的存在唯一性。有定理表明,唯一的NE存在当且仅当每一个player的策略空间是凸集(非空,闭集,有界)且收益函数是连续且类凹函数。

非合作博弈假设信息作为特征,player的收益函数和策略是公开的,这个就是一个完全信息游戏。然而,在实际当中,一个player可能不会太注意到其他palyer的信息,可能只知道每种类型出现的概率,这种就叫做不完全信息博弈。在FL市场中,关于DO可靠性和信誉的先验知识可以帮助分配奖励的,这些知识MO可能不知道。一个典型例子就是贝叶斯博弈,游戏的结果可以通过贝叶斯分析来预测。这个的均衡就是BNE,类似完全信息博弈的NE,当每一个player选择一个策略取最优化它们的期待收益(利用它们对其他player类型和策略的估计),BNE可以被计算出来。因为非合作博弈构建了自私players之间的冲突,FL市场中DO是竞争的然后MO的钱是有限的都可以构建为非合作博弈。这个对应的NE匀速DO有一个最优的参与策略。在FL中,这可以利用有竞争力的预测服务提供者进行计算资源交易。

2)Stackbelberg Game:
Stackelberg博弈是一个随着时序移动的博弈,在这里面,player作为leader的首先移动,然后其他player作为follwers的在观察了leader的移动之后再移动。因此,它也叫做leader-follower博弈。这个博弈的目标是建模一个多agent的决策过程,然后最大化在给定leader策略下的leader和follower的最大收益。

重新考虑一下我们有两个player,也就是计算资源的销售方。P1和P2表示两个player各自的策略。1和2都希望最大化它们的效用ui(p1,p2)。假设player 1在阶段1选择了它的策略,因此它就是一个leader。player2在阶段2选择了策略,所以他就是follower。这个关于leader和follower的共同优化问题就是Stackelberg游戏,它们的解构成了SE

DEF2:假设p1和p2分别是leader和follower的最优策略,那么(p1*,p2*)是SE当且仅当对于任意的(p1,p2)
我们有激励机制中的经济学和博弈论模型(2)

通常来说,反向推理方法经常用于求解SE。在上述的例子中,给定p1,首先我们可以让follower求解出p2*,然后对于leader而言,我们用p2替换掉p2就可以求解出p1。因为player1知道paler2知道p1作为优势,player1会强加一个对自身有利的solution。
因此,在SE中,leader的效用总是高于follwer的,这个就叫做第一个移动者的优势。对应地,当到达了SE之后,leader可以获得至少和对应NE相当地收益。这个特征使得Stakelberg博弈适合FL的激励机制的设计。例如,它可以允许followers在知道leader(MO)对CPU资源的需求或者奖励的发放后,再来决定计算资源的定价

3)联盟博弈:在合作游戏中,player之间互相合作来使得整个联盟的共同目标最优化。进一步来说,player之间签订了强制性的条款。在这情况下,palyer可以协调策略然后达成一个关于怎么分配总收益给联盟中的player的共识。联盟博弈的目标是为了寻找一个稳定的解可以保证博弈的结果是免疫于player的变更的

拍卖

拍卖是一种经济的机制,它的目的就是分配商品(例如训练数据,计算资源和带宽等),然后建立一个对应的价格通过一个叫“竞价”的过程。一个拍卖包括一个精确的规则集合,这些规则通过市场参与者的基础来决定资源的分配和价格。拍卖中有术语如下:

竞价方:竞价方就是买方,它们希望在拍卖中购买物品。在FL中,买房可能是MO或者是FL需求方
卖方:卖方给卖方提供服务或资源。在FL中,卖方通常是DO或者那些使用本地数据训练共享模型的客户
拍卖中间商:中介,决定价格和获胜方。很多情况下,卖方也担任中介。
价格:可能是asking price或者bidding price。asking price就是seller希望获得的price,然后bidding price就是buyer希望支付的price。Hammer price就是最终拍板的价格。
商品:买方和卖方要交易的东西,它对应着buyer和seller想买的价格和想卖的价格。在FL中,商品可以是一个数据单元(训练数据样例)或者是一个计算资源单元(do提供的)
价值:在拍卖中,价值就是值商品值多少钱。不同的买卖方会根据自己的偏好得到不同的价值。每个参与者心中的价值可以是私有的也可以是公开的。
效用:买方的效用是不同于商品的价值和最终的支付的。卖方的效用,也就是收益,指的是它从buyer那里获得的总支付。在FL中,buyer的效用,例如MO,可以是正比于全局模型的精确度以及反比于给DO的总支付
社会福利:指的是每个user(buyer + seller)的总效用

拍卖机制被广泛地应用在多个领域,例如无线系统地资源分配,安全数据下载,网络安全。接下来,我们介绍在FL中常用的拍卖类型

1)盲拍:不同于公开拍卖,在盲拍中,buyer提交一个隐藏的竞价给中介。对应的,没有bidder知道别人的bidding价格,也不能更换自己的价格。下面是三种类型的拍卖:

  • First-price 盲拍:谁bid的钱最多谁就是赢家,然后可以获得item
  • Second-price 盲拍(Vickrey):第二高bid的玩家才是赢家。因为胜者支付的价格比它期待的要少,所以这个协议促使buyer真实的拍卖,因此拍卖很可信。这个特征使得**这个拍卖策略在FL中常被使用,用来防止不可信节点的恶意行为
  • Vickrey-Clarke-Groves拍卖(VCG):是一个冠以的Vickrey拍卖(适用于多个商品)。在VCG里面,商品根据社会最优的行为来分配,然后胜者支付由于赢了商品造成的社会价值的丢失。这种支付规则使得bidder会根据商品之际价值正常的叫价。因此,VCG是一个可信的机制。在FL中,VCG机制可以用来激励DO来报告它们关于网络操作的真实价值,从而来最大化社会的福利。

2)前向拍卖,反向拍卖,二次拍卖:

  • 前向拍卖:多个buyer先提交bids,然后对于一个seller来说看看谁的叫价高
  • 反向拍卖:多个seller先提交asks,然后对于一个buyer来说看看谁能接受。一般来说,反向拍卖都和盲拍结合之类的。
  • 二次拍卖:在FL中,存在多个MO和DO,二次拍卖可以用来匹配供给和需求。在二次拍卖中,buyer和seller同时提供它们的bids和asks,给一个中介。中介会决定一个price p,就是交易费,为了清空市场,一般来说asks < p and bids > p。一般来说p = (pb + ps) / 2,pb是bids,ps是asks。买方接受资源,卖方获得交易费。(那消失的(pb - ps) / 2是不是被中介吞了?)这个过程一直重复,直到没有新的交易出现或者到达预计的结束时间

3)组合拍卖:在组合拍卖中,buyer的每一个bid都意味着一大串的商品。基于bid中的信息和seller中的商品容量,中介可以决定最优的分配策略获胜者。然而,解决winner对于组合拍卖是NP难问题,没有多项式解法来找到最优的分配。这里有很多算法来得到问题的近似解,例如拉格朗日估值。在FL中,组合拍卖用来分配网络操作者的带宽来掌控FL SP(service provider)

合同和匹配理论

合同和匹配理论被认为是建模关于不同类型的明知且自利的player动态和互相利益关系的两大杀器。特别地,它们可以有效地解决交易市场的高动态性,以及自利和竞争的player。下面,我们简单介绍合同和匹配理论以及FL的设计

1)合同理论:合同理论是一个经济的理论,他认为每个交易和机构都是一种合同。他在雇佣者和雇佣人的非对称信息里面经常使用(也就是说,员工的未来老板是不准确知道的)。在FL里面,因为打工仔都是自私的然后它们可能不会暴露它们的真实bids以及它们在FL中的隐私保护性质,因此存在着信息不对称。合同理论可以设计一个最优的合同来减少道德威胁,不利的选举,以及在信息不对称中的派系扭曲这个特征使得合同理论可以使用于FL中的激励机制的设计。在FL背景下,一个老板可以是一个MO它希望雇佣worker来完成FL的模型训练。同样的,一个员工(do),希望加入到FL中。一个三维的合同激励机制同时考虑任务的支出和隐私问题在70中被提出一个两阶段的基于动态合同的激励机制在71提出,来激励不同意愿的user来参加。基于个人隐私保护的合同激励72可以提供对不同隐私偏好的worker进行传统的支付(ps:这就是激励+ 隐私嘛??!!)

2)匹配理论:匹配理论的目标是最优化匹配两个不相交的agent集合(给定它们每个个体的效用下)。在通常的分配博弈模型,可能会有多个agents在matching的两端出现,然后一边的agents会和另一边的agents进行交易。因此,这种游戏叫做双边匹配。在匹配理论中,agents之间互相竞争,从而最大化它们的效用(自私程度),然后总是做那些可以增大它们效用的决定(贪心,理智)。**在FL中,这个被用来进行任务的分配,目标就是最小化系统的延迟(在多任务FL的场景下)

总结

这节介绍了经济学和博弈论模型的知识,然后提出它在FL的应用。具体的,我们介绍了定义,机制描述,合理性分析等。文章来源地址https://www.toymoban.com/news/detail-417617.html

到了这里,关于激励机制中的经济学和博弈论模型(2)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何快速掌握代币经济学

    如何研究加密世界里的Token? 先看一组数据:截至2022年,市面上大约有6000种加密货币(或者更多)。这对投资者来说当然是一个很大的机会。然而,在2021年,投资者在Crypto项目遇到欺诈,损失的金额120亿美元。因此,到底如何去表及里,看到最本质的东西, Token经济学是一个

    2024年02月02日
    浏览(42)
  • 加密经济学:Web3时代的新经济模型

    随着Web3技术的迅猛发展,我们正迈入一个全新的数字经济时代。加密经济学作为这一时代的核心,不仅在数字货币领域崭露头角,更是重新定义了传统经济模型,为我们开启了一个充满创新和机遇的新纪元。 1. 去中心化的经济体系 Web3时代,去中心化是加密经济学最引人注目

    2024年01月19日
    浏览(44)
  • 网链经济学(Comunion Economics)

    网链经济 网链经济(Comunion Economic)是一种基于互联网和区块链技术构建的数字化、网络化和在线化的创新增长经济,利用网络汇集智慧,区块链链接价值,应用各种生产力工具,聚合流动性生产要素,在网链组织范式下高效的生成创新创业企业,最终通过企业驱动经济发展。

    2024年02月03日
    浏览(41)
  • 报童模型(2)--经济学含义和应用

    大家买菜的时候有没有注意到一个很有趣的现象。当市场开放时,季节性农产品、面包和坚果充斥着餐桌和食品摊。然而,当一天的销售结束时,放草莓的桌子几乎空了,而你仍然可以在另一张桌子上看到很多的可以供选择坚果商品。 为什么会这样?草莓销售商是否可能经常

    2024年02月02日
    浏览(53)
  • 从西方经济学的角度分析,努力成本

    个人定义:在某种经济周期情况下,达成某种目标所需要花费的时间成本、脑力成本、体力成本,以及生活成本,其中包括量化的经济周期成本,经济周期包括市场容量,人才技术,行业饱和状况,经济总体发展情况等量化指标;在不同阶段,达成相同的目标所需要付出的成

    2024年02月10日
    浏览(50)
  • 分析:以太坊的合并后经济学

    简介 在9月15日网络升级之后,以太坊从工作量证明(PoW)转换为权益证明(PoS)共识机制,使网络减少了99.95%的碳足迹。 这也意味着,自合并以来,以太坊的日代币供应量已经减少。 本文将研究新的PoS以太坊网络的供需动态,以及其通缩的现实。 合并前 有很多关于以太坊在合并

    2024年02月02日
    浏览(37)
  • 关于区块链的一点经济学思考

    区块链是区块链,加密资产是加密资产,尽管二者之间的关系紧密,区块链和加密资产却不能混为一谈。区块链并不是什么新技术,如果从创新的角度来看,顶多算是一种组合创新。但是,很少有一种技术像区块链这样,让很多人趋之若鹜,不论是技术人员还是普通大众,不

    2023年04月08日
    浏览(78)
  • 【生态经济学】利用R语言进行经济学研究技术——从数据的收集与清洗、综合建模评价、数据的分析与可视化、因果推断等方面入手

    查看原文 如何快速掌握利用R语言进行经济学研究技术——从数据的收集与清洗、综合建模评价、数据的分析与可视化、因果推断等方面入手 近年来,人工智能领域已经取得突破性进展,对经济社会各个领域都产生了重大影响,结合了统计学、数据科学和计算机科学的机器学

    2024年02月12日
    浏览(52)
  • 国家开放大学《安全经济学》形成性考核册答案

    答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号 答案:更多答案,请关注【电大搜题】微信公众号     一、填空题(每题5分,共50分)  1.用海因里希方法计算事故损失时直间比取值为(               )。 2用增长

    2024年04月23日
    浏览(40)
  • R语言机器学习方法在生态经济学领域

    近年来,人工智能领域已经取得突破性进展,对经济社会各个领域都产生了重大影响,结合了统计学、数据科学和计算机科学的机器学习是人工智能的主流方向之一,目前也在飞快的融入计量经济学研究。表面上机器学习通常使用大数据,而计量经济学则通常使用较小样本,

    2024年02月11日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包