【数学建模】为什么存在最优策略?

这篇具有很好参考价值的文章主要介绍了【数学建模】为什么存在最优策略?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、说明

        在进行优化回归过程,首先要看看是否存在最优策略?

        在有限马尔可夫决策过程 (MDP) 中,最优策略被定义为同时最大化所有状态值的策略¹。换句话说,如果存在最优策略,则最大化状态 值的策略与最大化状态 值的策略相同² 但为什么要有这样的政策呢?

        萨顿和巴托关于强化学习的著名入门书¹认为最优策略的存在是理所当然的,而这个问题没有得到解答。我很难相信他们并能够继续阅读!

        在本文中,我将证明有限 MDP ³ 中存在最优策略。

二、符号和定义

2.1 马尔可夫决策过程和政策

        有限 MDP 的特征在于一组有限的状态(通常用曲线 S 表示),每个状态的一组有限动作(通常用曲线 A 表示),以及立即奖励值 和下一个状态 s' 的概率分布,给定当前状态 s 和当前选择的动作 a,表示为 p(s', r|s,a)。

        给定当前状态 s,策略π是状态 s 上可能操作的概率分布,表示为 π(a|s)。 然后,给定一个策略,代理可以在环境中导航(即从一个状态转到另一个状态)并通过每个转换获得奖励。

        我们用大写字母显示随机变量,用小写字母显示它们的值。时间用下标添加到每个变量中。然后,给定策略和 MDP,并给定初始状态(时间 t=1s,对于任何 T > 1,状态、操作和奖励值的联合分布为

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

  

2.2 值和贝尔曼方程

        给定策略π和折扣因子 0 ≤ γ < 1,每个状态的值定义为

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        以及每对状态和操作的值为

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        很容易证明状态和动作-状态对的值可以用递归方式编写

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        这些方程组被称为贝尔曼方程。

        我们稍后将使用以下事实:

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习
等式 1.作为函数状态操作值的状态值。

  

2.3 最佳策略

        策略π*是最佳策略,当且仅当我们有

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        对于任何状态和任何其他策略π。

三、贝尔曼最优性方程

        我们用曲线 S 显示所有可能状态的集合,用曲线 A 显示状态 s 处所有可能动作的集合。我们用δ表示克罗内克三角洲,并用以下定理开始本节。

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        证明注释:我们在证明的第一行中使用了方程 1,然后反复使用了状态和动作对的值 (s*, a*) 大于或等于状态 s* 的值的事实。

        定理 1 指出,就策略π而言,只要有一对状态和操作 (s*, a*) 的值大于状态 s* 的值,那么就所有状态而言,就会有另一个策略π优于或等于(就状态值而言)π。因此,如果存在最优策略 π*,则对于任何状态 s,其值应满足

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习
  等式 2.贝尔曼最优方程的紧凑形式。

                

        其中弯曲的 A(s) 代表状态 s 处所有可能动作的集合——人们可以很容易地通过矛盾来证明这个陈述。 使用贝尔曼方程,我们可以将方程2展开为:

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习
等式 3.贝尔曼最优性方程的展开形式。

        这组非线性方程(与状态数一样多)被称为“贝尔曼最优方程”。因此,如果存在最优策略,则其值应满足这组方程⁴。

        因此,要证明最优策略的存在,必须证明以下两个陈述:

  1. 贝尔曼最优方程的集合有解,并且
  2. 其其中一个解决方案的值大于或等于所有状态下其他解决方案的值。

四、解决方案的存在和独特性

在本节中,我们证明了贝尔曼最优方程的集合具有唯一的解。通过这样做,我们同时证明了上述两个陈述。

4.1 贝尔曼最优运算符

        给定一组状态上的值,我们将值的向量定义为

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        它只是一个实值向量,其元素等于不同状态的值。然后,我们将“贝尔曼最优算子”T定义为映射

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        运算符 T 获取一个值向量并将其映射到另一个值向量。使用这种新符号,很容易看出等式 2 和 3 等价于

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习
等式 4.贝尔曼最优性方程作为贝尔曼最优性算子的不动点。

        这一观察意味着贝尔曼最优性方程的解与贝尔曼最优性算子的不动点s 相同。因此,为了证明贝尔曼最优方程解的存在性和唯一性,可以证明贝尔曼最优性算子具有唯一的不动点。

        为此,我们需要引入另一个概念和另一个定理。

4.2 收缩映射和巴拿赫不动点定理

        考虑一个度量空间 (M,d),即 M 是一个集合,d 是在此集合上定义的度量,用于计算 M ⁵ 中每两个元素的距离。 映射 T:M → M 是一个收缩映射,如果存在 0 ≤ k < 1,对于 M 中的任何 x 和 y,我们有

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

直观地说,收缩映射使点彼此更近。图 1 显示了在两个点上重复应用收缩映射的图示。

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习
图1.收缩映射图示和巴拿赫不动点定理的陈述

        我们对收缩映射感兴趣的原因是以下著名的定理,称为巴拿赫不动点定理。

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

证明注释: 定理的证明并不难,但我不把它包括在本文中,因为这个定理是众所周知的,证明可以很容易地在其他地方找到,例如见这里。

该定理背后的整个思想如图 1 所示:映射后所有点彼此靠近,因此,通过重复映射,所有点都收敛到一个点,即 T 的唯一不动点。

因此,为了证明贝尔曼最优性方程解的存在性和唯一性,足以证明存在一个度量,其中贝尔曼最优性算子是收缩映射。

4.3 贝尔曼最优算子是无穷范数中的收缩映射

        对于任何一对值向量 V 和 V',它们的无穷范数定义为

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

        在本节中,我们要证明贝尔曼最优性算子是这个范数中的收缩映射。为此,我们首先需要以下引理。

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

证明注释: 虽然引理不是平凡的,但它的证明并不困难,只需要基本的技术。我有一些乐趣证明它,并认为将其证明作为感兴趣的读者的练习可能会很好⁶。

现在,有了引理,我们终于可以进入我们的主定理了。

【数学建模】为什么存在最优策略?,基础理论,模式识别,人工智能,算法,机器学习

证明注释: 为了从证明的第 2 行到第 3 行,我们使用引理,从第 4 行转到第 5 行,我们使用绝对值函数的凸性。其余的都很简单。

因此,贝尔曼最优性算子具有唯一的不动点⁷,而贝尔曼最优性方程具有唯一的解。很容易证明,任何关于贝尔曼最优方程解的贪婪策略都具有等于该解的值。因此,存在最优策略!

五、结论

        我们证明了(1)最优策略的值应该满足贝尔曼最优方程。然后,我们证明了(2)贝尔曼最优方程的解是贝尔曼最优性算子的不动点。通过证明(3)贝尔曼最优算子是无穷范数中的收缩映射,并使用(4)巴拿赫不动点定理,我们证明了(5)贝尔曼最优算子具有唯一的不动点。因此,(6)存在同时最大化所有州价值的政策。

参考和引用:

 有限MDP最优策略存在的证明 :

阿里雷扎·莫迪尔沙内奇文章来源地址https://www.toymoban.com/news/detail-603751.html

Why does the optimal policy exist? | by Alireza Modirshanechi | Towards Data Science

到了这里,关于【数学建模】为什么存在最优策略?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023华数杯数学建模B题思路分析 - 不透明制品最优配色方案设计

    B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明 制品的配色对其外观美观度和市场竞争力起着重要作用。然而,传统的人工配色 存在一定的局限性,如主观性强、效率低下等。因此,研究如何通过计算机方法 来实

    2024年02月14日
    浏览(41)
  • 2023年华数杯数学建模B题思路代码分析 - 不透明制品最优配色方案设计

    # 1 赛题 B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明 制品的配色对其外观美观度和市场竞争力起着重要作用。然而,传统的人工配色 存在一定的局限性,如主观性强、效率低下等。因此,研究如何通过计算机

    2024年02月14日
    浏览(45)
  • 零基础学习数学建模——(一)什么是数学建模

    本篇博客将详细介绍什么是数学建模。 ​ 本人在本科阶段获得过国赛省一、mathorcup数学建模一等奖、五一杯数学建模一等奖、华数杯数学建模一等奖、亚太杯数学建模一等奖和两次美赛一等奖。自己在数学建模这条路上摸爬滚打了几年,现在想借助博客分享自己在数学建模

    2024年01月25日
    浏览(54)
  • 【2023 华数杯全国大学生数学建模竞赛】 B题 不透明制品最优配色方案设计 39页论文及python代码

    B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明制品的配色对其外观美观度和市场竞争力起着重要作用。然而,传统的人工配色存在一定的局限性,如主观性强、效率低下等。因此,研究如何通过计算机方法来实现

    2024年02月12日
    浏览(40)
  • 数学建模的概念和学习方法(什么是数学建模)

    数学建模是将数学方法和技巧应用于实际问题的过程。它涉及使用数学模型来描述和分析现实世界中的现象、系统或过程,并通过数学分析和计算来预测、优化或解决问题。数学建模可以应用于各种领域,包括自然科学、工程、经济学、环境科学、社会科学等。 数学建模的一

    2024年02月12日
    浏览(40)
  • 为什么计算机对浮点型数字计算存在误差

    我们输入的十进制小数在计算机中都是以二进制进行存储。比如: 由此可见0.3在计算机中存储的值永远小于0.3,所以当使用0.3计算时,就会产生误差。 在计算机中浮点型不能直接使用等号比较也是同一个道理。举个李子: 执行结果: 可以看出当涉及到0.3的运算超出一定的精

    2023年04月11日
    浏览(47)
  • 什么是数学建模?如何在数学建模中拿奖?通过建模学到了啥?

    本人大一开始参加建模,先后参加过多项数学建模比赛和数学竞赛,拿过多项一等奖,二等奖。 提起模型,其实在初高中时期,我们就接触过,分别是数学模型,物理模型,概念模型。那么什么是数学模型?大部分人都会与 数字,符号,公式 等联系起来,这是非常正确的,

    2024年02月05日
    浏览(40)
  • 为什么CMOS门电路存在传输延时,及解决方案

    目录 前言 CMOS电路的延时分析 导通阈值 在时序逻辑电路设计中,总是需要考虑延时信息,比如保持/建立时间,后端的静态时序分析等。 平时在做数字电路设计时中,信号传播的是0/1,一般考虑的是组合逻辑计算延时,一个时钟周期能不能计算完,算不完的话如何插入FF减小

    2024年02月08日
    浏览(41)
  • 集货运输优化:数学建模步骤,Python实现蚁群算法(解决最短路径问题), 蚁群算法解决旅行商问题(最优路径问题),节约里程算法

    目录 数学建模步骤 Python实现蚁群算法(解决最短路径问题)  蚁群算法解决旅行商问题(最优路径问题)

    2024年02月09日
    浏览(52)
  • 为什么数据库要允许没有主键的表存在

    在数据库设计中,主键是一个关键概念,用于唯一标识数据库表中的每一行数据。然而,有时候数据库允许没有主键的表存在的情况,这可能会引起一些争议和疑问。本文将探讨为什么数据库允许没有主键的表以及相关的考虑因素。 主键在数据库中具有以下作用: 唯一标识

    2024年02月08日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包