【读书笔记-MIT决策算法】1.简介

这篇具有很好参考价值的文章主要介绍了【读书笔记-MIT决策算法】1.简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

 1.1 决策(Decision Making)

1.2 应用

1.2.1 飞行器防撞

1.2.2 自动驾驶

1.2.3 乳腺癌筛查

1.2.4 金融消费与投资组合配置

1.2.5 分布式野火监测

1.2.6 火星科学探索

1.3 方法

1.3.1 显式编程

1.3.2 监督学习

1.3.3 优化理论

1.3.4 规划

1.3.5 强化学习

1.4 历史发展

1.4.1 经济学

1.4.2 心理学

1.4.3 神经学

1.4.4 计算科学

1.4.5 工程学

1.4.6 数学

1.4.7 运筹学

1.5 社会影响

1.6 综述

1.6.1 概率推理

1.6.2 序列问题

1.6.3 模型不稳定性

1.6.4 状态不稳定性

1.6.5 多智能体系统


自动决策系统必须考虑不确定性并平衡多个目标。本章提供了有关决策模型和方法的计算视角,重点介绍了来自不同学科的贡献和潜在的社会影响。

1.1 决策(Decision Making)

什么是智能体(或代理,agent)?智能体可以是物理实体(如人类或机器人)或非物理实体(如完全由软件实现的决策支持系统)。智能体通过观察环境来采取行动,这种交互遵循一个观察-行动循环。智能体在时间接收到环境的观察结果,这些观察结果可能通过生物感知过程(如人类)或传感器系统(如空中交通管制雷达)来进行。观察结果通常是不完整或有噪声的,智能体通过一些决策过程来选择行动。

【读书笔记-MIT决策算法】1.简介

四种不确定性来源:结果不确定性、模型不确定性、状态不确定性和交互不确定性,这些不确定性是人工智能等领域中需要解决的核心问题。后续将围绕这四种不确定性展开,介绍如何在不确定性条件下做出决策,并探讨一系列相应的算法。

1.2 应用

1.2.1 飞行器防撞

防止飞机之间空中碰撞的系统的设计。此系统与其他飞机通信,以确定其位置,并提醒飞行员注意潜在威胁,同时提供如何避开这些威胁的指导。然而有几个不确定性来源,包括飞行员的反应速度和其他飞机的行为。该系统必须在早期警报需求与避免不必要的机动之间取得平衡,同时提供特殊的安全水平。

1.2.2 自动驾驶

汽车依靠一套传感器来感知环境。激光雷达是一类传感器,它包括测量环境中的激光反射,以确定与障碍物的距离。另一类型的传感器是摄像头,它可以通过计算机视觉算法检测行人和其他车辆。这两种类型的传感器都是不完美的,并且容易受到噪声和遮挡的影响。例如,一辆停着的卡车可能会挡住试图在人行横道上穿过的行人。系统必须根据其他车辆、行人和其他道路使用者的可观察行为来预测他们的意图和未来路径,以便安全地导航到目的地。

1.2.3 乳腺癌筛查

乳房X光检查是最有效的筛查工具,但它具有潜在的风险,例如误报。研究已经根据年龄制定了基于人群的筛查时间表,但需要开发一种能够根据个人风险提出建议的系统。将这种方法与全人群的筛查计划进行比较,这些因素包括质量调整后的寿命年限、乳房X光检查次数、误报率和未被发现的癌症风险。

1.2.4 金融消费与投资组合配置

建立一个建议个人财富中应消费和投资多少的体系的问题,同时考虑了财富的随机演变以及在个人一生中实现消费平滑的愿望。

1.2.5 分布式野火监测

在扑灭野火时,由于火势的性质不断变化且地理跨度很大,因此在扑灭野火时很难进行态势感知。一组配备传感器的无人机可以提供统一的情况快照,以推动资源分配决策,但是有效的监测需要自主协作和推理火势的随机演变。

1.2.6 火星科学探索

通信延迟和有限的上传/下载窗口一直是火星科学探索的瓶颈,但是引入更高的自主权可以将任务效率提高五倍。拥有更大自主权的漫游者可以选择自己的科学目标,无需人为干预即可应对危险和系统故障。

1.3 方法

设计决策代理的方法多种多样,这些决策代理对设计人员和自动化负有不同的责任,包括规划、强化学习、监督学习和优化。

1.3.1 显式编程

用于设计决策代理的显式编程方法可能适用于简单的问题,但会给设计人员带来提供完整策略的负担。不过现有研究已经提出了各种代理编程语言和框架,以简化编程代理。

1.3.2 监督学习

监督学习,也称行为克隆,涉及为自动学习算法提供一组训练示例,以便从中进行概括,当专家设计师知道一组具有代表性的情境的最佳行动方针时,监督学习效果很好,但通常在新情境中表现不可能比人类设计师好。

1.3.3 优化理论

另外一种方法,指定可能的决策策略的空间和要最大化的绩效衡量标准,然后运行模拟来评估决策策略的绩效。然后,优化算法在此空间中搜索最优策略,如果空间相对较小,并且性能度量没有许多局部最优,那么各种局部或全局搜索方法可能是合适的。尽管通常假设动态模型的知识用于运行模拟,但它不会用于指导搜索,这对复杂问题可能很重要

1.3.4 规划

规划是一种优化形式,它使用问题动力学模型来帮助指导搜索。大量文献探讨了各种规划问题,其中大部分集中在确定性问题上。对于某些问题,用确定性模型近似动力学可能是可以接受的。假设确定性模型允许我们使用更容易扩展到高维问题的方法。对于其他问题,考虑未来的不确定性至关重要。后续将完全聚焦于不确定性会计核算的重要问题。

1.3.5 强化学习

强化学习放松了任务中提前知道模型的假设。相反,决策策略是在智能体与环境交互时学习的。设计者只需要提供一个性能度量;优化代理的行为取决于学习算法。强化学习中出现的一个有趣的复杂性是,行动的选择不仅影响主体在实现其目标方面的直接成功,还影响主体了解环境和确定其可以利用的问题特征的能力。

1.4 历史发展

自动决策的概念可以追溯到古希腊的神话和故事,其中包括提及机械三脚架等自动机器。17世纪的哲学家提议使用逻辑规则进行机械化推理,为自动决策奠定了基础。

发明家在18世纪末开始创造用于劳动的自动机器,促成了自动织机和第一批工厂机器人的开发,而使用智能机器实现劳动自动化则开始进入科幻小说。

在自动化决策的实际实现中,主要的挑战是考虑不确定性。即使在20世纪末,以开发单纯形算法而闻名的乔治·丹齐格也在1991年表示:发起研究的最初问题是随着时间的推移动态规划或日程安排的问题,尤其是在不确定性的情况下,这个问题如果得到解决,可以促进世界的福祉和稳定。

研究人员通过汇聚来自多个学科(包括经济学、心理学、神经科学、计算机科学、工程、数学和运筹学)的概念,在不确定性下的决策方面取得了进展,从而带来了最新的进展和未来的发展。

1.4.1 经济学

18世纪末引入的效用理论提供了一种对各种结果的可取性(例如货币数量的可取性)进行建模和比较的方法,并且可以用来比较不同财富水平的人的幸福感。

20世纪中叶的经济学家通过将效用概念与理性决策相结合建立了最大预期效用原则,这是创建自主决策机构背后的关键概念,并促成了博弈论的发展。

1.4.2 心理学

心理学家研究人类决策和试错学习,基于满意度和不适感来强化(reinforcement)学习。对人类儿童的训练在很大程度上取决于一个奖惩系统,这表明应该可以在只有两个干扰输入的情况下进行组织,一个输入用于“学习”或“后退”(R),另一个输入为“惩罚”或“惩罚”(P)。

图灵认为:机器只需使用两个干扰输入即可以同样的方式学习。

1.4.3 神经学

神经科学家研究了人类行为背后的生物学过程,特别是大脑中相互关联的神经元网络,这些网络可以应用于决策。

20世纪40年代,首次提出,神经元可以被视为单独的“逻辑单元”,当被拼凑成网络时,能够执行计算操作。这项工作为神经网络奠定了基础。

1.4.4 计算科学

20世纪中叶,计算机科学家通过形式逻辑使用符号操作来解决智能决策问题,证明了数学定理的计算机程序逻辑理论就是例证。

连接主义中使用人工神经网络可以从数据或经验中学习智能行为,而不是依赖专家的硬编码知识,并促成了AlphaGo和自动驾驶汽车等项目的成功。

1.4.5 工程学

工程领域的重点是让机器人等物理系统做出智能决策。

设计物理系统的工程师必须解决感知、计划和行为问题,这包括建立对世界状况的信念、推理任务执行以及通过反馈控制控制控制执行器。

这些任务得益于半导体行业的进步,并广泛应用于工业中,从调节烤箱温度到导航航空航天系统。

1.4.6 数学

代理必须能够量化其不确定性,以便在不确定的环境中做出明智的决策。决策领域在很大程度上依赖于概率论来完成这项任务。决策领域在很大程度上依赖于概率论来完成这项任务。

基于采用的方法,蒙特卡洛。。

1.4.7 运筹学

运筹学使用数学和科学分析来寻找决策问题的最佳解决方案,例如资源分配和维护计划。它在工业革命期间加速发展,并在第二次世界大战期间应用于资源分配。战后,企业意识到相同的概念可以帮助他们优化决策,从而促进管理科学的发展。

1.5 社会影响

医学、城市公共设施、政治等,

挑战:数据偏见、算法鲁棒性、道德体系建设。

1.6 综述

本书分为五个部分:

第一部分解决了在单个时间点上对简单决策中的不确定性和目标进行推理的问题。

第二种方法将决策扩展到顺序问题,在顺序问题中,我们必须在进行过程中根据有关行动结果的信息做出一系列决策。

第三个解决了模型的不确定性,即我们不能从已知的模型开始,必须学会如何通过与环境的互动来采取行动。

第四个解决了状态不确定性,即不完美的感知信息使我们无法了解完整的环境状态。

最后一部分讨论了涉及多个代理的决策协调。

1.6.1 概率推理

理性决策的过程包括考虑不确定性和目标,这些不确定性和目标可以用概率分布和效用论来表示。决策网络可用于将这些概念整合到概率图形模型中。

1.6.2 序列问题

序列背景下的最佳决策需要对随机环境中未来的动作和观测顺序进行推理,书中将使用马尔可夫决策过程(MDP)作为标准数学模型来讨论这一点。

1.6.3 模型不稳定性

强化学习涉及在动态和回报不确定时学会通过经验采取行动,需要平衡探索和利用,为延迟奖励分配积分,并从有限的经验中进行概括。本书将回顾解决这些挑战的理论和一些关键算法。

1.6.4 状态不稳定性

将不确定性扩展到包括状态并将其建模为部分可观察的马尔可夫决策过程(POMDP),采用一种常见的方法是推断基础状态的信念分布,并应用将信念映射到行动的政策。讨论了求解 pomDP 的各种精确和近似方法。

1.6.5 多智能体系统

本节讨论了多个代理在环境中做出决策所面临的挑战,包括简单的博弈和马尔可夫博弈。 2。由于其他代理的政策存在不确定性,马尔可夫博弈的算法依赖于强化学习。

-----------------------------------------------------------------------------------------------------------------------

站在巨人的肩膀上。致敬原著:Kochenderfer M J, Wheeler T A, Wray K H. Algorithms for decision making[M]. MIT press, 2022.文章来源地址https://www.toymoban.com/news/detail-404879.html

到了这里,关于【读书笔记-MIT决策算法】1.简介的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 机器学习集成学习——GBDT(Gradient Boosting Decision Tree 梯度提升决策树)算法

    机器学习神经网络——Adaboost分离器算法 机器学习之SVM分类器介绍——核函数、SVM分类器的使用 机器学习的一些常见算法介绍【线性回归,岭回归,套索回归,弹性网络】 文章目录 系列文章目录 前言 一、GBDT(Gradient Boosting Decision Tree) 梯度提升决策树简介 1.1、集成学习 1.2、

    2024年02月09日
    浏览(34)
  • 西瓜书读书笔记整理(五)—— 第四章 决策树

    4.1.1 什么是决策树算法 决策树算法 是一种通过构建 树形结构 进行分类和回归的机器学习算法。 决策树由结点 (node) 和有向边 (directed edge) 组成。结点有两种类型:内部结点 (internal node) 和叶结点 ( leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。 4.1.2 决策树学习

    2024年02月13日
    浏览(34)
  • 决策树(Decision Tree)

    决策树,顾名思义,就是帮我们做出决策的树。现实生活中我们往往会遇到各种各样的抉择,把我们的决策过程整理一下,就可以发现,该过程实际上就是一个树的模型。 决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树,这里我们只

    2024年02月11日
    浏览(34)
  • 机器学习 | 决策树 Decision Tree

    —— 分而治之,逐个击破                 把特征空间划分区域                 每个区域拟合简单模型                 分级分类决策 举例: 特征选择、节点分类、阈值确定                 熵本身代表不确定性,是不确定性的一种度量。     

    2024年02月03日
    浏览(29)
  • 【机器学习基础】决策树(Decision Tree)

    🚀 个人主页 :为梦而生~ 关注我一起学习吧! 💡 专栏 :机器学习 欢迎订阅!后面的内容会越来越有意思~ ⭐ 特别提醒 :针对机器学习,特别开始专栏:机器学习python实战 欢迎订阅!本专栏针对机器学习基础专栏的理论知识,利用python代码进行实际展示,真正做到从基础

    2024年02月20日
    浏览(27)
  • [Machine Learning] decision tree 决策树

    (为了节约时间,后面关于机器学习和有关内容哦就是用中文进行书写了,如果有需要的话,我在目前手头项目交工以后,用英文重写一遍) (祝,本文同时用于比赛学习笔记和机器学习基础课程) 俺前两天参加了一个ai类的比赛,其中用到了一种名为baseline的模型来进行一

    2024年02月11日
    浏览(35)
  • 软件测试_决策表(Decision Table)

    定义 利用判定表设计测试用例集合的方法叫做判定表驱动分析法(决策表法)。 决策表测试 在所有的黑盒测试方法中,基于决策表的测试是 最严格的、最具有逻辑性的 测试方法。 决策表一直被用来表示和分析复杂的逻辑关系,描述不同条件集合下采取行动的若干组合情况

    2024年02月07日
    浏览(29)
  • 基于决策树(Decision Tree)的乳腺癌诊断

            决策树(DecisionTree)学习是以实例为基础的归纳学习算法。算法从--组无序、无规则的事例中推理出决策树表示形式的分类规则,决策树也能表示为多个If-Then规则。一般在决策树中采用“自顶向下、分而治之”的递归方式,将搜索空间分为若千个互不相交的子集,在决策

    2024年02月12日
    浏览(25)
  • 《深入理解Java虚拟机》读书笔记:字节码指令简介

    字节码指令简介   Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成。由于Java虚拟机采用面向操作数栈而不是寄存器的架构(这两种架构的区别和影响将在

    2024年02月12日
    浏览(33)
  • 【python库学习】 sklearn中的决策树Decision Trees

    一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集.从根结点到每个叶结点的路径对应了一个判定测试序列. 划分准则

    2024年04月28日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包