强化学习中值函数应用示例

这篇具有很好参考价值的文章主要介绍了强化学习中值函数应用示例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Gridworld

        Gridworld是一个用于教授强化学习概念的简化的电子游戏环境。它具有一个简单的二维网格,智能体可以在其中执行动作并获得奖励。这个环境是有限的,因为它有一个明确的开始和结束状态,以及一组确定的动作和奖励。

        在Gridworld中,每个单元格代表一个状态,智能体可以在该状态执行四个可能的动作:向北、向南、向东或向西移动一个单元格。如果智能体执行的动作将它们移动到网格之外,它们的位置将保持不变,但它们将获得一个奖励1。另一方面,如果智能体从特殊状态A或B开始执行动作,它们将获得不同的奖励。

        从状态A开始,智能体执行的动作将使它们获得奖励+10,并将它们移动到A0单元格。类似地,从状态B开始,智能体执行的动作将使它们获得奖励+5,并将它们移动到B0单元格。

        通过这个简单的环境,学生可以学习强化学习的基本概念,如值函数、策略和最优解。此外,Gridworld还提供了用于评估和比较不同策略的工具,使学生能够更好地理解这些概念并应用它们来解决实际问题。

        在Gridworld图1中,使用了一个矩形网格来描绘一个简单的有限MDP(马尔可夫决策过程)的值函数。网格的每个单元格都对应于环境的一个状态。在每个单元格,有四个可能的动作:北、南、东、西,这些动作将确定性地将智能体移动到相应方向的一个单元格。如果动作会使智能体离开网格,那么其位置将保持不变,但也会获得一个奖励1。其他动作的奖励为0,除非它们将智能体从特殊状态A和B中移出。从状态A开始,所有四个动作都会产生奖励+10并将智能体移动到A0。从状态B开始,所有动作都会产生奖励+5并将智能体移动到B0。

强化学习中值函数应用示例,人工智能

图1

        假设智能体在所有状态下以相等的概率选择所有四个动作。图b显示了对于这个策略的值函数vπ,对于带折扣的奖励情况,折扣因子γ = 0.9。该值函数是通过求解方程计算得出的。请注意,靠近下边缘的负值是由于在该随机策略下,那里有很大可能性会撞到网格的边缘。状态A在该策略下是最好的状态,但其期望回报小于10,即其即时奖励,因为从A状态开始,智能体将被带到A0状态,从那里很可能会撞到网格的边缘。另一方面,状态B的估值超过5,即其即时奖励,因为从B状态开始,智能体将被带到B0状态,该状态具有正价值。从B0状态开始,由于可能撞到边缘而产生的预期惩罚(负奖励)超过了因可能撞到A或B而产生的预期收益。

二、高尔夫

        将打高尔夫球的过程表述为强化学习任务,我们会对每一击都施加一个惩罚(负面奖励),直到球进入洞中。状态为球的位置,一个状态的价值是,从此位置到球洞的击球次数。我们的行动是针对如何瞄准和挥动球杆的动作,当然,还包括选择哪种球杆。让我们假设这些都是给定的,只需要考虑球杆的选择,我们假设只能是推杆或驱动器。图2的上半部分显示了对于始终使用推杆的策略可能的状态值函数vputt(s)。在洞中的终端状态的价值为0。我们假设无论在球场的哪个位置,我们都可以推杆;这些状态的价值为e1。如果我们在绿地之外的位置,就无法通过推杆到达洞穴,因此其价值更大。如果我们可以通过推杆从某个状态到达绿地,那么该状态的价值必须比绿地的价值少1,即2。为了简化问题,我们假设可以非常精确和确定性地进行推杆,但范围有限。这给我们提供了图中标记为d2的尖锐等高线;位于该线与绿地之间的所有位置都需要恰好两次击球来完成这个洞。同样地,位于e2等高线以内的任何位置都必须具有价值3,依此类推,得到图中所示的所有等高线。推杆无法让我们从沙陷阱中脱身,因此沙陷阱的价值为负无穷大。总体而言,我们需要六次击球才能从发球台到达洞穴。

强化学习中值函数应用示例,人工智能

图2文章来源地址https://www.toymoban.com/news/detail-715617.html

到了这里,关于强化学习中值函数应用示例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 通用人工智能之路:什么是强化学习?如何结合深度学习?

    2015年, OpenAI 由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立,公司核心宗旨在于 实现安全的通用人工智能(AGI) ,使其有益于人类。 ChatGPT 是 OpenAI 推出的一个基于对话的原型 AI 聊天机器人,2022年12 月 1

    2024年02月16日
    浏览(52)
  • 人工智能导论——机器人自动走迷宫&强化学习

    强化学习是机器学习中重要的学习方法之一,与监督学习和非监督学习不同,强化学习并不依赖于数据,并不是数据驱动的学习方法,其旨在与发挥智能体(Agent)的主观能动性,在当前的状态(state)下,通过与环境的交互,通过对应的策略,采用对应的行动(action),获得一定的奖

    2024年02月06日
    浏览(56)
  • 走进人工智能|强化学习 AI发展的未来引擎

    前言: 强化学习是一种通过智能体与环境交互,通过尝试最大化累计奖励来学习最优行为策略的机器学习方法。 本篇带你走进强化学习!一起来学习了解吧!!! 强化学习是一种机器学习方法,旨在通过试错来学习正确的行为。与其他机器学习方法不同,强化学习的主要目

    2024年02月10日
    浏览(77)
  • 深度强化学习与人工智能:如何实现高效的资源分配

    深度强化学习(Deep Reinforcement Learning, DRL)是一种人工智能技术,它结合了深度学习和强化学习两个领域的优点,以解决复杂的决策问题。在过去的几年里,DRL已经取得了显著的成果,例如在游戏、机器人控制、自动驾驶等领域的应用。在资源分配方面,DRL可以帮助企业更有效地

    2024年02月21日
    浏览(64)
  • 通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

    目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献       目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言

    2024年02月07日
    浏览(82)
  • 强化学习在人工智能的发展中的重要性与前景

    强化学习(Reinforcement Learning, RL)是一种人工智能(Artificial Intelligence, AI)技术,它通过在环境中进行交互,学习如何取得最大化的奖励。在过去的几年里,强化学习技术取得了显著的进展,并在许多领域得到了广泛应用,如游戏、自动驾驶、机器人控制、语音识别等。 在本文中,

    2024年02月20日
    浏览(74)
  • 火星探测器背后的人工智能:从原理到实战的强化学习

    本文详细探讨了强化学习在火星探测器任务中的应用。从基础概念到模型设计,再到实战代码演示,我们深入分析了任务需求、环境模型构建及算法实现,提供了一个全面的强化学习案例解析,旨在推动人工智能技术在太空探索中的应用。 关注TechLead,分享AI全维度知识。作

    2024年02月05日
    浏览(66)
  • 强化学习:原理与Python实战||一分钟秒懂人工智能对齐

    人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。 人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主

    2024年02月05日
    浏览(45)
  • 人工智能的分类:机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别

    机器学习 机器学习算法工程师:技术路线、方向选择、职业规划、最新技术(从小白到大魔王全攻略)_会害羞的杨卓越的博客-CSDN博客 专家系统 知识图谱 知识图谱:实体-关系-实体/知识建模/知识获取/知识融合/知识存储/知识应用_会害羞的杨卓越的博客-CSDN博客 特征工程

    2024年02月16日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包