第二篇:强化学习中的7个基础概念

这篇具有很好参考价值的文章主要介绍了第二篇:强化学习中的7个基础概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这是强化学习第二篇:强化学习7个基础概念

在强化学习中,智能体需要在不断尝试和错误的过程中学习,通过观察环境的反馈(奖励或惩罚)来调整自己的行为,从而逐步改进策略。

强化学习常见的概念,结合迷宫游戏给大家阐述一下。

第一,红点表示智能体,它在迷宫这个环境中玩耍:

第二篇:强化学习中的7个基础概念

第二,环境,在这里就是迷宫,迷宫环境里有:初始出发点,白色方块表示可以通行的格子,黑色格子表示障碍物,绿点表示迷宫出口,迷宫的长为8个格子,宽为8个格子,这些元素组成了强化学习的环境。

第三,状态,这个对于初学者觉得会比较抽象,在迷宫游戏里,状态可以理解为红点所在的一个格子里,一个格子会有一个坐标,假定坐标系的原点为左下角,假定智能体走到了最下方箭头所指的红点,那么此时智能体的状态可以抽象为 (2,0)

第二篇:强化学习中的7个基础概念

第四,动作:动作是智能体在特定状态下可以执行的操作。它可以是离散的(例如,向左/向右)或连续的(例如,控制机器臂的力或位置)。在迷宫游戏里,智能体状态为 (2,0) 时,它可能的动作只有两个:向左或向右,如下面2个粉色箭头所示,动作取值是离散的。

第二篇:强化学习中的7个基础概念

第五,奖励:奖励是环境针对智能体的行为给出的反馈信号。它用来评估智能体的行为好坏,并作为学习信号指导智能体的决策。

在迷宫游戏中,如果智能体已经当前状态为 (2,0) ,并且它的上一个状态为 (1,0) ,因为此时它有两个动作选择,向左或向右。

如果它动作向左,表明重复原来路径,我们要给它一个惩罚奖励,尽量让它不要重复走路;相反,如果向右走,我们给它一个相对于向左来说更好的奖励,你看,这不就让智能体更倾向选择向右走吗?!

第六,策略:策略定义了智能体在给定状态下选择动作的方式。这个概念也是比较抽象的,策略是什么意思呢?

举一个常用到的策略:ε-贪婪策略。

该策略在选择动作时,以1-ε的概率选择当前最优的动作,以ε的概率选择随机动作。也就是说,在智能体当前状态为 (2,0) 时,下一状态它有可能再向左移动,尽管在当前这个环境下,向左移动我们直接观察出并不明智。但是,对于其他情况,随机选择动作会有可能得到意想不到的好结果。

第二篇:强化学习中的7个基础概念

第七,值函数 :值函数用来评估状态或状态-动作对的价值,表示从该状态或状态-动作对开始,智能体能够获得的长期累积奖励的期望值。

更加通俗来说,值函数就是给你智能体的一个状态,返回它的累计奖励值。可以使用深度学习网络模型来逼近值函数,比如:让神经网络输入状态,输出各个动作下的奖励值。

以上就是强化学习中,最重要的7个概念,希望对你有帮助!文章来源地址https://www.toymoban.com/news/detail-496882.html

到了这里,关于第二篇:强化学习中的7个基础概念的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入理解JVM虚拟机第二篇:虚拟机概念和JVM整体架构以及字节码的执行路线

      😉😉 学习交流群: ✅✅1:这是孙哥suns给大家的福利! ✨✨2:我们免费分享Netty、Dubbo、k8s、Mybatis、Spring...应用和源码级别的视频资料 🥭🥭3:QQ群:583783824   📚📚  工作微信:BigTreeJava 拉你进微信群,免费领取! 🍎🍎4:本文章内容出自上述:Spring应用课程!💞💞

    2024年02月09日
    浏览(56)
  • 【Python基础练习100题--第二篇:文件篇】

    这些题都是在B站的练习题,链接在这 对于刚学python的新手来说十分的适合, 可以加强和巩固我们的基础。 嘿嘿 一起噶油吧!🍉 🍉 学无止境,都看到这了,点个赞关注支持一下呗!嘿嘿(* ̄︶ ̄)

    2024年02月02日
    浏览(47)
  • 【从零开始学习JAVA | 第二十二篇】BigInteger

    目录  前言:  BigInterger: BigInteger常见的方法: 总结:         本篇我们将介绍BigInteger这个比较实用一点的API,这个API在我们实际写项目中都是很实用的API,因此大家应该对这个API有更加熟练的掌握。 在Java中,整数类型int和long的取值范围是有限的,超出该范围的整数无法

    2024年02月15日
    浏览(69)
  • Java学习手册——第二篇面向对象程序设计

    第一章我们已经介绍了Java语言的基础知识,也知道他能干什么了, 那我们就从他的设计思想开始入手吧。 接触一个语言之前首先要知道他的大方向,设计思想是什么样的, 这样接触起来就知道基本原理,才能事半功倍。 迪克斯特拉(E.W.dijkstra)在 1965 年 提出结构化编程,

    2024年02月12日
    浏览(63)
  • 【旅游景点项目日记 | 第二篇】基于Python中的Selenium爬取携程旅游网景点详细数据

    Gitee仓库地址:travel-server:景点旅游项目服务端 确保安装python3.x环境 以管理员身份打开cmd, 安装selenium、pymysql、datetime ,默认安装最新版即可 确保chrome安装对应版本的驱动 (将该驱动放在chrome安装路径下),用于控制chrome浏览器,并将路径添加到环境变量的Path变量中,如

    2024年04月13日
    浏览(55)
  • 【从零开始学习Java重要知识 | 第二篇】深入解读ThreadLocal类

    目录 前言:  ThreadLocal:  ThreadLocal的内部结构:   ThreadLocal的常用方法: 1.set方法: 2.get方法: 3.setInitialValue方法 remove方法(): ThreadLocalMap:​编辑 成员变量: 存储结构:  高频考点: 总结:          当我们编写多线程程序时,经常会遇到一些需要在线程之间共

    2024年01月18日
    浏览(48)
  • 版本控制工具Git集成IDEA的学习笔记(第二篇GitHub)

    目录 一、团队内协作和跨团队协作讲述 1、团队内协作 2、跨团队协作  二、团队内合作交互方式  1、初始化本地库 2、创建远程库 3、在本地创建远程库地址的别名 4、推送操作 5、克隆操作 6、邀请加入团队,push操作 7、远程库修改的拉取操作 8、远程库修改的拉取操作2 9、

    2024年02月12日
    浏览(82)
  • 【从零开始学习C++ | 第二十二篇】C++新增特性(下)

    目录 前言: 类型推导: constexpr: 初始化列表: 基于范围的for循环: 智能指针之unique ptr Lambda表达式: 总结:         本文我们将继续介绍   C++ 11 新增十大特性的剩余六个,如果没有看过介绍前四个特性的小伙伴的可以点进我C++的专栏就可以看到。 类型推导(

    2024年02月14日
    浏览(63)
  • Qt6 Qt Quick UI原型学习QML第二篇

    元素可以分为 视觉元素和非视觉元素 。视觉元素(如Rectangle)具有几何形状,并且通常在屏幕上呈现一个区域。非可视元素(如Timer)提供一般功能,通常用于操作可视元素。 目前,我们将关注基本的视觉元素,例如 Item, Rectangle, Text, Image和MouseArea 。但是,通过使用Qt Quick Contro

    2024年02月16日
    浏览(38)
  • 最全面学习夹子智能机器人初级第二篇《PanCakeSwap V2》

    由于路由器是无状态的并且不持有代币余额,因此可以在必要时安全且无需信任地更换它们。如果发现了更有效的智能合约模式,或者需要额外的功能,则可能会发生这种情况。出于这个原因,路由器的版本号从 开始01。这是当前推荐的版本 UniswapV2Router02部署在0x7a250d5630B4c

    2023年04月12日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包