强化学习代码实战(3) --- 寻找真我

10月前作者：笑傲江湖2023 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了强化学习代码实战(3) --- 寻找真我。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本文内容来自于南京大学郭宪老师在博文视点学院录制的视频，课程仅9元地址，配套书籍为深入浅出强化学习编程实战郭宪地址。

正文

我们发现多臂赌博机执行一个动作之后，无论是选择摇臂1，摇臂2，还是摇臂3之后都会返回原来的状态，也就是说它的状态并没有改变，而右边的寻金币游戏，从1到2，智能体执行动作之后位置（状态）发生了变化，而强化学习就是寻找当前状态下最优的动作，或者说不同状态下最优动作合集（策略）。

强化学习代码实战(3) --- 寻找真我,1024程序员节

从下图右可以看出，P和R都和s，a有关系，无模型就是因为缺P和R。

强化学习代码实战(3) --- 寻找真我,1024程序员节

实际应用中，对于游戏一般用截取的图像信息作为s，但通常不能只用一帧图像作为s，比如说在大小球的游戏中，一帧图像，无法判断小球移动方向和球速，最起码要两帧，在实际应用中，为了提高精确度，一般用四帧图像作为s。AlphaGo中用过去八手双方棋局作为状态。

强化学习代码实战(3) --- 寻找真我,1024程序员节

强化学习代码实战(3) --- 寻找真我,1024程序员节

动作的定义

强化学习代码实战(3) --- 寻找真我,1024程序员节

策略的定义：策略就是给定状态s时，动作集上的分布，比方说，找金币，智能体在状态5时，采用确定性策略，此时向西走概率为1，向其他方向为0，为改状态下的动作概率分布。

强化学习代码实战(3) --- 寻找真我,1024程序员节

值函数定义：就是在策略Π下，智能体从状态s出发，用采用策略Π的累计回报的期望，简单理解，从状态s出发，不同的选择函数（策略，该策略是动作选择策略），会选择不同的动作，转移到不同的状态，最后会找到很多条路径（s，a），选则累计回报最大的路径。

强化学习代码实战(3) --- 寻找真我,1024程序员节

值函数和行为值函数的区别：值函数只和s有关，行为值函数和s，a相关。但两者都是对策略Π的度量。

强化学习代码实战(3) --- 寻找真我,1024程序员节

我们看一下寻找梦中的他游戏的环境设置，

状态空间：对下图进行10×10的网格划分也就是说会有100个不同的状态空间，所以最多会遍历100步，

动作空间：有上下左右四个选择

状态转移概率：此处主要说一下，鸳鸯在碰到障碍物时，不会移动到障碍物位置，而是继续保持原本状态，同样在即将出界时，也是保持原本状态。比方说，向东连续走两个格，第三个格有障碍物，不会移动到障碍物位置，而是保持原本位置不变。

强化学习代码实战(3) --- 寻找真我,1024程序员节

立即回报：碰到障碍物时回报为-1，找到他时回报为1，正常移动回报为0

策略表示：使用了词典函数（待理解）

值函数：设置了10×10的矩阵，对应一百个表格（属于表格型强化学习）

强化学习代码实战(3) --- 寻找真我,1024程序员节

环境渲染用到了pygame包，使用时共三个步骤

1.获取当前图片所在目录

2.获取图片文件名

3.下载图片，并转换成surface对象

强化学习代码实战(3) --- 寻找真我,1024程序员节

最后要继续使用pygame绘制窗口

1.display.set_mode：绘制窗口幕布

2.blit：图片显示在窗口中

3.display.update：幕布更新函数

强化学习代码实战(3) --- 寻找真我,1024程序员节

代码可从视频链接自取

参考文献

1.深入浅出强化学习编程实战郭宪

2. 博文视点学院文章来源地址https://www.toymoban.com/news/detail-720376.html

到了这里，关于强化学习代码实战(3) --- 寻找真我的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

1024程序员节特辑：【Spring Boot自动配置原理揭秘】

主页传送门：📀 传送 Spring Boot 是一个用于创建独立的、生产级别的 Spring 应用程序的框架。它极大地简化了 Spring 应用程序的开发过程，其中一个关键的功能就是自动配置（Auto-Configuration）。自动配置可以根据项目需求自动配置各种服务和组件，它可以帮助开发者

2024年02月08日
浏览(69)
好用且免费的CodeWhisperer，给1024程序员节送礼来了

国庆期间没有胆量去人从众的景点，关在家里刷手机时意外在亚马逊的User Group公众号上发现了CodeWhisperer这么个好东西（bu yao qian），以后撸代码也可以提高生产力（fang yang mo yu）了，这还不赶紧上手试一下。看官方介绍说它支持流行的IDE开发工具，包括VS Code、Intelli

2024年02月08日
浏览(54)
1024程序员节带你玩转图片Exif信息获取之JavaScript

目录一、前言二、背景三、Exif.js 1、Exif.js 简介 2、Exif.js 引入四、多场景展示数据获取 1、原始图片直接获取 2、base64 编码文件加载 3、文件上传的方式加载五、总结 1024是2的十次方，二进制计数的基本计量单位之一。1G=1024M，而1G与1级谐音，也有一

2024年02月20日
浏览(60)
7个最流行的强化学习算法实战案例（附 Python 代码)

大家好，目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法已被用于在游戏、机器人和决策制定等各种应用中，并且这些流行的算法还在不断发展和改进，本文我们将对其做一个简单的介绍。技术要学会分享、交流，不建议闭门造车。本文技

2024年02月16日
浏览(49)
1024程序员狂欢节 | IT前沿技术、人工智能、数据挖掘、网络空间安全技术

一年一度的1024程序员狂欢节又到啦！成为更卓越的自己，坚持阅读和学习，别给自己留遗憾，行动起来吧！那么，都有哪些好书值得入手呢？小编为大家整理了前沿技术、人工智能、集成电路科学与芯片技术、新一代信息与通信技术、网络空间安全技术，四大热点领域近期

2024年02月06日
浏览(67)
1024程序员节特辑 | ELK+ 用户画像构建个性化推荐引擎，智能实现“千人千面”

专栏集锦，大佬们可以收藏以备不时之需 Spring Cloud实战专栏：https://blog.csdn.net/superdangbo/category_9270827.html Python 实战专栏：https://blog.csdn.net/superdangbo/category_9271194.html Logback 详解专栏：https://blog.csdn.net/superdangbo/category_9271502.html tensorflow专栏：https://blog.csdn.net/superdangbo/category_869

2024年02月07日
浏览(84)
1024程序员节特辑 | 解密Spring Cloud Hystrix熔断提高系统的可用性和容错能力

专栏集锦，大佬们可以收藏以备不时之需 Spring Cloud实战专栏：https://blog.csdn.net/superdangbo/category_9270827.html Python 实战专栏：https://blog.csdn.net/superdangbo/category_9271194.html Logback 详解专栏：https://blog.csdn.net/superdangbo/category_9271502.html tensorflow专栏：https://blog.csdn.net/superdangbo/category_869

2024年02月08日
浏览(55)
1024程序员节？我们整点AI绘图玩玩吧，一文教你配置stable-diffusion

需提前准备：一台高性能的电脑（尤其是显存）、python、Git、梯子。其实Github上有很多关于Stable diffusion的库，综合对比之后，我选取的是比较全面的AUTOMATIC1111这个，源码链接：Stable-diffusion（Github）找到安装那块的教程，此教程以windows为例。 ps：如果你电脑上已经有了pyt

2024年01月16日
浏览(74)
PHP框架开发实践 | 1024 程序员节：通过index.php找到对应的controller是如何实现的

🏆作者简介，黑夜开发者，CSDN领军人物，全栈领域优质创作者✌，CSDN博客专家，阿里云社区专家博主，2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验，历任核心研发工程师，项目技术负责人。 🏆本文已收录于PHP专栏：PHP进阶实战教程。 🎉欢迎 👍点赞✍评论⭐收藏

2024年02月08日
浏览(72)
图像处理之《寻找和隐藏：通过深度强化学习的对抗隐写术》论文阅读

一、文章摘要图像隐写术的目的是将一个完整大小的图像(称为秘密)隐藏到另一个图像(称为封面)中。以往的图像隐写算法只能在一个封面中隐藏一个秘密。在这篇论文中，我们提出了一个自适应局部图像隐写(AdaSteg)系统，允许缩放和位置自适应图像隐写。该系统通过在局部

2024年03月14日
浏览(54)