强化学习介绍

这篇具有很好参考价值的文章主要介绍了强化学习介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 什么是强化学习?

监督学习:让系统在有标签训练集上按照每个样本对应的标签推断出相应的反馈机制,进而在未知标签上能够计算一个尽可能正常的结果

无监督学习:让系统在无标签训练集上发现隐藏的结构,自动对输入资料进行分类或分群。

强化学习:是除监督学习和无监督学习的第三种机器学习范式

强化学习,学习记录,机器学习,深度学习,人工智能

强化学习(Reinforcement Learning, RL,评价学习、增强学习)是机器学习的范式和方法论之一,用于描述和解决agent与环境交互中,通过学习策略以达到最大化或实现特定目标的问题。

强化学习:

1、强化学习是机器学习的一种方法。

2、强化学习是agent与环境之间的交互。

3、强化学习的目标是追求最大回报或特定目标。

强化学习是一种学习如何从状态映射到行为获取奖励最大的学习机制,agent需要不断从环境中进行实验,通过环境给予的反馈(award)来不断优化状态-行为的对应关系。


2 强化学习的特征与特点

强化学习的两个特征:反复实验(trail and error)和延迟奖励(delay reward)。

强化学习的特点:

1、没有监督者,只有一个奖励信号。

2、延迟反馈,而不是即时反馈。

3、具有时间序列性质。

4、agent的行为影响后续数据。


3 强化学习的要素与框架

强化学习的要素:策略(policy)、奖励(award)、价值(value)、环境/模型(model)

3.1 Policy

policy定义一个从环境状态和agent状态行为映射。policy是强化学习的核心,

1、policy定义agent的行为。

2、policy是状态到行为的映射。

3、policy是具体的映射或随机分布。

3.2 Reward

Reward定义了强化学习的目标在每个时间步骤内,环境向强化学习发出的标量值为奖励,奖励能定义agent的好坏。

1、奖励是一个标量的反馈信号。

2、奖励表示在某一步骤agent的表现如何。

3、agent的任务就是一个时间段内积累的总奖励值最大。

3.3 Value

价值函数是对长期收益的衡量,其从一个长期的角度评判当前行为的收益

1、价值函数是对未来奖励的预测。

2、价值函数可以评估状态的好坏。

3、价值函数的计算需要对状态之间的转移进行分析。

3.4 model

强化学习有基于模型(model-based)和不基于模型(model-free)两种方法。model是对环境的模拟。

model-based:当给出状态和行为后,通过model就可以预测接下来的状态和对应的奖励。

model-free:通过对策略和价值函数分析进行学习。

1、模型能预测环境下一步的表现。

2、表现具体由预测的状态和奖励来反应。

3.5 Return(cumulative future reward) 回报|未来累积回报

t时刻的return叫做 U t U_t Ut

把t时刻开始未来所有的奖励都累加起来,一直加到游戏结束最后一个奖励 U t = R t + R t + 1 + R t + 2 + . . . R n U_t = R_t+R_{t+1}+R_{t+2}+...R_n Ut=Rt+Rt+1+Rt+2+...Rn

3.6 Discounted return 折扣回报

折扣率为 γ , γ ∈ ( 0 , 1 ) \gamma,\gamma ∈ (0,1) γγ(0,1),需要自定义。

现在奖励与未来奖励对比,未来奖励具有不确定性,于是将未来的奖励打一个折扣。

U t = R t + γ 1 R t + 1 + γ 2 R t + 2 + . . . γ n R n U_t = R_t+\gamma^1 R_{t+1}+\gamma^2R_{t+2}+...\gamma^nR_n Ut=Rt+γ1Rt+1+γ2Rt+2+...γnRn

4 强化学习流程

1、首先agent根据当前状态 S t a S_t^a Sta做出一个行为 A t A_t At对model产生一个影响

2、然后model对agent反馈一个奖励信号 R t R_t Rt

3、此时agent从model中发现一些信息 O t O_t Ot

4、最后agent进入一个新状态,依次类推。


5 例子 马里奥 (一定要看)

以马里奥游戏为例子:

5.1 定义

state为环境状态,当前状态就是游戏此刻的画面。

action为向左、向右、上挑三个动作。

agent就是马里奥(在一个应用中谁做动作,谁就是agent)

model是游戏程序。

5.2 policy

policy为 π \pi π函数,其根据观测到的state进行决策,控制agent运行。 π ( a ∣ s ) = P ( A = a ∣ S = s ) \pi(a|s)=P(A=a|S=s) π(as)=P(A=aS=s),在当前状态 s s s下,做出动作 a a a的概率密度。

将当前state(画面)输入到policy函数 π \pi π中,此刻会计算出向左、向右、向上的概率,根据此概率选择一个action,或者根据一个确定的policy选择action。

例如: a = ′ l e f t ′   o r   ′ r i g h t ′   o r   ′ u p ′ a ='left' \ or\ 'right'\ or\ 'up' a=left or right or up

π ( l e f t ∣ s ) = 0.2 \pi(left|s)=0.2 π(lefts)=0.2

π ( r i g h t ∣ s ) = 0.1 \pi(right|s)=0.1 π(rights)=0.1

π ( u p ∣ s ) = 0.7 \pi(up|s)=0.7 π(ups)=0.7

5.3 reward

agent做出一个动作,游戏就会给出一个奖励(该奖励需要自定义),马里奥每吃到一个金币,奖励 R + = 1 R+=1 R+=1,强化学习的目标就是使获得的奖励总和尽量高。

5.4 状态转移 state transition

当前state下,马里奥每做一个动作,游戏就会给出一个新状态,这个过程叫状态转移,状态转移可以是固定的或随机的。

状态转移p函数: p ( s ′ ∣ s , a ) = P ( S ′ = s ∣ S = s , A = a ) p(s'|s,a)=P(S'=s|S=s,A=a) p(ss,a)=P(S=sS=s,A=a)

5.5 agent与环境交互

agent是马里奥,当前状态是 S t S_t St,动作是 a t a_t at

agent根据 S t S_t St做出一个 a t a_t at,model根据 a t a_t at会反馈奖励reward。



6 强化学习的随机性

6.1 动作随机性

policy函数 π \pi π控制agent,给定当前状态S,按照policy输出概率随机抽样,获得动作action。

6.2 状态转移随机性

当agent做出动作后,model用状态转移函数p算出概率,然后使用随机抽样得到下一状态S‘。文章来源地址https://www.toymoban.com/news/detail-582127.html

到了这里,关于强化学习介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度强化学习与人工智能:如何实现高效的资源分配

    深度强化学习(Deep Reinforcement Learning, DRL)是一种人工智能技术,它结合了深度学习和强化学习两个领域的优点,以解决复杂的决策问题。在过去的几年里,DRL已经取得了显著的成果,例如在游戏、机器人控制、自动驾驶等领域的应用。在资源分配方面,DRL可以帮助企业更有效地

    2024年02月21日
    浏览(50)
  • 通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

    目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献       目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言

    2024年02月07日
    浏览(60)
  • 人工智能的分类:机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别

    机器学习 机器学习算法工程师:技术路线、方向选择、职业规划、最新技术(从小白到大魔王全攻略)_会害羞的杨卓越的博客-CSDN博客 专家系统 知识图谱 知识图谱:实体-关系-实体/知识建模/知识获取/知识融合/知识存储/知识应用_会害羞的杨卓越的博客-CSDN博客 特征工程

    2024年02月16日
    浏览(40)
  • 机器学习入门教学——人工智能、机器学习、深度学习

    1、人工智能 人工智能相当于人类的代理人,我们现在所接触到的人工智能基本上都是弱AI,主要作用是正确解释从外部获得的数据,并对这些数据加以学习和利用,以便灵活的实现特定目标和任务。 例如: 阿尔法狗、智能汽车 简单来说: 人工智能使机器像人类一样进行感

    2024年02月09日
    浏览(63)
  • 人工智能、机器学习、深度学习的区别

    人工智能涵盖范围最广,它包含了机器学习;而机器学习是人工智能的重要研究内容,它又包含了深度学习。 人工智能是一门以计算机科学为基础,融合了数学、神经学、心理学、控制学等多个科目的交叉学科。 人工智能是一门致力于使计算机能够模拟、模仿人类智能的学

    2024年02月08日
    浏览(41)
  • 《人工智能专栏》必读150篇 | 专栏介绍 & 专栏目录 & Python与PyTorch | 机器与深度学习 | 目标检测 | YOLOv5及改进 | YOLOv8及改进 | 关键知识点 | 工具

    各位读者们好,本专栏最近刚推出,限于个人能力有限,不免会有诸多错误,敬请私信反馈给我,接受善意的提示,后期我会改正,谢谢,感谢。 第一步 :[ 购买点击跳转 ] 第二步 : 代码函数调用关系图(全网最详尽-重要) 因文档特殊,不能在博客正确显示,请移步以下链接

    2024年02月02日
    浏览(52)
  • 一探究竟:人工智能、机器学习、深度学习

    1.1 人工智能是什么?          1956年在美国Dartmounth 大学举办的一场研讨会中提出了人工智能这一概念。人工智能(Artificial Intelligence),简称AI,是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的

    2024年02月17日
    浏览(39)
  • 机器学习、人工智能、深度学习三者的区别

    目录 1、三者的关系 2、能做些什么 3、阶段性目标 机器学习、人工智能(AI)和深度学习之间有密切的关系,它们可以被看作是一种从不同层面理解和实现智能的方法。 人工智能(AI):人工智能是一门研究如何使计算机能够模仿人类智能的学科。它涵盖了各种技术和方法,

    2024年02月14日
    浏览(45)
  • 12、人工智能、机器学习、深度学习的关系

    很多年前听一个机器学习的公开课,在QA环节,一个同学问了老师一个问题“ 机器学习和深度学习是什么关系 ”? 老师先没回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位,我当时也是初学一脸懵,会场准备的小礼品也没有拿到。 后来老师解释“机

    2024年02月05日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包