【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数

这篇具有很好参考价值的文章主要介绍了【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.状态(State)

超级玛丽游戏中,观测到的这一帧画面就是一个 状态(State)
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

2.动作(Action)

玛丽做的动作:向左、向右、向上即为 动作(Action)
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

3.智能体(Agent)

动作是由谁做的,谁就是 智能体(Agent)。自动驾驶中,汽车就是智能体;机器人控制中,机器人就是智能体;超级玛丽游戏中,玛丽就是智能体。

4.策略(Policy)

策略( Policy π \pi π的含义就是,根据观测到的状态,做出动作的方案, π ( a ∣ s ) \pi(a|s) π(as) 的含义是在状态 s s s 是采取动作 a a a 的概率密度函数PDF。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

5.奖励(Reward)

强化学习的目标就是尽可能的获得更多的 奖励(Reward)
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

6.状态转移(State transition)

当智能体做出一个动作,状态会发生变化(从旧的状态变成新的状态)。我们就可以说状态发生的转移。状态转移可以是确定的,也可以是随机的。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
状态转移函数 p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 的公式:

p ( s ′ ∣ s , a ) = P ( S ′ = s ′ ∣ S = s , A = a ) p(s' | s, a)=\mathbb{P}(S' = s' | S=s, A=a) p(ss,a)=P(S=sS=s,A=a)

含义为: p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 表示在状态 s s s 时,采取动作 a a a ,跳转到新的状态 s ′ s' s 的概率。

7.智能体与环境交互(Interacts with the environment)

步骤一: 智能体观测到环境的状态 s t s_t st,然后做出动作 a t a_t at
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
步骤二: 由于智能体做出了动作 a t a_t at,环境的状态发生了变化,变成了 s t + 1 s_{t+1} st+1;同时由于智能体做出的动作 a t a_t at, 获得了一个奖励 r t r_t rt
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

8.强化学习随机性的两个来源(Randomness in RL)

8.1.动作具有随机性(Actions have randomness)

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
假定当前状态为 s s s,采取的动作 a a a 具有随机性,可能采取向左的动作,可能采取向右的动作,可能采取向上的动作。

8.2.状态转移具有随机性(State transition have randomness)

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
假定当前状态为 s s s,采取的动作为 a a a,环境会跳转到下一个状态 s ′ s' s。状态从 s s s s ′ s' s 的转移具有随机性。

9.轨迹(Trajectory)

由状态 s t a t e state state 、动作 a c t i o n action action 、奖励 r e w a r d reward reward 组成的一个序列,成为轨迹(trajectory)。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

10.回报(Return)和折扣回报(Discounted return)

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

回报: 指未来的累计奖励。从t时刻的开始一直到游戏结束,把未来的奖励加起来称之为回报。注意:由于t时刻游戏还没有结束, R t 、 R t + 1 、 R t + 2 R_t、R_{t+1}、R_{t+2} RtRt+1Rt+2 等奖励, 都是随机变量,不是具体的数值。

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
折扣率: γ \gamma γ
折扣回报: 带折扣率的回报。

为什么回报具有随机性?

  • 1)动作是随机的(状态为 s s s 时,采取的动作 a a a 具有随机性):
    P = [ A = a ∣ S = s ] = π ( a ∣ s ) \mathbb{P}=[A=a | S=s] = \pi(a|s) P=[A=aS=s]=π(as)

  • 2)状态转移是随机的(状态 s s s 时采取了动作 a a a ,跳转到下一个状态 s ′ s' s ,从状态 s s s 到 状态 s ′ s' s 具有随机性):
    P = [ S ′ = s ′ ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) \mathbb{P}=[S' = s'| S=s, A=a] =p(s'|s, a) P=[S=sS=s,A=a]=p(ss,a)

因此,对于任意时刻 i ≥ t i≥t it,奖励 R i R_i Ri 取决于 状态 S i S_i Si 和动作 A i A_i Ai

所以,回报 U t U_t Ut 取决于状态 S i 、 S i + 1 、 S i + 2 、 S i + 3 … S_i、S_{i+1}、S_{i+2}、S_{i+3}… SiSi+1Si+2Si+3 和动作 A i 、 A i + 1 、 A i + 2 、 A i + 3 … A_i、A_{i+1}、A_{i+2}、A_{i+3}… AiAi+1Ai+2Ai+3

11.价值函数(Value Function)

11.1.动作价值函数(Action-Value Function)

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

如何评估随机变量的好坏? ==> 求期望

动作价值函数: Q π ( s , a ) = E [ U t ∣ S t = s t , A t = a t ] Q_\pi(s,a) = \mathbb{E}[ U_t | S_t = s_t, A_t = a_t ] Qπ(s,a)=E[UtSt=st,At=at] ,与状态 S S S 有关,与动作 A A A 有关,同时也与策略 π \pi π 有关。

最优动作价值函数: Q ∗ ( s , a ) = max ⁡ π Q π ( s , a ) Q^*(s,a) = \max_{\pi}Q_\pi(s,a) Q(s,a)=maxπQπ(s,a) , 策略 π \pi π 有无数种,我们要选择一个能让 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a) 最大化的策略 π \pi π

11.2.状态价值函数(State-Value Function)

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

状态价值函数: V π ( s t ) = E A [ Q π ( s t , A ) ] V_\pi(s_t) = \mathbb{E}_A[ Q_{\pi}(s_t, A)] Vπ(st)=EA[Qπ(st,A)] ,利用求期望的方式可以把动作 A A A 去掉,因此状态价值函数只与状态 S S S 和策略 π \pi π 有关。文章来源地址https://www.toymoban.com/news/detail-770296.html

到了这里,关于【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI入门之深度学习:基本概念篇

    1、什么是深度学习 1.1 机器学习 图1:计算机有效工作的常用方法:程序员编写规则(程序),计算机遵循这些规则将输入数据转换为适当的答案。这一方法被称为符号主义人工智能,适合用来解决定义明确的逻辑问题,比如早期的PC小游戏:五子棋等,但是像图像分类、语

    2024年03月18日
    浏览(43)
  • react之react-redux的介绍、基本使用、获取状态、分发动作、数据流、reducer的分离与合并等

    官网地址 React 和 Redux 是两个独立的库,两者之间职责独立。因此,为了实现在 React 中使用 Redux 进行状态管理 ,就需要一种机制,将这两个独立的库关联在一起。这时候就用到 React-Redux 这个绑定库了 作用:为 React 接入 Redux,实现在 React 中使用 Redux 进行状态管理。 react-r

    2024年02月11日
    浏览(38)
  • 网络协议从入门到底层原理学习(一)—— 简介及基本概念

    一、简介 1、网络协议的定义 什么是网络协议? 网络协议是由定义网络上两个或多个设备之间通信的规则、过程和格式组成的正式标准和策略 它们确保计算机网络设备可以使用一种通用语言传输和接收数据,而不管它们的设计、硬件或基础设施如何。 网络协议管理及时、安全

    2024年02月09日
    浏览(36)
  • 强化学习策略梯度推导

    本文主角: ∇ θ J ( θ ) ∝ ∑ s ∈ S μ π θ ( s ) ∑ a ∈ A Q π θ ( s , a ) ∇ θ π θ ( a ∣ s ) nabla_{theta}J(theta) propto sum_{s in mathcal{S}} mu^{pi_{theta}}(s) sum_{a in mathcal{A}} Q^{pi_{theta}}(s, a) nabla_{theta}pi_{theta}(a|s) ∇ θ ​ J ( θ ) ∝ ∑ s ∈ S ​ μ π θ ​ ( s ) ∑ a ∈ A ​ Q π θ

    2024年02月22日
    浏览(31)
  • 强化学习——策略梯度之Reinforce

    1、策略梯度介绍 相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进

    2024年02月14日
    浏览(23)
  • 【操作系统和强化学习】1.内存管理策略

    CPU的调度可以提高CPU的利用率和计算机的响应用户的速度。为了改进性能,应该将多个进程保存在内存中。也就是说必须共享内存。 本文讨论的是如管理内存。 内存是现代计算机运行的核心,由一个很大的字节数组来组成,每个字节都有各自的地址。 CPU根据程序计数器的值

    2024年02月02日
    浏览(64)
  • (9-5)基于深度强化学习的量化交易策略(OpenAI Baselines +FinRL+DRL+PyPortfolioOpt):深度强化学习算法模型

    本项目的深度强化学习算法的是基于Stable Baselines实现的,Stable Baselines是OpenAI Baselines的一个分支,经过了重大的结构重构和代码清理工作。另外,在库FinRL中包含了经过调优的标准深度强化学习算法,如DQN、DDPG、多智能体DDPG、PPO、SAC、A2C和TD3,并且允许用户通过调整这些深度

    2024年01月25日
    浏览(35)
  • ChatGPT强化学习大杀器——近端策略优化(PPO)

    近端策略优化 ( P roximal P olicy O ptimization)来自 Proximal Policy Optimization Algorithms (Schulman et. al., 2017)这篇论文,是当前最先进的强化学习 (RL) 算法。这种优雅的算法可以用于各种任务,并且已经在很多项目中得到了应用,最近火爆的ChatGPT就采用了该算法。 网上讲解ChatGPT算法

    2024年01月21日
    浏览(34)
  • 人工智能基础_机器学习001_线性回归_多元线性回归_最优解_基本概念_有监督机器学习_jupyter notebook---人工智能工作笔记0040

       线性和回归,就是自然规律,比如人类是身高趋于某个值的概率最大,回归就是通过数学方法找到事物的规律. 机器学习作用: 该专业实际应用于机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序

    2024年02月06日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包