【强化学习入门】二.强化学习的基本概念：状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数-Toy模板网

这篇具有很好参考价值的文章主要介绍了【强化学习入门】二.强化学习的基本概念：状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.状态（State）

超级玛丽游戏中，观测到的这一帧画面就是一个 状态（State）。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

2.动作（Action）

玛丽做的动作：向左、向右、向上即为 动作（Action）。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

3.智能体（Agent）

动作是由谁做的，谁就是 智能体（Agent）。自动驾驶中，汽车就是智能体；机器人控制中，机器人就是智能体；超级玛丽游戏中，玛丽就是智能体。

4.策略（Policy）

策略（ Policy $\pi$ ）的含义就是，根据观测到的状态，做出动作的方案， $\pi(a|s)$ 的含义是在状态 $s$ 是采取动作 $a$ 的概率密度函数PDF。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

5.奖励（Reward）

强化学习的目标就是尽可能的获得更多的 奖励（Reward）。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

6.状态转移（State transition）

当智能体做出一个动作，状态会发生变化（从旧的状态变成新的状态）。我们就可以说状态发生的转移。状态转移可以是确定的，也可以是随机的。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
状态转移函数 $p (s^{'} ∣ s, a)$ 的公式：

$a)=\mathbb{P}(S' = s' | S=s, A=a)$

含义为： $p (s^{'} ∣ s, a)$ 表示在状态 $s$ 时，采取动作 $a$ ，跳转到新的状态 $s^{'}$ 的概率。

7.智能体与环境交互（Interacts with the environment）

步骤一： 智能体观测到环境的状态 $s_t$ ，然后做出动作 $a_t$
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
步骤二： 由于智能体做出了动作 $a_t$ ，环境的状态发生了变化，变成了 $s_{t+1}$ ；同时由于智能体做出的动作 $a_t$ ，获得了一个奖励 $r_t$ 。

8.强化学习随机性的两个来源（Randomness in RL）

8.1.动作具有随机性（Actions have randomness）

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
假定当前状态为 $s$ ，采取的动作 $a$ 具有随机性，可能采取向左的动作，可能采取向右的动作，可能采取向上的动作。

8.2.状态转移具有随机性（State transition have randomness）

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
假定当前状态为 $s$ ，采取的动作为 $a$ ，环境会跳转到下一个状态 $s^{'}$ 。状态从 $s$ 到 $s^{'}$ 的转移具有随机性。

9.轨迹（Trajectory）

由状态 $s t a t e$ 、动作 $a c t i o n$ 、奖励 $re w a r d$ 组成的一个序列，成为轨迹（trajectory）。
智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

10.回报（Return）和折扣回报（Discounted return）

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

回报： 指未来的累计奖励。从t时刻的开始一直到游戏结束，把未来的奖励加起来称之为回报。注意：由于t时刻游戏还没有结束， $R_t、R_{t+1}、R_{t+2}$ 等奖励，都是随机变量，不是具体的数值。

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体
折扣率： $\gamma$
折扣回报： 带折扣率的回报。

为什么回报具有随机性？

1）动作是随机的（状态为 $s$ 时，采取的动作 $a$ 具有随机性）：
$\mathbb{P}=[A=a | S=s] = \pi(a|s)$
2）状态转移是随机的（状态 $s$ 时采取了动作 $a$ ，跳转到下一个状态 $s^{'}$ ，从状态 $s$ 到状态 $s^{'}$ 具有随机性）:
$\mathbb{P}=[S' = s'| S=s, A=a] =p(s'|s, a)$

因此，对于任意时刻 $i \geq t$ ，奖励 $R_i$ 取决于状态 $S_i$ 和动作 $A_i$ 。

所以，回报 $U_t$ 取决于状态 $S_i、S_{i+1}、S_{i+2}、S_{i+3}…$ 和动作 $A_i、A_{i+1}、A_{i+2}、A_{i+3}…$

11.价值函数（Value Function）

11.1.动作价值函数（Action-Value Function）

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

如何评估随机变量的好坏？ ==> 求期望

动作价值函数： $Q_\pi(s,a) = \mathbb{E}[ U_t | S_t = s_t, A_t = a_t ]$ ，与状态 $S$ 有关，与动作 $A$ 有关，同时也与策略 $\pi$ 有关。

最优动作价值函数： $Q^*(s,a) = \max_{\pi}Q_\pi(s,a)$ ，策略 $\pi$ 有无数种，我们要选择一个能让 $Q_\pi(s,a)$ 最大化的策略 $\pi$ 。

11.2.状态价值函数（State-Value Function）

智能体动作状态,强化学习,人工智能,强化学习,深度学习,智能体

状态价值函数： $V_\pi(s_t) = \mathbb{E}_A[ Q_{\pi}(s_t, A)]$ ，利用求期望的方式可以把动作 $A$ 去掉，因此状态价值函数只与状态 $S$ 和策略 $\pi$ 有关。文章来源地址https://www.toymoban.com/news/detail-770296.html