无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）-Toy模板网

这篇具有很好参考价值的文章主要介绍了无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在七月算法上报了《无人驾驶实战》课程，老师讲的真好。好记性不如烂笔头，记录一下学习内容。课程入口，感兴趣的也可以跟着学一下。

—————————————————————————————————————————文章来源地址https://www.toymoban.com/news/detail-639090.html

强化学习：通过和环境交互学习到如何在相应环境中采取最优策略的行为。特点是不需要标注，具有鲁棒性，对行为(Action)的学习更友好。

Environment：整体任务的工作环境

Reward：激励、奖励，对行为好坏的一个评价，Value Function，不同环境可以有不同的奖励，奖励的设计对RL来说至关重要。

Agent：智能体，一般是RL的作用对象

Action：智能体可以采取的所有可能的行动

Sensors：环境返回的当前情况

MDP模型：马尔科夫决策过程

无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）,自动驾驶,人工智能,机器学习

逆强化学习：能够找到一种能够高效可靠的Reward的方法，专家在完成某项任务时，其决策往往是最优或接近最优的。当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，对应的回报函数就是根据示例学到的回报函数。

常用的逆强化学习方法：学徒学习方法、最大边际规划算法MMP、基于最大熵的逆向强化学习

模仿学习：从专家提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，把状态作为特征，动作作为标记进行分类或回归的学习从而得到最优策略模型。目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配，算是一种监督学习方法（行为克隆）。特点是泛化性很差，依赖于大量数据数据增广

深度学习：感知能力，缺乏一定的决策能力

强化学习：决策能力，非常适合做无人车决策规划

强化学习中的一些分类：On-Policy vs Off-Policy、Model Based vs Model Free、Q-Learning vs SARSA、

DQN（Deep Q Network）端到端的学习方式、深度卷积神经网络和Q学习、经验回放技术；

DDPG（Deep Deterministic Policy Gradient ） actor-critic 算法、深度神经网络作为逼近器；