通用人工智能之路:什么是强化学习?如何结合深度学习?

这篇具有很好参考价值的文章主要介绍了通用人工智能之路:什么是强化学习?如何结合深度学习?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 ChatGPT中的强化学习

2015年,OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立,公司核心宗旨在于实现安全的通用人工智能(AGI),使其有益于人类。ChatGPTOpenAI推出的一个基于对话的原型 AI 聊天机器人,2022年12 月 1 日,OpenAI的联合创始人山姆·奥特曼在推特上公布ChatGPT并邀请人们免费试用

ChatGPT可以与人类进行谈话般的交互,可以回答追问,连续性的问题,承认其回答中的错误,指出人类提问时的不正确前提,拒绝回答不适当的问题,其性能大大超乎人们对弱人工智能的想象。ChatGPT魔力的关键因素之一可以追溯到2017年的概念人类反馈强化学习(RLHF)

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

RLHF的关键在于在难以明确规定任务的强化学习环境中操作,在这些情景下,人类反馈可能产生巨大的影响。RLHF利用人类评估者的少量反馈来引导智能体对目标及其相应奖励函数的理解。

RLHF的训练过程大致阐述为

智能体从环境中随机采取行动,智能体每隔一段时间向人类评估者展示学习效果。根据效果,评估者会施加引导信息,智能体然后利用这个反馈逐渐建立起一个最能解释人类判断的目标和奖励函数的模型。一旦智能体对目标及其相应奖励函数有了清晰的理解,它就使用传统强化学习方法来学习如何实现该目标。随着行为的改善,智能体会继续请求关于它最不确定哪个更好的轨迹对的人类反馈,进一步完善对目标的理解

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

ChatGPT是大型语言模型的缩影,而这个领域已成为应用现代强化学习技术最有趣的领域之一。接下来,我们将介绍深度强化学习的基本概念,以及有效的学习路线

2 环境与智能体的交互

环境(Environment)是机器学习任务所依赖的物理规则与载体,例如

  • 在下棋对弈任务中,环境是棋盘、对手与游戏规则
  • 在机器人控制任务中,环境是机器人硬件、任务场景与物理定律

智能体(Agent)是存在于环境中的实例,智能体必须依赖环境,并与环境产生交互。智能体不能改变环境的物理规则,但可以通过传感器(Sensor)观察来感知环境(感知的结果称为状态),通过决策器(decision maker)来根据状态决定将要采取的行动,最后通过执行器(Actuator)动作来影响环境。

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

举例而言

  • 人类Agent有眼睛、耳朵和其他器官等传感器,也有手、腿、声道等作为执行器
  • 硬件Agent可能用摄像头、红外测距仪作为传感器,各种马达作为执行器
  • 软件Agent接受键盘敲击、文件内容和网络数据包作为传感器输入,并以屏幕显示、写文件和发送网络数据包为执行器

Agent的核心是决策器,其内部存在一个从感知到行为的映射,称为Agent函数(或称之为策略)。Agent函数的具体实现过程称为Agent程序,机器学习等人工智能学科就是一系列Agent程序设计的方法论。Agent根据外部环境感知做出相应行为,很自然地需要判断Agent函数的好坏。若这个行为符合期望,则认为智能体是理性的(Rational)

3 强化学习特征四元组

接下来,我们正式给出经典强化学习的定义

强化学习(Reinforcement Learning, RL)在潜在的不确定复杂环境中,训练一个最优决策 π \pi π指导一系列行动实现目标最优化的机器学习方法

强化学习与监督学习的不同之处在于不需要进行样本标注,核心是通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

在初始情况下,没有训练数据告诉强化学习智能体并不知道在环境中应该针对何种状态采取什么行动,而是通过不断试错得到最终结果,再反馈修正之前采取的策略,因此强化学习某种意义上可以视为具有“延迟标记信息”的监督学习问题。

强化学习的基本过程是:智能体对环境采取某种行动 a a a,观察到环境状态发生转移 s 0 → s s_0\rightarrow s s0s,反馈给智能体转移后的状态 s s s和对这种转移的奖赏 r r r。综上所述,一个强化学习任务可以用四元组 E = < S , A , P , R > E=\left< S,A,P,R \right> E=S,A,P,R表征

  • 状态空间 S S S:每个状态 s ∈ S s \in S sS是智能体对感知环境的描述;
  • 动作空间 A A A:每个动作 a ∈ A a \in A aA是智能体能够采取的行动;
  • 状态转移概率 P P P:某个动作 a ∈ A a \in A aA作用于处在某个状态 s ∈ S s \in S sS的环境中,使环境按某种概率分布 P P P转换到另一个状态;
  • 奖赏函数 R R R:表示智能体对状态 s ∈ S s \in S sS下采取动作 a ∈ A a \in A aA导致状态转移的期望度,通常 r > 0 r>0 r>0为期望行动, r < 0 r<0 r<0为非期望行动。

状态空间有限的基本强化学习可以用马尔科夫决策过程进行抽象建模,可见机器学习强基计划6-1:图文详细总结马尔科夫链及其性质(附例题分析)

4 深度强化学习的引入

传统强化学习大多基于数值离散状态空间的任务,即根据所有数值组合的状态是有限的,但现实中往往面临数值连续的无限状态空间。例如围棋任务的状态空间规模高达 1 0 17 10^{17} 1017;自动驾驶任务中状态可能由激光雷达、陀螺仪、里程计的连续数值共同组成。庞大的状态空间导致无法维护内部用以决策的数据结构——例如Q-Learning算法的Q-Table,因此引入深度强化学习(Deep Reinforcement Learning, DRL)

深度强化学习融合了深度学习和强化学习框架,其中

  • 深度学习负责感知和拟合非结构化的环境输入信息,而不依赖于对状态空间的人工建模,克服了无限状态空间问题
  • 强化学习负责通过奖励期望行动和惩罚非期望行动的方式在探索(未知领域)和利用(现有知识)之间找到平衡

深度强化学习使智能体具有在未知环境中做出复杂决策的能力,在机器人、游戏、自然语言处理等诸多领域得到广泛应用。如图所示,深度学习为强化学习提供了策略评估,而强化学习根据评估值进行策略改进,与环境交互产生训练样本反馈给神经网络,增强其感知能力

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

5 教程大纲

本专栏将重点介绍强化学习技术,并且采用Pytorch框架对常见的强化学习算法、案例进行实现,帮助读者理解原理。同时,辅以各种机器学习、数据处理技术,弥补一些人工智能的底层知识

🔥 专栏地址:Pytorch深度强化学习,具体大纲如下


🚀 第一章——经典强化学习理论

  • 通用人工智能之路:什么是强化学习?如何结合深度学习?
  • Pytorch深度强化学习1-1:Gym安装与环境搭建教程(附基本指令表)
  • Pytorch深度强化学习1-2:详解K摇臂赌博机模型和 ϵ \epsilon ϵ-贪心算法
  • Pytorch深度强化学习1-3:策略评估与贝尔曼期望方程详细推导
  • Pytorch深度强化学习1-4:策略改进定理与贝尔曼最优方程
  • Pytorch深度强化学习1-5:详解蒙特卡洛强化学习原理
  • Pytorch深度强化学习1-6:详解时序差分强化学习(SARSA、Q-Learning算法)

🚀 第二章——深度强化学习理论

  • Pytorch深度强化学习2-1:基于价值的强化学习——DQN算法
  • Pytorch深度强化学习2-2:基于价值的强化学习——Prioritized Replay DQN
  • Pytorch深度强化学习2-3:基于价值的强化学习——Dueling DQN
  • Pytorch深度强化学习2-4:基于策略的强化学习——策略梯度定理
  • Pytorch深度强化学习2-5:基于策略的强化学习——基线优化(Baseline)
  • Pytorch深度强化学习2-6:演员-评论家框架——A2C与A3C算法
  • Pytorch深度强化学习2-7:演员-评论家框架——DDPG与TD3算法

🚀 第三章——深度强化学习案例

  • Pytorch深度强化学习案例:基于Q-Learning的机器人走迷宫
  • Pytorch深度强化学习案例:基于DQN实现Flappy Bird游戏与分析

加入我们

目前博主正在组建深度学习技术交流群,群中成员是有明确共同目标,共同愿景的,这样才能共同成长,所以只要你想学好机器学习、深度学习就请加入我们(下方名片),让我们一起从理论到实践攻克深度学习,为从事相关工作或科研打下基础!

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划

通用人工智能之路:什么是强化学习?如何结合深度学习?,# Pytorch深度强化学习,Pytorch深度学习实战,人工智能,深度学习,强化学习,自动驾驶,AIGC,原力计划
当然群里也配套长期更新的网盘资源福利等你领取!

上面给出的是教程的大致大纲,后面可能会有顺序和内容的调整,但可以保证内容量只增不减,更新频率为一周1~2更。所有应用类内容都配有代码,可以放心使用


🔥 更多精彩专栏文章来源地址https://www.toymoban.com/news/detail-594373.html

  • 《ROS从入门到精通》
  • 《Pytorch深度学习实战》
  • 《机器学习强基计划》
  • 《运动规划实战精讲》

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

到了这里,关于通用人工智能之路:什么是强化学习?如何结合深度学习?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】— 学习与机器学习、无/有监督学习、强化学习、学习表示

    贝叶斯网络提供了一个自然的表示方式,用于描述(因果引起的)条件独立性。 拓扑结构 + 条件概率表 = 联合分布的紧凑表示。 通常易于领域专家构建。 通过变量消除进行精确推断: 在有向无环图上的时间复杂度是多项式级别的,但在一般图上为 NP-hard。 空间复杂度与时间

    2024年02月07日
    浏览(42)
  • 人工智能导论——机器人自动走迷宫&强化学习

    强化学习是机器学习中重要的学习方法之一,与监督学习和非监督学习不同,强化学习并不依赖于数据,并不是数据驱动的学习方法,其旨在与发挥智能体(Agent)的主观能动性,在当前的状态(state)下,通过与环境的交互,通过对应的策略,采用对应的行动(action),获得一定的奖

    2024年02月06日
    浏览(28)
  • 走进人工智能|强化学习 AI发展的未来引擎

    前言: 强化学习是一种通过智能体与环境交互,通过尝试最大化累计奖励来学习最优行为策略的机器学习方法。 本篇带你走进强化学习!一起来学习了解吧!!! 强化学习是一种机器学习方法,旨在通过试错来学习正确的行为。与其他机器学习方法不同,强化学习的主要目

    2024年02月10日
    浏览(26)
  • 深度强化学习与人工智能:如何实现高效的资源分配

    深度强化学习(Deep Reinforcement Learning, DRL)是一种人工智能技术,它结合了深度学习和强化学习两个领域的优点,以解决复杂的决策问题。在过去的几年里,DRL已经取得了显著的成果,例如在游戏、机器人控制、自动驾驶等领域的应用。在资源分配方面,DRL可以帮助企业更有效地

    2024年02月21日
    浏览(39)
  • 从人工智能到机器学习到深度学习、强化学习,以及相关的算法原理、应用场景等方面对人工智能技术的研究进行全面的综述

    作者:禅与计算机程序设计艺术 2021年是一个重要的历史节点,数字化时代正在席卷全球各个角落。大数据、云计算、区块链等新兴技术带动着各行各业的变化与革命,机器学习(ML)、深度学习(DL)、强化学习(RL)等AI技术也越发成熟。随之而来的,伴随着人工智能应用的

    2024年02月07日
    浏览(38)
  • 强化学习在人工智能的发展中的重要性与前景

    强化学习(Reinforcement Learning, RL)是一种人工智能(Artificial Intelligence, AI)技术,它通过在环境中进行交互,学习如何取得最大化的奖励。在过去的几年里,强化学习技术取得了显著的进展,并在许多领域得到了广泛应用,如游戏、自动驾驶、机器人控制、语音识别等。 在本文中,

    2024年02月20日
    浏览(28)
  • 强化学习:原理与Python实战||一分钟秒懂人工智能对齐

    人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。 人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主

    2024年02月05日
    浏览(22)
  • 火星探测器背后的人工智能:从原理到实战的强化学习

    本文详细探讨了强化学习在火星探测器任务中的应用。从基础概念到模型设计,再到实战代码演示,我们深入分析了任务需求、环境模型构建及算法实现,提供了一个全面的强化学习案例解析,旨在推动人工智能技术在太空探索中的应用。 关注TechLead,分享AI全维度知识。作

    2024年02月05日
    浏览(32)
  • 人工智能的分类:机器学习/专家系统/推荐系统/知识图谱/强化学习/迁移学习/特征工程/模式识别

    机器学习 机器学习算法工程师:技术路线、方向选择、职业规划、最新技术(从小白到大魔王全攻略)_会害羞的杨卓越的博客-CSDN博客 专家系统 知识图谱 知识图谱:实体-关系-实体/知识建模/知识获取/知识融合/知识存储/知识应用_会害羞的杨卓越的博客-CSDN博客 特征工程

    2024年02月16日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包