【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning)

这篇具有很好参考价值的文章主要介绍了【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

        最近OpenAI的宫斗剧上演的精妙绝伦,简直就是《硅谷》+《继承》,强烈推荐这两部剧集。AIGC的群里都在说Q*是揭示AI接近AGI的一篇论文,那就费点时间拨开云雾吧。为了方便大众更好地理解Q*,本人在快速浏览过论文后首先得出此结论公式:

        Q* = (1992年的Q-learning + 1968年的A star算法) * Deep Transformer Learning

     本篇文章解读两篇论文。强烈建议延伸阅读第二篇文章的视频:Q-Transformer

Q-Transformer简介之机器人如何实现自主Q学习的动画

1、第一篇介绍Q* search论文全称是:A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS,作者是加州大学尔湾分校和南卡罗琳娜大学的研究员在2023年5月份提出的。原文链接:https://arxiv.org/abs/2102.04518

2、第二篇介绍Q transformer论文的全称是:Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions,作者是Deep Mind团队在2023年9月提出的。[2309.10150] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions (arxiv.org)

        Gpt-4先summary:

        Q* search论文解决了使用A*搜索在大动作空间中高效解决问题的挑战,这是人工智能领域一个重要的方法。A*搜索的计算和内存需求随动作空间大小线性增长,尤其是当使用由深度神经网络学习的计算成本高昂的启发式函数时。为了克服这一问题,作者引入了Q*搜索,这是一种新的搜索算法,采用深度Q网络。这种方法允许通过网络的单次前向传递计算节点子项的转换成本和启发式值之和,无需显式生成这些子节点。这显著减少了计算时间和每次迭代生成的节点数量。作者以包含1872个元动作的大动作空间下的魔方为例,展示了Q*搜索的有效性。结果显示,Q*搜索比A*搜索快达129倍,生成的节点数量少达1288倍。此外,他们证明了Q*搜索在给定适当启发式函数的情况下总能找到最短路径。​​

        在Q transformer这项工作中,作者提出了一种可扩展的强化学习方法,用于从大型离线数据集中训练多任务策略,这些数据集可以利用人类示范和自动收集的数据。作者的方法使用Transformer为通过离线时差备份训练的Q函数提供可扩展的表示。因此,我们将这种方法称为Q-Transformer。通过离散化每个动作维度并将每个动作维度的Q值表示为单独的标记,我们可以应用有效的高容量序列建模技术进行Q学习。作者介绍了几个设计决策,这些决策使得离线RL训练具有良好的性能,并展示了Q-Transformer在一套大型多样化的现实世界机器人操控任务中,超越了以前的离线RL算法和模仿学习技术​。

        到这里GPT已经剥夺了我解读论文的乐趣了。

论文解读

【Q* Search】A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS

        首先,在介绍Q* search之前要知道,A*算法是一个贪心算法。其讲求邻近收益最大化,即找到最近最好的路径,以此猜测通过迷宫的最优方法。它主要用于agent在现实中的行动指导,对计算量和内存空间的要求很高,并根据需要行动的地图大小呈线性增长。常见的用法是用在物流计算的问题上。我以前学过经典的旅行商问题TSP,用的就是A star算法作为一个补偿算法,面对需要较大的计算代价来寻求最优解时,在较短时间内找到较优解,也可以理解为在找local minima。算法非常简单,也很好用。

        Q*是什么呢,就是用了Deep Q-network来计算A star算法的邻近收益。Q-network的好处是能够计算下一节点的行动成本和启发值,而不用真的走到下一节点。翻译成人话就是:我在脑子里下棋。这就减少了计算开支、降低了内存空间的占用。作者用Q* search来解决魔方问题。解一个需要1872个动作才能完成的魔方,用Q*的好处是,当行动空间(action space)提高了157倍,计算时间只增加了不到4倍,计算内存空间也只增加了不到3倍。Q*相比A*快了129倍,并最多减少1288倍的计算空间。

        看完abstract我就知道我不需要看全文了,只草草扫了一眼。如果有兴趣要复现算法并验证的小伙伴们,可以再去深入研究一下整个算法的代码实现,毕竟是强化学习,逻辑比较通俗易懂。想象你在下棋会比较好理解。在每次迭代中,Q* search会从OPEN中弹出一个节点操作元组(s,a),并创建一个新的节点s‘=A(s,a)。Q* search不去向s‘节点行动,而是将DQN应用到s’,以获得其所有下一步行动节点的过渡成本(transition cost)和待执行成本(cost-to-go)的总和。因此,我们只需要计算一次前向DNN,而不是计算|A|。Q* search强制打开所有下一次行动a‘的新节点操作元组(s’,a‘),其中代价是通过sum(通过s节点的路径+对应于下一次行动a’的DQN输出)。在Q* search中,唯一依赖行动空间的变量是OPEN节点。与A* search不同,无论行动空间的大小如何,每次迭代只生成一个节点,而启发式函数每次迭代只需要应用一次。以下post出这个论文里algorithm的伪代码给各位研究:

Algorithm Q* Search
        Input: starting state s0, DQN qφ
        OPEN ← priority queue
        CLOSED ← maps nodes to their path cost
        a = NO OP
        f(s0, a0) = mina′ q(s0, a′ )
        g(s0) = 0
        Push (s0, a, g(s0)) to OPEN with cost f(s0, a0)
        CLOSED[s0] = g(s0)
        while not IS EMPTY(OPEN) do
                (s, a, g(s)) = POP(OPEN)
                s ′ = A(s, a)
                if IS GOAL(s ′ ) then
                        return PATH TO GOAL(s ′ )
                end if
                g(s ′ ) = g(s) + g a (s, s′ )
                if s ′ not in CLOSED or g(s ′ ) < CLOSED[s ′ ] then
                        CLOSED[s ′ ] = g(s ′ )
                        q = qφ(s ′ , .)
                        for a ′ in 0 to |A| do
                        f(s ′ , a′ ) = g(s ′ ) + q[a ′ ]
                        Push (s ′ , a′ , g(s ′ )) to OPEN with cost f(s ′ , a′ )
                end for
        end if
end while
return failure

【Q Transformer】Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

        在这个项目中,作者提出了一种可扩展**的强化学习方法,用于在一个很大的利用人工演示和自动收集的离线数据库里训练多任务策略。这个方法用一个Transformer来提供对离线时间差异备份(temporal difference backups)训练的Q-functions的可扩展表示,所以又称为是Q-Transformer。Q-Transformer离散化每一个动作维度,并且将每一个动作维度的Q值作为独立的token,就得到了高效的高吞吐量序列建模技术,应用于Q-learning。作者用了一系列设计技巧来让离线的Q-Transformer强化学习在大型的复杂的现实世界机器人操作任务组中训练的结果优于以往的强化学习算法和模仿学习技术。这想必就是其被认为达到AGI的魅力之处。

                **可伸缩性(可扩展性)是一种对软件系统计算处理能力的设计指标,高可伸缩性代表一种弹性,在系统扩展成长过程中,软件能够保证旺盛的生命力,通过很少的改动甚至只是硬件设备的添置,就能实现整个系统处理能力的线性增长,实现高吞吐量和低延迟高性能。

因github上的论文讲解已经很好地解释了原理,以下为我对其的中文理解和翻译:

Q Transformer方法论

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        作者首先描述如何通过应用行动空间的离散化和自回归来使用 Transformer 进行 Q-learning。使用 TD-learning进行Q-learning的常规方式是基于Bellman更新规则:

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        作者为行动空间(棋盘)中的每个动作维度(下棋)修改了Bellman更新规则公式,将原来的马尔科夫决策过程问题转换为对每个动作维度都进行 Q-learning。给定一个动作维度d A,新的Bellman更新规则就是:

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        这意味着对于每个中间的动作维度,我们在相同情况下最优化下一个动作维度,并且对于最后一个动作维度,我们用机器人下一个状态的第一个动作维度来连接。这种分解确保Bellman更新规则的最优化很容易处理,同时确保我们仍然解决了马尔科夫决策过程问题。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        为了计算离线学习的分布变换,我们引入了一种简单的正则化技术,该技术可以将看不见的动作(上图有颜色的方框指的是在离散情况下看不见的动作箱)最小化到最低值,意味着能够逐帧探测动作变化。为了加速学习过程,我们还采用蒙特卡罗方法(T step的MC Return):计算给定动作情节的原始返回值和能省略每个动作维度的最大值的n步返回值。(还要再看论文研究一下)

实验结果

        作者首先用 RT-1 论文中的一系列现实世界任务来评估 Q-Transformer,同时限制每个任务只能包含 100 个人类演示数据。除了人类演示之外,作者还添加了自动收集的失败情景视频。最后形成了包含来自人类演示的 38,000 个正面示例和自动收集的 20,000 个负面示例的数据集

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

Q-Transformer机械臂执行“挑选物品”任务

与RT-1、 IQL和 Decision Transformer (DT) 等baseline模型相比,Q-Transformer可以有效地利用自动情景视频来显著提高能力,诸如从抽屉中拿出和放进物体、在目标点附近移动物体,以及开关抽屉等技能。

        作者还在具有挑战性的模拟“挑选物品”任务中对这个方法进行了基准测试,其中只有约 8% 的数据是正例,其余的是噪声负例。Q-learning,例如 QT-Opt 、 IQL 、 AW-Opt 和 Q-Transformer 在这项任务上通常表现更好,因为它们能够利用负例通过动态编程来学习策略。 

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        当去除掉在“挑选物品”任务上的决策时,我们注意到conservative正则化项(regularizer)和蒙特卡洛方法(MC return)对于保持性能都很重要。切换到 Softmax(类似于用于 离散动作的CQL)性能明显比较差。原因是它将数据分布和策略选择绑定的太多,这表明我们选择的正则化项(MC return)更适合完成这种任务。 

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        当去除了 n 步返回的影响时,作者注意到引入的偏差值可以帮助我们以更少的梯度实现同样的高性能,使它们成为许多问题的有效选择。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        我们还尝试在更大的数据集上运行 Q-Transformer,将正面示例的数量扩大到 115,000 个,将负面示例的数量扩大到 185,000 个,从而产生 300,000 个片段。Q-Transformer 仍然能够从这个大型数据集中学习,甚至比 RT-1 BC 基线提供一些改进。所以说他是可扩展的模型嘛。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        最后,我们使用 Q-Transformer 训练的 Q-function作为可视化行动模型,并结合语言规划器,做成类似于 SayCan 的东西。SayCan指的是论文“Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”,论文链接在这里:https://arxiv.org/abs/2204.01691。有空我再研究一下。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

        Q-Transformer 可视化行动的规划比之前使用 QT-Opt 训练的 Q-function效果要更好,特别是将其他无样本任务标记为当前任务的训练负样本时。由于 Q-Transformer 不需要像 QT-Opt 那样从仿真到真机做迁移学习(sim-to real transfer),因此更方便在没有模拟环境的情况下使用它。这里指的是类似无人驾驶的学习是有模拟环境的,建筑装修也有,但不会耗费极大的资源来建造一个无意义的制作爆米花的模拟环境,Q-Transformer在只有真实环境的训练数据下也可以学习。

        为了测试这套完整的规划+执行系统,作者使用 Q-Transformer 进行可视化行动的规划和实际策略执行,结果显示它确实优于 QT-Opt 和 RT-1 组合。

【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning),论文阅读,人工智能,机器人

Q-Transformer结合语言规划器(Saycan like)

        从给定图像的可视化行动示例中可以看出,Q-Transformer 能够提供可在下游计划和执行框架中使用的高质量可视化行动预测策略。

        Q-Transformer大大降低了机器模仿学习人类的计算成本,在一些特定试验场景下的错误率控制在了20%以内,且在某些简单场景下表现非常出色,可能优于一只聪明的小鸡毛宝宝。我只能说一句,Well done,Q-Transformer。文章来源地址https://www.toymoban.com/news/detail-753716.html

到了这里,关于【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Effective Java笔记(20)接口优于抽象类

            Java提供了两种机制,可以用来定义允许多个实现的类型:接口和抽象类。自从Java 8为继承引入了 缺省方法 ( default method),这两种机制都允许为某些实例方法提供实现。主要的区别在于,为了实现由抽象类定义的类型,类必须成为抽象类的一个子类。因为Java只允许

    2024年02月14日
    浏览(48)
  • NeurIPS 2022|DeepMind最新研究:大模型背后的ICL可能与数据分布密切相关

    大模型 自然语言处理 机器学习 传统的文本语言模型 倾向于 两阶段的训练模式 ,即首先在 大规模语料库上进行预训练 ,然后在目标 下游任务上进行微调 , 这种方式会 受数据标注质量 和 过拟合 等多方面的影响 。最近兴起并流行的大型语言模型(large language models,LLMs)

    2024年02月09日
    浏览(49)
  • 可能导致OpenAI封号的操作

    1、 在openai不支持的国家/地区访问服务 目前openai支持的国家、地区有: 安提瓜和巴布达,阿根廷,亚美尼亚,澳大利亚,奥地利,巴哈马,孟加拉国,巴巴多斯,比利时,伯利兹,贝宁,不丹,玻利维亚,波斯尼亚和黑塞哥维那,博茨瓦纳,巴西,文莱,保加利亚,布基纳

    2024年02月06日
    浏览(77)
  • 【必看】揭秘AI革命背后的力量!550篇人工智能核心论文深度解析

    大家好,我是你们的知识探索者,今天我带来了一个前所未有的宝藏分享——一份涵盖了550篇人工智能领域核心论文的终极指南!这不仅仅是一份文档,而是一扇通往人工智能世界深处的大门。 ** ** 🌟 为什么这550篇论文至关重要? 在人工智能的浪潮中,无数的研究和实验层

    2024年02月21日
    浏览(68)
  • ai写作论文会被发现吗

    大家好,今天来聊聊ai写作论文会被发现吗,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作论文会被发现吗?揭秘背后的真相与挑战 随着人工智能技术的不断发展,AI写作论文已经成为一个备受关

    2024年02月19日
    浏览(36)
  • 五分钟了解GPT 模型背后的原理是什么?为什么 GPT 模型能生成有意义的文本?为什么 GPT 模型不会做简单的数学题?为什么有人担心 GPT 模型可能会危害人类?

    由于 GPT 模型的相关内容非常丰富,所以我计划对它进行更加深入的学习和研究,并把它应用到自己的工作、生活和学习中,用来提高工作效能,改善生活质量,提升学习效果。 按照第一性原理,在开始实战演练之前,我认为有必要先了解一下 GPT 模型背后的原理,这样才能

    2024年02月07日
    浏览(65)
  • OpenAI 生成视频模型 Sora 论文翻译

    视频生成模型作为世界模拟器 本技术报告的重点是 (1) 将所有类型的视觉数据转换为统一表示,以便对生成模型进行大规模训练的方法,以及 (2) 对索拉的能力和局限性的定性评估。 该报告不包括模型和实现细节。 许多先前的工作使用各种方法研究了视频数据的生成建模,包

    2024年02月20日
    浏览(58)
  • ChatGPT | 分享论文 Rebuttal、Review 时可能会用到的 Prompt

    ChatGPT 可以帮助润色学术论文,助力搞科研! 论文 Rebuttal, Review 过程中可能使用的一个 Prompt: Prompt:I want you to act as an English translator, spelling corrector and improver. I will speak to you in any language and you will detect the language, translate it and answer in the corrected and improved version of my text, in En

    2024年02月04日
    浏览(81)
  • 谷歌慌了!想发论文得审批,优先开发产品,让OpenAI没得看

    来源 | 机器之心  ID | almosthuman2014 众所周知,谷歌就像人工智能领域的「黄埔军校」,自深度学习兴起后培养出了整整一代机器学习研究人员和工程师。很长一段时间里,谷歌就是领先 AI 技术的代名词。 人们已经习惯跟随谷歌的脚步,使用其提出的新技术和工具作为研究

    2024年02月04日
    浏览(53)
  • 神经网络学习笔记6——生成式AI绘画背后的的GAN与Diffusion初解

    AI绘画,目前AI领域里最有话题性的技术,上一个这么火的话题是swin transformer网络,而2022年8月Jason Allen凭借AI绘画作品《太空歌剧院》拿下科罗拉多州博览会美术竞赛一等奖,瞬间引爆社会争论。后来10月19日,Jasper.ai 宣布完成了 1.25 亿美元的A 轮融资,估值达到了 15 亿美金,

    2024年02月03日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包