谷歌研究科学家:ChatGPT秘密武器的演进与局限

这篇具有很好参考价值的文章主要介绍了谷歌研究科学家:ChatGPT秘密武器的演进与局限。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

谷歌研究科学家:ChatGPT秘密武器的演进与局限

来源|TalkRL

OneFlow编译
翻译|徐佳渝、贾川

 

同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习

在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。

具体而言,RLHF阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对不同提示的“理想”回答数据微调LLM;第二步:LLM 为每个提示提供多个答案,然后由人工评估员对这些答案进行排名(该排名用于训练奖励模型);第三步:用近端策略优化(PPO)模型来优化LLM的奖励模型。

此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。

Natasha是Google Brain的高级研究科学家,OpenAI的不少工作引用了她所发表的与RLHF和对话模型相关的强化学习论文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客节目中,她从第三方视角,介绍了对RLHF及其奖励模型相关思路,以及对强化学习研究与AGI发展等方面的看法。

目前,她的研究重点是社交强化学习(Social Reinforcement Learning),开发结合来自社交学习和多智能体训练的见解的算法,以提高AI智能体的学习、泛化、协作以及人机交互能力。2024年1月,她将加入华盛顿大学计算机科学学院担任助理教授。

(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。来源:https://www.talkrl.com/episodes/natasha-jaques-2)

1

RLHF相关研究与成本效益

Robin Chauhan:你很早就开始了人类反馈的强化学习(RLHF)以及对话模型这方面的类似研究,而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系?

Natasha Jaques:回到2016年,当时我正在思考如何利用预训练语言模型进行微调。具体来说,我关注的是LSTM模型,并尝试使用强化学习对其进行微调。那时,我关注的点不在语言本身,而是音乐生成和分子生成之类的方法,例如生成类似药物分子的方法。

在我看来,分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型,并生成新的分子,但是这些分子可能缺乏我们所需的特性,如易于合成药物。因此,我们还需要对分子的“合成可及性(synthetic accessibility)”进行评估。但仅依靠数据集训练是不够的,因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性,也可能会生成一些无用的分子。

因此,我们需要对这两个方面进行评估和优化。对于这一问题,我们可以使用强化学习来优化药物相似性(drug likeness)或合成可及性,但由于数据存在缺陷,这种方法并不完美。

我们提出了一个解决方案:首先在数据集上进行预训练,然后再使用强化学习来优化某些奖励,同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习,使用监督学习来获得数据集中的有用信息,同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出,这与当前使用的RLHF方法密切相关。

在该技术中,我们首先在数据集上对大型语言模型进行预训练,然后通过人类反馈来优化模型,同时最小化优化模型与预训练先验模型之间的KL散度,这对于RLHF框架有重要意义。

同时,我也在研究从人类反馈中学习的RLHF方法。2019年前后,我们采用了同样的KL控制方法,即让对话模型尝试优化与人类交谈获得的信号,而非让人类评价对话的好坏,同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。

我们的目标是从与人类对话的隐含信号中学习,而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈,而是通过分析文本的情感等隐含信号来为模型提供奖励信号。

例如,当对话中的人听起来普遍高兴时,我们就会将其视为正面奖励信号来训练模型。反之,当他们听起来沮丧或困惑时&#文章来源地址https://www.toymoban.com/news/detail-445238.html

到了这里,关于谷歌研究科学家:ChatGPT秘密武器的演进与局限的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Docker 如何助您成为数据科学家

            在过去的 5 年里,我听到了很多关于 docker 容器的嗡嗡声。似乎我所有的软件工程朋友都在使用它们来开发应用程序。我想弄清楚这项技术如何使我更有效率,但我发现网上的教程要么太详细:阐明我作为数据科学家永远不会使用的功能,要么太肤浅:没有给我足

    2024年02月15日
    浏览(37)
  • 数据科学家对AI和机器学习的认知

    作者:禅与计算机程序设计艺术 数据科学家的角色如今已经越来越重要,越来越多的人选择从事这一职业。尽管数据科学家可能并不一定会涉及到所有具体的机器学习或深度学习技术,但他们肩负着许多核心责任,包括收集、分析、理解和处理海量数据、设计并实施有效的数

    2024年02月08日
    浏览(72)
  • 为什么Python是数据科学家的首选语言

    这篇文章全面探讨了Python作为数据科学领域首选语言的原因。从Python的历史、特性,到在数据科学中的应用实例,再到与其他数据科学语言的比较,以及在实际企业中的应用,我们深入剖析了Python的优势与挑战,最后对Python的未来进行了展望。 在21世纪的数据时代,数据科学

    2024年02月16日
    浏览(48)
  • 把大模型当CPU,前阿里云首席安全科学家创业项目曝光

    衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 大模型创业,“最安全”的人来了! 吴翰清 ,前阿里云首席安全科学家、P10级研究员在今年5月离职阿里后,现在被曝投身AI创业。 量子位了解到,他在杭州成立了一家名为 KMind 的公司,年中时已经完成一轮融资。 KMind创始团队堪称大

    2024年02月04日
    浏览(45)
  • 微软数据科学家助理(Data Scientist Associate)认证考试通过经验分享(DP-100)

    今天冒着大疫情,去海淀的test center参加考试,通过了微软 DP-100 在 Azure 上设计和实现数据科学解决方案 ,并且获得了 经 Microsoft 认证:Azure 数据科学家助理  的证书 。 经 Microsoft 认证:Azure 数据科学家助理 考试结束的当时,就可以看到自己的分数,考试中心会把你的考试

    2024年02月10日
    浏览(45)
  • 专访丨AWS量子网络中心科学家Antía Lamas谈量子计算

    ​ Antía Lamas Linares(图片来源: 网络) 47岁的Antía Lamas Linares出生于西班牙西北部的圣地亚哥德孔波斯特拉。她在当地学习物理学,然后在牛津大学和加利福尼亚继续深造。后来,她在新加坡领导了亚马逊网络服务(AWS)量子网络中心。 近年来,她致力于研究量子计算,这个

    2024年02月05日
    浏览(51)
  • 微软人工智能在伦敦设立新中心,由前 Inflection 和 Deepmind 科学家乔丹-霍夫曼(Jordan Hoffmann)担任负责人

    微软宣布为其新近成立的消费人工智能部门设立一个新的伦敦中心。该中心将由乔丹-霍夫曼(Jordan Hoffmann)领导,他是微软最近从备受瞩目的人工智能初创公司Inflection AI(微软去年投资了该公司)挖来的一名人工智能科学家和工程师。 这一消息是在微软首席执行官萨蒂亚

    2024年04月27日
    浏览(28)
  • 如何使用ChatGPT给出MidJourney提示-【秘密武器】

    探索Midjourney之旅,学习绘画与AI,一同成长。加入「阿杰与AI」公众号,参与内容社群建设。 1.Midjourney 新手快速起步指南 2.Prompts-提示指令 3.Explore Prompting-提示指令的探索 4.Blend-叠加 5.Midjourney Discord的使用手册 6.Versions-版本 7.UpScalers-放大器 8.Midjourney 命令教程 9.Midjourney 参数

    2024年02月10日
    浏览(67)
  • ChatGPT: 提升程序员开发效率的秘密武器!

    在现代软件开发中,时间和效率显得尤为重要。程序员们需要在尽可能短的时间内编写高质量的代码,并使之处于状态良好的维护周期。为满足这些需求,人工智能技术逐渐成为软件开发的一项核心能力。ChatGPT作为自然语言生成模型中的佼佼者,为程序员们提供了一个全新的

    2024年02月13日
    浏览(49)
  • 【稳定性】秘密武器--功能开关技术

    继上篇【稳定性:关于缩短MTTR的探索】后,看到一些线上问题应急预案采用的是回滚方案, 但是在大部分牵扯代码场景下,开关技术才是线上问题快速止血的最佳方式 。比如履约平台组的Promise作为下单黄金链路,如遇线上问题的话, 采用通用的回滚方式需要5-10+分钟(500+台

    2024年02月08日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包