OneFlow编译
翻译|贾川、徐佳渝、杨婷
大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。
OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家Ilya Sutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。
没有比Schulman更权威的RLHF研究者,他也是强化学习领域无可置疑的大牛。
加入OpenAI之前,Schulman在加州大学伯克利分校攻读博士学位,一开始主要研究机器人技术,随着深度学习兴起,转而研究强化学习,其导师正是强化学习领域的领军人物Pieter Abbeel。
Schulman在强化学习研究领域作出了许多重大贡献,包括发明了TRPO算法(信赖域策略优化)、GAE(广义优势估计,Generalized Advantage Estimation)以及PPO算法(近端策略优化)。
如今,Schulman还在强化学习研究的最前线尝试解决公认难题,他的最新思考或许会为业内其他研究者带来启发。
(以下内容由OneFlow编译发布,转载请联系OneFlow获得授权。来源:https://www.youtube.com/watch?v=hhiLw5Q_UFg)
1
语言模型幻觉溯源
提到语言模型,很多人应该听过“幻觉”这个名词。上图就是一个关于幻觉的例子,这不是精挑细选的,而是我做测试时的第一个样本。
我的问题是:请告诉我John Schulman因在家饲养野生动物而被捕的相关情况。GPT-3.5 Instruct是经过强化学习训练过的模型,给出的回答是关于John Schulman饲养老虎和小型美洲猫之类的事情。GPT-3.5 Turbo(Chat)的整体表现与GPT-3.5 Instruct一致,且智能程度相同,只是微调方式不同,它给出的回答是:抱歉,我没有查到任何关于John Schulman被捕的相关情况。
然后,我又尝试对聊天功能进行微调过的GPT-4(Chat),它的回答是:很抱歉,我没有找到有关John Schulman因在家中饲养野生动物而被捕的任何信息,我的知识截止于2021年9月。John Schulman是人工智能领域的著名研究人员……
这是“幻觉”问题的一个很好示例。相比之下,我觉得GPT-4的表现相当不错。
当人们说幻觉时,主要指的是两类不同情况。其中一类幻觉是语言模型的模式完成(pattern completion)行为。它们的训练目的是最大化文本可能性,使生成的内容看起来很像互联网上的文本。
这主要有三个原因:1. 它不知道自己可以回答“我不知道”或者表达不确定性。如果告诉模型可以回答“我不知道”,那么在一定程度上能解决幻觉问题;2. 模型有时不愿意去质疑前提(premise),它认为前提是数据分布的一部分;3. 模型有时会陷入谎言之中。如果模型已经犯了一个错误,那么它会认为自己应该继续回答下去,生成一连串响应,这也意味着它会继续说谎。
语言模型的另一类幻觉是“猜错了”。就像人类一样,你可能只遇到过一次某件事情,自己不能确定,感到很模糊,所以在回答时必须带点猜测,有时可能就会猜错。
比如很多人喜欢问模型关于自己的问题,就像用谷歌搜索自己一样,所以我也尝试让模型写一篇个人介绍。
InstructGPT回答,“John是一位AI研究科学家,在OpenAI工作。他曾是卡内基梅隆大学的计算机科学教授等等。”此外还增加了一堆虚构的东西。GPT-3.5的回答有点模糊,但基本上正确,它说我本科就读于斯坦福大学,在Pieter Abbeel的指导下做研究,还提到了信赖域策略优化(TRPO)方面的内容。GPT-4的回答几乎完全正确,但也有些许瑕疵,比如它说我主修数学,其实并没有,对我取得本科学位的年份描述也有一年的误差。
这其实就属于“猜错了”:模型尝试给出一个全面的答案,但结果却出现了错误。这样的结果是好是坏在一定程度上取决于这份个人简介的用途:如果想将其放在网上,那么肯定存在问题;但如果仅仅是某人想要了解我,那么年份误差一年也不会有太大影响。
2
幻觉与行为克隆
到底为什么会产生“幻觉”?我将描述一个概念模型加以解释。上图是一个知识图谱,包含一些事实,比如《星球大战》属于科幻类,Han Solo是《星球大战》中的一个角色,以三元组形式排列。这尽管是传统人工智能的知识储存方式,仍然很有用。
该概念模型能解释当你对神经网络进行微调以完成某种问答任务时会发生什么。神经网络中包含信息,可以将其看作类似知识图谱的东西,以某种非常复杂的方式存储在权重中。每条边(edge)都有一些置信度,不同的边置信度不一样,原因是,某些事实被看了上百万次,而有些事实可能只看了一两次。
当你进行小规模微调时,可以将其看作你正在学习某个小型程序,将知识图谱作为输入,并基于知识图谱中的内容和语句的置信度输出概率。比如,你正在学习处理知识图表的四行Python代码函数,那么你之所以要进行微调,是因为可能需要学习一些关于问题格式的内容。
如果只抛给预训练模型一个问题,如“《星球大战》属于什么类型?”,那么它就不知道该问题的上下文是什么,不清楚这些文本的来源是哪里,是信息性网站、恶作剧网站还是虚构文本。而微调就是让模型专门输出正确的答案或在微调数据集中的内容。
文章来源:https://www.toymoban.com/news/detail-450078.html
行为克隆(behavior cloning)是强化学习领域的一个术语,意思是监督微调或最大化似然&文章来源地址https://www.toymoban.com/news/detail-450078.html
到了这里,关于ChatGPT作者John Schulman:通往TruthGPT之路的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!