论文笔记--GPT-4 Technical Report

这篇具有很好参考价值的文章主要介绍了论文笔记--GPT-4 Technical Report。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 报告简介

  • 标题:GPT-4 Technical Report
  • 作者:OpenAI
  • 日期:2023
  • 期刊:arxiv preprint

2. 报告概括

  本文是OpenAI发布的GPT-4的技术报告,主要针对GPT-4的能力、局限和风险性等方面进行测评。GPT-4是个多模态模型,支持文本和图像格式的输入。但OpenAI并没有公布GPT-4实现的技术细节,仅在一些场景给出了推理时的prompt,可供用户参考。

3 报告重点内容

3.1 Predictable Scaling

  首先,文章对GPT-4的整体损失进行了分析。根据最近的研究成果,模型的损失和模型的计算量(compute)满足幂律关系。为了判断GPT-4是否满足该关系,文章首先用和GPT-4相同的训练方法(未交代具体方法)训练参数/计算量更小的模型,得到一组compute VS loss的数据对(如下图中的实心黑点),再用这些数据拟合一个幂律模型: L = a C b + c L=aC^b + c L=aCb+c(下图中的虚线)。可以看到GPT-4(绿色原点)恰好在该幂律模型上,说明GPT-4的loss是可以被精准预测的。
  PS:查了很多资料,才明白x轴的单位分别是

  • 1 p = 1 p i c o = 1 0 − 12 1p=1pico = 10^{-12} 1p=1pico=1012
  • 1 n = 1 n a n o = 1 0 − 9 1n=1nano = 10^{-9} 1n=1nano=109
  • 1 μ = 1 m i c r o = 1 0 − 6 1\mu=1micro = 10^{-6} 1μ=1micro=106
    所以下图中的横轴分别对应 1 0 − 10 , 1 0 − 8 , 1 0 − 6 , 1 0 − 4 , 1 0 − 2 , 1 10^{-10}, 10^{-8}, 10^{-6}, 10^{-4}, 10^{-2}, 1 1010,108,106,104,102,1,分别表示参数量与GPT-4的参数量的比值(GPT-4所在点 x = 1 x=1 x=1)。
    论文笔记--GPT-4 Technical Report
      接下来,文章采用类似的方法评估GPT-4在代码生成任务上的loss拟合情况。文章选用Codex[1]论文中提出的编程问题数据集HumanEval,可以评估模型生成Python函数的能力。文章发现模型的平均通过率也可以通过下述方式你和幂律定理: − E P [ log ⁡ ( pass _ rate ( C ) ) ] = α ∗ C − k -E_P[\log (\text{pass}\_\text{rate}(C))] = \alpha * C^{-k} EP[log(pass_rate(C))]=αCk,其中 α > 0 , k > 0 \alpha>0, k>0 α>0,k>0是两个常数,即将上述的损失函数替换成了代码的平均对数通过率。下图展示了平均对数通过率 VS compute的拟合情况。论文笔记--GPT-4 Technical Report
      此外,文章在ISP提出的一些其它任务上进行loss 拟合,和一些近期研究得到了一致的结论:GPT-4给出了相反的准确率走势。如下图所示,在GPT-4之前的几个模型随着参数增加,准确率反倒降低(Inverse Scaling),但最大的GPT-4模型的准确率是最高的。
    论文笔记--GPT-4 Technical Report

3.2 Capabilities

  在评估GPT-4的能力之前,文章首先对各个待评估的数据集(eval set)分别进行了重复校验:对eval set中的每个样例,我们随机选择它3个字符大小为50的子字符串,如果训练集中某条数据包含3条中任意1条,则认为该数据和eval set是重复的。重复校验之后,文章会剔除训练集中和eval set重复的所有数据重新训练一个模型,记作GPT-4(no contam),用GPT-4和GPT-4(no contam)分别评估eval set。
  GPT-4是一个多模态模型,但我们的对比模型GPT-3.5仅接受文字输入。为此OpenAI训练了两个模型来进行对比:GPT-4和GPT-4(no vision)。
  文章在多个领域测试了GPT-4的能力:

  1. 考试:文章考虑的考试包括两种形式的问题,分别为多选题和自由回答题。针对多选题,模型采用few-shot learning,即提供几个和考试格式相似的样例和解释作为测试用例的上下文输入模型;针对自由作答提目,模型采用自由作答的prompt直接输入模型,针对其中涉及到写作质量的考核问题,我们会随机采样一个高质量的GRE文章放入prompt生成回答。首先,一系列数值实验表明,GPT-4和GPT-4(no contam)差异不大,即重复的数据集对结果表现影响不大;GPT-4和GPT-4(no vision)差异不大,即训练集中增加图像对文本类结果表现影响不大。然后,OpenAI测试了GPT-4、GPT-3.5在UBE上考试的结果。如下图,GPT-4的表现优于GPT3.5。注意到每个bar的100%是以人类未通过的百分比计算的。比如在AP biology科目中,GPT-4得到了最高分(5/5),但该项图中bar的顶点为85%,是因为人类评估结果中有15%的比例得到满分。总结下来,GPT-4的考试能力显著高于其它LLM,且在所有参加考试的人中得分Top10%。
    论文笔记--GPT-4 Technical Report
      为了证明GPT-4在其它语言上的能力,文章将MMLU benchmarks翻译为多种语言。注意到这里文章使用了其它翻译器(Azure Translation)进行翻译。文章对指令、问题和回答选项都进行了翻译,只保留英语的"Answers: "和"A), B), C), D)"选项的标志,如下表所示。实验表明,GPT-4在几乎所有测试语言上的考试能力都超过了GPT-3.5在英文上的表现。
    论文笔记--GPT-4 Technical Report
  2. 图像输入:GPT-4可同时输入文本和图像,最后返回文本格式。实验证明,GPT-4对包括截图、照片、图表等各种图像输入的理解能力都很不错。下图是 一个GPT-4处理多模态数据的示例
    论文笔记--GPT-4 Technical Report

3.3 limitations

  类似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4显著减少了hallucinations且提升了factuality[2]:
论文笔记--GPT-4 Technical Report
  GPT-4仍存在很多其它问题:如在TruthfulQA上模型对“找出正确的事实”仍会判断错误,但RLHF之后在该数据集上表现相比于GPT-3.5有显著提升;GPT-4大部分数据都是来自2021年9月之前,对此后的知识储备薄弱;GPT-4可能会犯一些简单的推理错误;GPT-4易被用户的一些错误陈述影响;GPT-4在一些复杂问题上解决能力有限…

3.3 Risks & mitigations

  类似InstructGPT[2],文章测试了GPT-4的潜在风险。为了提升模型的安全性,文章通过RLHF将GPT-4对齐人类意图,并通过基于规则的奖励模型RBRMs(一系列zero-shot GPT-4分类器)对RLHF提供奖励机制。简单来说,当模型不拒绝安全的请求时,RBRMs会奖励模型;当模型拒绝危险的请求时,RBRMs会奖励模型。实验证明,相比于GPT-3.5,GPT-4的安全性又了显著提升。

4. 报告总结

  报告给出了GPT-4的一些能力、风险实验结果,展示了GPT-4在多个NLP任务中优于GPT3.5等现存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺点和安全隐患,如数据大部分为2021年之前的语料,OpenAI会致力于继续提升GPT系列模型的能力。

5. 报告传送门

GPT-4 Technical Report

6. References

[1] 论文笔记–Evaluating Large Language Models Trained on Code
[2] 论文笔记–Training language models to follow instructions with human feedback文章来源地址https://www.toymoban.com/news/detail-480191.html

到了这里,关于论文笔记--GPT-4 Technical Report的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-3 论文阅读笔记

    GPT-3模型出自论文《Language Models are Few-Shot Learners》是OpenAI在2020年5月发布的。 论文摘要翻译 :最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调(fine-tuning),在许多NLP任务和基准测试上取得了实质性的进展。虽然这种方法在架构上通常与任务无关,但它

    2024年02月12日
    浏览(41)
  • Cadence Allegro 导出Waived Design Rules Check Report报告详解

      ⏪《上一篇》   🏡《上级目录》   ⏩《下一篇》

    2023年04月19日
    浏览(49)
  • Cadence Allegro 导出Unused Blind/Buired Via Report报告详解

      ⏪《上一篇》   🏡《上级目录》   ⏩《下一篇》

    2023年04月10日
    浏览(39)
  • 在等GPT-5多模态?试试Genmo!Adobe AI首轮内测报告;ChatGPT三条使用哲学与实践;论文追更与阅读神器 | ShowMeAI日报

    👀 日报周刊合集 | 🎡 生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 微软正在尝试在 New Bing 的聊天回复中投放广告 。虽然广告被明确标识为 AD,但仍引发了讨论和质疑。 Bing 副总裁兼消费者首席营销官 Yusuf Mehdi 在微软官方博客中确认了这一消息,并介绍了今后发

    2024年02月11日
    浏览(36)
  • midjourney指令笔记+踩坑日记+gpt论文润色指令

    跟人拼团入手了midjourney,长期记录更新。 参考网址:prompttool 可以看到各种画风 Pixar style character, delicate eyes, Cinematic lighting, marginal light, raytracing, soft colors, Disney style, IP Pop mart blind box, 3d, c4d, blander, OC rendering, chibi, dribblable, pintreset, epic detail, ultra-high definition, 8k 皮克斯

    2024年02月08日
    浏览(47)
  • [系统安全] 四十九.恶意软件分析 (5)Cape沙箱分析结果Report报告的API序列批量提取详解

    终于忙完初稿,开心地写一篇博客。 您可能之前看到过我写的类似文章,为什么还要重复撰写呢?只是想更好地帮助初学者了解病毒逆向分析和系统安全,更加成体系且不破坏之前的系列。因此,我重新开设了这个专栏,准备系统整理和深入学习系统安全、逆向分析和恶意代

    2024年02月07日
    浏览(51)
  • [网络安全提高篇] 一二一.恶意软件动态分析Cape沙箱Report报告的API序列批量提取详解

    终于忙完初稿,开心地写一篇博客。 “网络安全提高班”新的100篇文章即将开启,包括Web渗透、内网渗透、靶场搭建、CVE复现、攻击溯源、实战及CTF总结,它将更加聚焦,更加深入,也是作者的慢慢成长史。换专业确实挺难的,Web渗透也是块硬骨头,但我也试试,看看自己未

    2024年02月13日
    浏览(45)
  • 最近火出圈的GPT-4 技术Report出来了,快进来看看逐文对照翻译!

    近期OpenAI发布的GPT-4的效果好得让人惊艳!碾压了之前火到出圈的ChatGPT,通过同步发布的GPT-4 Technical Report一同看看到底发生了什么! No.0 摘要 We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many

    2024年02月14日
    浏览(48)
  • [论文笔记] chatgpt DeepSpeed-chat 简介

    DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub 🐕 DeepSpeed-Chat:简单,快速和负担得起的RLHF训练的类chatgpt模型 🐕 一个快速、经济、可扩展和开放的系统框架,用于实现端到端的强化学习人类反馈(RLHF)训练体验,以在所有尺度上生成高质量的类chat

    2024年02月02日
    浏览(78)
  • 【论文笔记】——从transformer、bert、GPT-1、2、3到ChatGPT

    18年有bert和gpt这两个语言模型,分别源自transformer的编码器和解码器,都是无监督方式训练的 GPT-1用的是无监督预训练+有监督微调 GPT-2用的是纯无监督预训练。提升了网络层数和训练数据量 GPT-3沿用了GPT-2的纯无监督预训练,但是数据大了好几个量级 InstructGPT在GPT-3上用来自人

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包