Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

这篇具有很好参考价值的文章主要介绍了Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/128909400

GPT、GPT-2、GPT-3:Generative Pre-trained Transformer,生成式预训练Transformer

  • Wiki: https://en.wikipedia.org/wiki/GPT-3

  • GPT-3 Demo: https://gpt3demo.com/

时间线:

  1. Transformer, 2017.6, Attention is all you need
  2. GPT, 2018.6, Improving Language Understanding by Generative Pre-Training: 使用Transformer的解码器,在没有标签的文本上,预训练模型
  3. BERT, 2018.10, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding: Bidirectional Encoder Representations from Transformers,Transformer的编码器
  4. GPT-2, 2019.2, Language Models are Unsupervised Multitask Learners: Transformer的解码器,Zero-Shot
  5. GPT-3, 2020.5, Language Models are Few-Shot Learners: 数据和模型都扩大100倍

GPT

Improving Language Understanding by Generative Pre-Training

  • 使用通用预训练,提升语言理解能力

Transformer比RNN的迁移更加稳定

算法框架:

  • Transformer解码器,带有mask进行训练

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

微调:

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Transformer架构和训练目标:

  • 用于微调不同任务的输入转换
  • 我们将所有结构化输入转换为标记序列,以供我们的预训练模型处理,然后是 线性+softmax 层

四大任务:Start、Extract(抽取)、Delim(边界,delimiter)

  1. 分类:Classification,一句话或一段文本,预测一个标签
  2. 蕴含:Entailment,Premise -> Hypothesis,两段文本执行三分类,是否蕴含,即支持假设、不支持假设、既不支持也不反对假设。
  3. 相似:Similarity,对称关系,没有先后关系
  4. 多选:Multiple Choice,多选题,输出3个标量,最后做一个softmax

Transformer的结构是不会修改

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

数据集:BooksCorpus数据集,BERT Base == GPT的参数,BERT Large (3.4亿参数) 是 BERT Base 的3倍,BERT的数据集是GPT4倍。

GPT-2

GPT2: Language Models are Unsupervised Multitask Learners

  • 语言模型是无监督的多任务学习器

数据集:BooksCorpus -> Wikipedia (BERT) -> WebText

Zero-Shot的设定

模型的泛化性,不好,Multitask Learning

数据构造:开始符(Start)、结束符(Delim)、分割符(Extract),输入形式更像语言

Prompt提示,例如:

  • translate to french, english text, french text
  • answer the question, document, question, answer

训练数据:

  • Common Crawl,公开爬取,信噪比较低
  • Reddit,排名靠前的新闻聚合网页
  • 读过有一定价值,4500个链接,800万个文本,40GB文字

最大15亿参数

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

GPT-3

GPT3: Language Models are Few Shot Learners

  • 语言模型是少样本学习器

GPT3不做微调,不做梯度更新,可以生成新闻的文章。

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

不需要更新任何权重,元学习(meta learning),上下文学习(in-context learning)

GPT参数,1750亿个参数

Zero-Shot、One-Shot、Few-Shot

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

不做梯度更新(Fine-tuning):

  • 任务描述,翻译 => ,即prompt

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

结构:参考Sparse Transformer

  • Generating long sequences with sparse transformers
  • 参考:NLP论文解读:Generating Long Sequences with Sparse Transformers

小模型用小batch size,大模型用大batch size,各级模型:

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Sparse Transformer

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Residual Block

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

数据集:正类WebText2,负类Common Crawl,二分类清洗Common Crawl

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

采样K个样本作为条件,二分类是True或者False,答案是自由,问答,Beam Search寻找答案。

计算量指数增加,验证loss线性下降

BERT是编码器,GPT是解码器,T5是编码器+解码器

GPT3生成的英文稿、问答。

模型的局限性(Limitations)

GPT3的文本生成比较弱,写一段比较好,GPT3是往前看,不能向后看,每一次预测下一个次,没有告诉哪个词比较重要,哪个词不重要。

只用文本,没有使用其他模态。

样本有效性比较低。

GPT3决策很难,模型解释性差。文章来源地址https://www.toymoban.com/news/detail-437861.html

到了这里,关于Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • CTF-XXE(持续更新,欢迎分享更多相关知识点的题目)

    进来看到 然后一起看 Write 进来看到 一起看 write 反正是XXE 直接整 write 不整花里胡哨,解题在最下面 write 与博主不同,我通过下面的语句得到了三个地址,其中两个通过c段扫描可以直接出来flag。 flag出来了,输入平台却不对

    2024年02月11日
    浏览(41)
  • 关注渐冻症|菌群助力探索其发病机理及相关干预措施

    最杰出的物理学家之一的斯蒂芬·威廉· 霍金 想必大家都知道,以及曾经风靡全网的“冰桶挑战”,它们都与一种 罕见疾病 有关,那就是 渐冻症 。 媒体的宣传让 渐冻症 成为了较为“知名”罕见病之一;2000年丹麦举行的国际病友大会上正式确定6月21日为“世界渐冻人日”

    2024年02月12日
    浏览(34)
  • 容器走进生产环境,哪些相关技术值得关注?解读 Gartner 容器技术成熟度曲线

    文章导览 本文详细解读 Gartner 容器技术成熟度曲线(2023)中评估的 9 项重要技术,包括云原生架构、Kubernetes、容器管理、容器原生存储、KubeVirt、云原生基础设施等。干货满满,建议收藏! 文末附赠 容器管理 与  Kubernetes  持久化存储 技术评估与产品选型电子书,欢迎下载

    2024年01月24日
    浏览(57)
  • Paper:txyz_ai(一款帮助科研人员阅读PDF论文ChatGPT利器)的简介、安装、使用方法之详细攻略

    Paper:txyz_ai(一款帮助科研人员阅读PDF论文ChatGPT利器)的简介、安装、使用方法之详细攻略 目录 txyz.ai的简介 txyz.ai的安装 1、Web端plug-in安装步骤图文教程

    2024年02月08日
    浏览(41)
  • ChatGPT热度再升级,AIGC的投资人开始关注“文生图”了

    (图片来源:Pixabay) AIGC是一场老互联网人的豪赌,一次美元基金的狂欢,一个时代的进击。   @数科星球 原创 作者丨科科  编辑丨十里香   在2023年的第一季度,ChatGPT以“狂飙”姿态火速出圈,由这款产品所带动的AIGC行业也屡屡登上热搜。 时至今日,有些人开始“唱空”

    2024年02月09日
    浏览(42)
  • 【关注】国内外经典大模型(ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、文心一言、千问等

    以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以 面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助阅读、文献

    2024年03月26日
    浏览(53)
  • 【tph-yolov5】论文简读

    论文名称: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios 论文下载地址:https://arxiv.org/abs/2108.11539 代码运行参考博客:https://blog.csdn.net/zztjl/article/details/123870061添加链接描述 概述了模型解决的问题域,以及tph-yolov5主要模块。 问题域

    2024年02月04日
    浏览(29)
  • 【NLP相关】GPT-X合集:GPT类模型介绍(附相关论文和Github项目地址)

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 GPT(Generative Pre-trained Transformer)是一类基于Transformer架构的预训练语言模型

    2024年02月01日
    浏览(56)
  • CVPR 2023 | 风格迁移论文3篇简读,视觉AIGC系列

    内容相似度损失(包括特征和像素相似度)是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet的新框架,包括一个新的可逆残差网络(reversible residual network)和一个无偏线性变换模块,用于多功能风格转移。这个可逆残差网络不仅可以保留内容关联性

    2024年02月11日
    浏览(42)
  • LLMs和GPT的相关概念

    1.prompt、instruction、input和response在LLMs中的作用和区别 在LLMs中,prompt、instruction、input和response是四个重要的概念,它们各自有不同的作用和区别。 (1). Prompt(提示):Prompt是LLMs的输入文本或问题,它用来引导模型生成输出。Prompt通常是一个开放性的问题或一个完整的句子。

    2024年02月16日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包