Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

10月前作者：SpikeKing 分类：Toy博客阅读(32) 违法举报

这篇具有很好参考价值的文章主要介绍了Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://blog.csdn.net/caroline_wendy/article/details/128909400

GPT、GPT-2、GPT-3：Generative Pre-trained Transformer，生成式预训练Transformer

Wiki: https://en.wikipedia.org/wiki/GPT-3
GPT-3 Demo: https://gpt3demo.com/

时间线：

Transformer, 2017.6, Attention is all you need
GPT, 2018.6, Improving Language Understanding by Generative Pre-Training: 使用Transformer的解码器，在没有标签的文本上，预训练模型
BERT, 2018.10, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding: Bidirectional Encoder Representations from Transformers，Transformer的编码器
GPT-2, 2019.2, Language Models are Unsupervised Multitask Learners: Transformer的解码器，Zero-Shot
GPT-3, 2020.5, Language Models are Few-Shot Learners: 数据和模型都扩大100倍

GPT

Improving Language Understanding by Generative Pre-Training

使用通用预训练，提升语言理解能力

Transformer比RNN的迁移更加稳定

算法框架：

Transformer解码器，带有mask进行训练

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

微调：

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Transformer架构和训练目标：

用于微调不同任务的输入转换
我们将所有结构化输入转换为标记序列，以供我们的预训练模型处理，然后是线性+softmax 层

四大任务：Start、Extract(抽取)、Delim(边界，delimiter)

分类：Classification，一句话或一段文本，预测一个标签
蕴含：Entailment，Premise -> Hypothesis，两段文本执行三分类，是否蕴含，即支持假设、不支持假设、既不支持也不反对假设。
相似：Similarity，对称关系，没有先后关系
多选：Multiple Choice，多选题，输出3个标量，最后做一个softmax

Transformer的结构是不会修改

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

数据集：BooksCorpus数据集，BERT Base == GPT的参数，BERT Large (3.4亿参数) 是 BERT Base 的3倍，BERT的数据集是GPT4倍。

GPT-2

GPT2: Language Models are Unsupervised Multitask Learners

语言模型是无监督的多任务学习器

数据集：BooksCorpus -> Wikipedia (BERT) -> WebText

Zero-Shot的设定

模型的泛化性，不好，Multitask Learning

数据构造：开始符(Start)、结束符(Delim)、分割符(Extract)，输入形式更像语言

Prompt提示，例如：

translate to french, english text, french text
answer the question, document, question, answer

训练数据：

Common Crawl，公开爬取，信噪比较低
Reddit，排名靠前的新闻聚合网页
读过有一定价值，4500个链接，800万个文本，40GB文字

最大15亿参数

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

GPT-3

GPT3: Language Models are Few Shot Learners

语言模型是少样本学习器

GPT3不做微调，不做梯度更新，可以生成新闻的文章。

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

不需要更新任何权重，元学习(meta learning)，上下文学习(in-context learning)

GPT参数，1750亿个参数

Zero-Shot、One-Shot、Few-Shot

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

不做梯度更新（Fine-tuning）：

任务描述，翻译 => ，即prompt

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

结构：参考Sparse Transformer

Generating long sequences with sparse transformers
参考：NLP论文解读：Generating Long Sequences with Sparse Transformers

小模型用小batch size，大模型用大batch size，各级模型：

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Sparse Transformer

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

Residual Block

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

数据集：正类WebText2，负类Common Crawl，二分类清洗Common Crawl

Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3

采样K个样本作为条件，二分类是True或者False，答案是自由，问答，Beam Search寻找答案。

计算量指数增加，验证loss线性下降

BERT是编码器，GPT是解码器，T5是编码器+解码器

GPT3生成的英文稿、问答。

模型的局限性(Limitations)

GPT3的文本生成比较弱，写一段比较好，GPT3是往前看，不能向后看，每一次预测下一个次，没有告诉哪个词比较重要，哪个词不重要。

只用文本，没有使用其他模态。

样本有效性比较低。

GPT3决策很难，模型解释性差。文章来源地址https://www.toymoban.com/news/detail-437861.html

到了这里，关于Paper简读 - ChatGPT相关的GPT-1、GPT-2、GPT-3的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

CTF-XXE(持续更新，欢迎分享更多相关知识点的题目)

进来看到然后一起看 Write 进来看到一起看 write 反正是XXE 直接整 write 不整花里胡哨，解题在最下面 write 与博主不同，我通过下面的语句得到了三个地址，其中两个通过c段扫描可以直接出来flag。 flag出来了，输入平台却不对

2024年02月11日
浏览(43)
关注渐冻症|菌群助力探索其发病机理及相关干预措施

最杰出的物理学家之一的斯蒂芬·威廉· 霍金想必大家都知道，以及曾经风靡全网的“冰桶挑战”，它们都与一种罕见疾病有关，那就是渐冻症。媒体的宣传让渐冻症成为了较为“知名”罕见病之一；2000年丹麦举行的国际病友大会上正式确定6月21日为“世界渐冻人日”

2024年02月12日
浏览(36)
容器走进生产环境，哪些相关技术值得关注？解读 Gartner 容器技术成熟度曲线

文章导览本文详细解读 Gartner 容器技术成熟度曲线（2023）中评估的 9 项重要技术，包括云原生架构、Kubernetes、容器管理、容器原生存储、KubeVirt、云原生基础设施等。干货满满，建议收藏！文末附赠容器管理与 Kubernetes 持久化存储技术评估与产品选型电子书，欢迎下载

2024年01月24日
浏览(60)
Paper：txyz_ai(一款帮助科研人员阅读PDF论文ChatGPT利器)的简介、安装、使用方法之详细攻略

Paper：txyz_ai(一款帮助科研人员阅读PDF论文ChatGPT利器)的简介、安装、使用方法之详细攻略目录 txyz.ai的简介 txyz.ai的安装 1、Web端plug-in安装步骤图文教程

2024年02月08日
浏览(46)
ChatGPT热度再升级，AIGC的投资人开始关注“文生图”了

（图片来源：Pixabay) AIGC是一场老互联网人的豪赌，一次美元基金的狂欢，一个时代的进击。 @数科星球原创作者丨科科编辑丨十里香在2023年的第一季度，ChatGPT以“狂飙”姿态火速出圈，由这款产品所带动的AIGC行业也屡屡登上热搜。时至今日，有些人开始“唱空”

2024年02月09日
浏览(44)
【关注】国内外经典大模型（ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、文心一言、千问等

以ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮，可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助阅读、文献

2024年03月26日
浏览(55)
【tph-yolov5】论文简读

论文名称： TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios 论文下载地址：https://arxiv.org/abs/2108.11539 代码运行参考博客：https://blog.csdn.net/zztjl/article/details/123870061添加链接描述概述了模型解决的问题域，以及tph-yolov5主要模块。问题域

2024年02月04日
浏览(29)
【NLP相关】GPT-X合集：GPT类模型介绍（附相关论文和Github项目地址）

❤️觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）👈 GPT（Generative Pre-trained Transformer）是一类基于Transformer架构的预训练语言模型

2024年02月01日
浏览(58)
CVPR 2023 | 风格迁移论文3篇简读，视觉AIGC系列

内容相似度损失（包括特征和像素相似度）是逼真和视频风格迁移中出现伪影的主要问题。本文提出了一个名为CAP-VSTNet的新框架，包括一个新的可逆残差网络（reversible residual network）和一个无偏线性变换模块，用于多功能风格转移。这个可逆残差网络不仅可以保留内容关联性

2024年02月11日
浏览(45)
LLMs和GPT的相关概念

1.prompt、instruction、input和response在LLMs中的作用和区别在LLMs中，prompt、instruction、input和response是四个重要的概念，它们各自有不同的作用和区别。（1）. Prompt（提示）：Prompt是LLMs的输入文本或问题，它用来引导模型生成输出。Prompt通常是一个开放性的问题或一个完整的句子。

2024年02月16日
浏览(26)