GPT3学习笔记

1年前作者：银晗分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了GPT3学习笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

GPT1

GPT-3

关于GPT-3的主要事实:

模型分类:GPT-3有8个不同的模型，参数从1.25亿到1750亿不等。
模型大小:最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数)
体系结构:GPT-3是一种自回归模型，使用仅有解码器的体系结构。使用下一个单词预测目标进行训练
学习方式:GPT-3通过很少的学习，学习时没有梯度更新

需要训练数据:GPT-3需要较少的训练数据。它可以从非常少的数据中学习，这使得它的应用程序可以用于数据较少的领域
GPT3学习笔记
关键假设：

模型规模的增加和对更大数据的训练可以导致性能的提高
单一模型可以在许多NLP任务上提供良好的性能。
模型可以从新数据中推断，不需要进行微调
该模型可以解决从未训练过的数据集上的问题。

早期的预训练模型-微调：
GPT3学习笔记

GPT-3采用了不同的学习方法。不需要大量标记数据来推断新问题。
相反，它可以不从数据(零次学习 Zero-Shot Learning )中学习，只从一个例子(一次学习 one-Shot Learning)或几个例子(few-Shot Learning)中学习。

与Bert进行对比：
GPT3学习笔记
最显著的3个特征：

Size：GPT-3的大小是其突出的特点。它几乎是最大的BERT模型的470倍
Structure：在架构方面，BERT仍然处于领先地位。它是一种经过训练能够更好地捕捉不同问题语境下文本之间的潜在关系。，它是基于概率的，一个一个的输出
Method：GPT-3学习方法相对简单，可以应用于很多没有足够数据的问题。因此，与BERT相比，GPT-3应该有更广泛的应用。

突破的两大功能：

文本生成
使用有限的数据构建NLP解决方案

各个任务的表现：

语言建模：GPT-3在纯语言建模任务上击败了所有的基准。
机器翻译：对于需要将文档转换成英语的翻译任务，该模型的性能优于基准测试。但是如果需要将语言从英语翻译为非英语，那么情况就不一样了，GPT-3的性能也会出现问题。
阅读理解：GPT 3模型的性能远远低于这里的技术水平。
自然语言推理：自然语言推理(NLI)关注理解两个句子之间的关系的能力。GPT 3模型在NLI任务中的表现很差
常识推理：常识推理数据集测试物理或科学推理技能的表现。GPT 3模型在这些任务上的表现很差

GPT3的问题

GPT3是一个混合模型，可能在预训练的定制模型上性能会输掉
对模型偏差和可解释性的担忧:考虑到GPT-3的庞大规模，公司将很难解释该算法做出的决策
需要制定规章以防止滥用:如果没有得到适当的管制

图解详细理解

知乎图解文章

直接预测下一个单词，而不是根据上下文和掩码来预测
一次生成一个token，迭代生成
175亿参数

GPT3为2048个token。这就是它的“上下文窗口”。这意味着它有2048条轨道，沿着这些轨道处理token。
GPT3学习笔记

具体如何处理：

让我们跟随紫色的轨道。系统如何处理“robotics”一词并产生“ A”？

步骤：

将单词转换为代表单词的向量（数字列表）
计算预测
将结果向量转换为单词
GPT3的重要计算发生在其96个Transformer解码器层的堆栈内部。这些层中的每一层都有其自己的1.8B参数进行计算。那就是“魔术”发生的地方。这是该过程的高级视图：

论文精读

三大核心：Fine-Tuning、Few-Shot、One-Shot文章来源地址https://www.toymoban.com/news/detail-512804.html

到了这里，关于GPT3学习笔记的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

机器学习：GPT3
GPT3 模型过于巨大 GPT3是T5参数量的10倍！训练GPT3的代价是$12百万美元 Zero-shot Ability GPT3的思想是不是能拿掉Fine-tune 只需要给定few-shot或者zero-shot就能干相应的任务了。 few-shot learning（no gradient descent）：给一点点的prompt one-shot learning：给一个prompt zero-shot leaning：什么都不给
2024年02月15日
浏览(9)
超过GPT3.5？Mixtral 8*7B 模型结构分析
Datawhale干货作者：宋志学，Datawhale成员 2023年12月11日，Mistral AI团队发布了一款高质量的稀疏专家混合模型Mixtral 8x7B。 Mistral AI继续致力于向开发者社区提供最优秀的开放模型。在人工智能领域向前发展，需要采取超越重用众所周知的架构和训练范式的新技术路径。最重要
2024年01月20日
浏览(38)
基于GPT3.5模型搭建的聊天系统BAIChat
需要特殊的网络环境。如果是小白，不会搭建网络环境，可以关注我私信我，在线帮你搭建网络环境。 https://chatbot.theb.ai/#/chat/1686535596065 研究背景最近的研究表明，在 pretrain+finetune 模型中，当模型适应了下游任务的训练集后，往往会失去对下游任务的 OOD（out-of-distribution）
2024年02月11日
浏览(42)
[最新搭建教程]0基础Linux CentOS7系统服务器本地安装部署ChatGPT模型服务搭建/免费域名绑定网页Https访问/调用open AI的API/GPT3/GPT3.5/GPT4模型接口
一、关于此文本文介绍了如何克隆一个开源的项目，通过请求调用OpenAI ChatGPT模型接口，以使用ChatGPT的强大功能。相比于直接登录ChatGPT官网对话，此方法对话过程更为流畅，不会频频出现限流导致对话中断或网络异常；此外，部署完成后无需魔法即可访问，可分享给亲朋好
2024年02月10日
浏览(38)
GPT3 SFT微调中文1.3B参数量文本生成模型
本模型在中文 GPT-3 1.3B 预训练模型的基础上，通过有监督的sft数据训练得到，具备更强的通用生成能力，对话能力等。目前模型可以支持单轮对话，多轮对话，知识增强等不同输入模式。 GPT-3模型使用Transforme r的Decoder结构，并对Transformer Decoder进行了一些改动，原本的De
2024年02月08日
浏览(35)
LangChain入门(五)-使用GPT3.5模型构建油管频道问答机器人
目录一、安装依赖二、使用示例一、安装依赖二、使用示例结尾、扫一扫下方微信名片即可+博主徽信哦 ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓ ↓↓↓
2024年02月11日
浏览(121)
机器学习笔记 - 关于GPT-4的一些问题清单
据报道，GPT-4 的系统由八个模型组成，每个模型都有 2200 亿个参数。GPT-4 的参数总数估计约为 1.76 万亿个。近年来，得益于 GPT-4 等高级语言模型的发展，自然语言处理(NLP) 取得了长足的进步。凭借其前所未有的规模和能力， GPT-4 为语言 AI设立
2024年02月13日
浏览(7)
大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher
Here’s the table of contents: 使用GPT3.5测试了生成Cypher的能力，相比于GPT4生成Cypher的能力，GPT3.5对于自然语言任务指令的理解稍差一些。通过测试发现，设计合适的Prompt工程以后，GPT3.5可以基于样例准确生成Cypher，但是对于样例没有覆盖的问句，Cypher经常会错误生成
2024年02月05日
浏览(36)
openai开放gpt3.5-turbo模型api，使用python即可写一个基于gpt的智能问答机器人
使用 pip 安装openai库，注意 gpt3.5-turbo 模型需要 python=3.9 的版本支持，本文演示的python版本是 python==3.10.10 需要提前在 openai 官网上注册好账号，然后打开 https://platform.openai.com/account/api-keys 就可以创建接口 keys 每个账号注册完成会有18美元在里面，每次调用api，就会花费里面的
2024年02月06日
浏览(37)
《实战AI模型》——赶上GPT3.5的大模型LLaMA 2可免费商用，内含中文模型推理和微调解决方案
目录准备环境及命令后参数导入：导入模型：准备LoRA：导入datasets：配置
2024年02月16日
浏览(39)