论文阅读——GPT3

1年前作者：じんじん分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了论文阅读——GPT3。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

来自论文：Language Models are Few-Shot Learners

Arxiv：https://arxiv.org/abs/2005.14165v2

记录下一些概念等。，没有太多细节。

预训练LM尽管任务无关，但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习——在语言模型的背景下，这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力，然后在推理时使用这些能力来快速适应或识别所需的任务（如图1.1所示）

“in-context learning”：

关于“zero-shot”, “one-shot”, or “few-shot”的解释：

随着模型增大，in-context learning效果越好：

关于“zero-shot”, “one-shot”, or “few-shot”

模型结构和GPT2一样，但是改了初始化、预归一化、reversible tokenization，以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型：

其他细节：

训练大模型需要大batch，小学习率。

few-shot learning中，实例样本数量k取值可以从0到最大窗口大小，一般可以设为10-100。

文章来源地址https://www.toymoban.com/news/detail-718383.html

到了这里，关于论文阅读——GPT3的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文阅读】基于深度学习的时序预测——Autoformer
系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预
2024年02月13日
浏览(12)
【论文阅读】基于深度学习的时序预测——Pyraformer
系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平稳性时序预测论文五：2022 Pyraformer：基于金字塔图结构的时序预测论文六：2023 Crossformer：多变量时序预
2024年02月13日
浏览(12)
【论文阅读】基于深度学习的时序异常检测——TransAD
系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TransAD.pdf 代码库链接：https://github.com/imperial-qore/TranAD 这篇文章是基于多变量数
2024年02月14日
浏览(21)
【论文阅读】基于深度学习的时序异常检测——TimesNet
系列文章链接参考数据集讲解：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：TimesNet.pdf 代码库链接：https://github.com/thuml/Time-Series-Library 项目介绍：https
2024年02月13日
浏览(10)
GPT3学习笔记
关于GPT-3的主要事实: 模型分类 :GPT-3有8个不同的模型，参数从1.25亿到1750亿不等。模型大小 :最大的GPT-3模型有1750亿参数。这比最大的BERT模型大470倍(3.75亿个参数) 体系结构 :GPT-3是一种自回归模型，使用仅有解码器的体系结构。使用下一个单词预测目标进行训练学习方式 :G
2024年02月11日
浏览(7)
机器学习：GPT3
GPT3 模型过于巨大 GPT3是T5参数量的10倍！训练GPT3的代价是$12百万美元 Zero-shot Ability GPT3的思想是不是能拿掉Fine-tune 只需要给定few-shot或者zero-shot就能干相应的任务了。 few-shot learning（no gradient descent）：给一点点的prompt one-shot learning：给一个prompt zero-shot leaning：什么都不给
2024年02月15日
浏览(9)
【论文阅读】基于深度学习的时序异常检测——Anomaly Transformer
系列文章链接数据解读参考：数据基础：多维时序数据集简介论文一：2022 Anomaly Transformer：异常分数预测论文二：2022 TransAD：异常分数预测论文三：2023 TimesNet：基于卷积的多任务模型论文链接：Anomaly Transformer.pdf 代码链接：https://github.com/thuml/Anomaly-Transformer 视频讲解（原
2024年02月14日
浏览(11)
深度学习中的图像融合:图像融合论文阅读与实战
个人博客 :Sekyoro的博客小屋个人网站 :Proanimer的个人网站介绍图像融合概念，回顾sota模型，其中包括数字摄像图像融合，多模态图像融合，接着评估一些代表方法介绍一些常见应用，比如RGBT目标跟踪，医学图像检查，遥感监测动机：由于硬件设备的理论和技术限制，单一
2024年02月02日
浏览(11)
【论文阅读】深度多视图聚类的自监督判别特征学习
文章链接聚类结构不明确的某些视图所带来的负面影响，导致多视图聚类性能较差，所以本文提出SDMVC。深度编码器用来独立的学习每个视图；为了利用互补信息，将所有视图的嵌入特征串联起来形成全局特征，可以克服某些视图聚类结构不清晰的负面影响。以自监督的
2024年02月02日
浏览(12)
论文阅读-基于深度学习的多模态情感分析研究综述
非核心原文链接：基于深度学习的多模态情感分析研究综述 - 中国知网 (cnki.net) 深度学习完成多模态情感分析综述。主要介绍多模态情感分析的概念、背景、意义。总结了多模态融合技术和交互技术，讨论多模态情感分析未来发展。目前经典的多模态情感分析研究已经
2024年02月04日
浏览(14)