GPT模型训练实践(2)-Transformer模型工作机制

这篇具有很好参考价值的文章主要介绍了GPT模型训练实践(2)-Transformer模型工作机制。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        Transformer 的结构如下,主要由编码器-解码器组成,因为其不需要大量标注数据训练和天然支持并行计算的接口,正在全面取代CNN和RNN:

扩展阅读:What Is a Transformer Model?

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

其中

编码器中包含自注意力层和前馈神经网络层;

解码器包含自注意力层、编码器-解码器注意力层、前馈神经网络层三个部分。

了解Transformer,需要了解什么是超参数,这也与稍后的代码实践相关:

超参数:事先设定的。Transformer典型的超参数有Token数量,词向量,位置向量,解码器层数,自注意力头数、注意力维度数、学习率等。

与超参数对应的还有一个词叫参数,参数是在训练过程中得到的,出厂前的训练叫预训练,会得到基础参数(最开始的参数叫原始参数,随机生成的),但在实际的使用过程中,需要经过Fine-tuning,也就是微调,类似于把一套毛坯房装修为精装房的过程,以后在使用该模型的时候,其实就等于入住了。

通常来说,微调过后的参数与基础参数是不同的,这是由模型最终使用者的应用目的有关的,比如要把一个基础模型训练为安全领域的模型,那么在训练过程中就要使用安全行业的相关语料,同时结合安全专家的经验,不断调节参数,最终使模型能够在安全领域进行推理。微调这件事情主要要关注参数是否更改、在哪一层调整以及作用形式,目前主要的微调技术包括SFT(有监督微调),Prompt(提示词微调),LORA(低秩矩阵适应微调)、RLHF(人类反馈的强化学习)等。chatGPT是基于GPT3,花了一年多时间采用SFT、RM(奖励模型)、和PPO等微调之后才产生的。【想想要花多少钱)

在GPT中,只采用了解码器,且不是Transformer中标准的解码器层因为没有编码器的输入,所以解码器也去掉了编码器-解码器注意力层,最终结构如下图所示:

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

其内部的结构如下图所示:

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

第一层自注意子层:捕捉输入序列之间相互之间的关系,能学习完整的语义依赖;

第二层前馈神经网络子层:能捕捉整改输入序列的隐藏的、复杂的关联信息。

GPT总体结构如下图所示:

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

下面详细介绍:本介绍主要基于合集·GPT模型详细解释课程中“我是一个人”作为输入。分词为 

我     是     一个   ,3个token

1、输入处理:输入处理主要包括分词、向量嵌入、词向量+位置向量三个处理部分,处理完毕之后输出为一个3×12288的矩阵。

2、解码器栈:两部分组成,先看自注意子层

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

在自注意力子层中,有自注意头,且因为没有输出,其输入主要来自自己,也就是左边的信息,所有叫做自回归自注意力机制。 此部分主要是关于q.,k,v的计算。

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

 自注意力子层最终输出的为一个3×12288的矩阵。

接下来看第二个部分--前馈神经网络子层。

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

前馈神经网络输入是3×12288的矩阵,经过一系列计算之后,输出一个3×12288的矩阵。

3、输出部分:输出为一个3×50257的概率权重矩阵

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

 GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

附图:GPT、BERT、ELMo三者对比

GPT模型训练实践(2)-Transformer模型工作机制,AI,gpt,transformer,深度学习

尤其感谢B站UP主三明2046,其作品《合集GPT模型详细解释》生动精彩,本系列文章充分吸收学习了该课程,并且在文章图片素材多有引用;

本文代码部分主要引用How to build a GPT model

如有侵权,请联系笔者删除,感谢,致敬!文章来源地址https://www.toymoban.com/news/detail-525745.html

到了这里,关于GPT模型训练实践(2)-Transformer模型工作机制的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Transformer语言模型:GPT-2

    基于Transformer语言模型:GPT-2   Transformer是Google在2017年提出的一种新型模型架构。它以自注意力机制取代传统的RNN和CNN对序列数据的建模,它在机器翻译、语言理解等任务上显示出强大的表示能力,目前已经成为自然语言处理领域的主流框架之一。主要特点有: 完全基于注意

    2024年02月07日
    浏览(46)
  • 【】实现GPT中Transformer模型之框架概念

      作者:黑夜路人 时间:2023年7月 GPT是什么意思 GPT 的全称是 Generative Pre-trained Transformer(生成型预训练变换模型),它是基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预

    2024年02月16日
    浏览(34)
  • GPT系列训练与部署——GPT2环境配置与模型训练

            本文为博主原创文章,未经博主允许不得转载。         本文为专栏《Python从零开始进行AIGC大模型训练与推理》系列文章,地址为“https://blog.csdn.net/suiyingy/article/details/130169592”。         Colossal-AI提供了多种并行方式来运行GPT,不同并行方式的相应配置位

    2024年02月10日
    浏览(49)
  • Generative Pre-trained Transformer(GPT)模型技术初探

    2017年,Google在论文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 结构取代了在 NLP 任务中常用的 RNN 网络结构。相比 RNN 网络结构,其最大的优点是可以并行计算。Transformer 的整体模型架构如下图所示 首先,让我们先将Transformer模型视为一个黑盒,如下图所

    2023年04月14日
    浏览(85)
  • Transformer、BERT和GPT 自然语言处理领域的重要模型

    Transformer、BERT和GPT都是自然语言处理领域的重要模型,它们之间有一些区别和联系。 区别: 架构:Transformer是一种基于自注意力机制的神经网络架构,用于编码输入序列和解码输出序列。BERT(Bidirectional Encoder Representations from Transformers)是基于Transformer架构的双向编码模型,

    2024年03月09日
    浏览(56)
  • 【AI】【GPT4ALL】如何拥有本地GPT以及有无可能自己训练GPT

    GPT4ALL是一款易于安装,可以连接多款自然语言模型包括GPT3.5模型,并且自带上传文件搜索功能的AI本地软件。部署后,也可以通过自己连接它的AI后台,自建前台,在公司内部自建一个AI平台。 要实现这个需要解决两个问题: 构建一套局域网UI连接本地GPT模型API的可用服务,

    2024年01月17日
    浏览(50)
  • 大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解

    在自然语言处理问题中,可从互联网上下载大量无标注数据,而针对具体问题的有标注数据却非常少,GPT 是一种半监督学习方法,它致力于用大量无标注数据让模型学习 “常识”,以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练 Fine-tune 之前,用无标签数据

    2024年02月16日
    浏览(59)
  • 花费7元训练自己的GPT 2模型

    在上一篇博客中,我介绍了用Tensorflow来重现GPT 1的模型和训练的过程。这次我打算用Pytorch来重现GPT 2的模型并从头进行训练。 GPT 2的模型相比GPT 1的改进并不多,主要在以下方面: 1. GPT 2把layer normalization放在每个decoder block的前面。 2. 最终的decoder block之后额外添加了一个lay

    2024年02月14日
    浏览(38)
  • 【预训练语言模型】使用Transformers库进行GPT2预训练

    基于 HuggingFace的Transformer库,在Colab或Kaggle进行预训练。 本教程提供:英文数据集wikitext-2和代码数据集的预训练。 注:可以自行上传数据集进行训练 目的 :跑通自回归语言模型的预训练流程 注意:在Colab上训练时,最好将datasets更新到最新版(再重启kernel),避免版本低报

    2024年03月14日
    浏览(45)
  • 每日一看大模型新闻(12.26下)假扮卧底,骗AI泄露代码拯救人类? 斯坦福小哥用GPT-4开发游戏惊呆网友;上海AI实验室开源医疗大模型群“浦医2.0”;“算命”AI:600万人数据训练,可预测健康

    发布日期 :2023.12.26 假扮卧底,骗AI泄露代码拯救人类? 斯坦福小哥用GPT-4开发游戏惊呆网友 主要内容 :最近,一款名为「Thus Spoke Zaranova」的AI游戏震惊了网友。这款游戏由ChatGPT、DALL·E 3和Midjourney等AI联合开发, 背景设定在一个名为The Nexus的虚拟空间,人类与AI在此发生冲

    2024年02月20日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包