GPT(Generative Pre-Training)论文解读及实现(一)

这篇具有很好参考价值的文章主要介绍了GPT(Generative Pre-Training)论文解读及实现(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 GPT Framework

1.1 Unsupervised pre-training

Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood:
在给定语料上下文环境下，目标时最大化下面的语言模型，即在给定前 i-1个词和参数θ前提下，使第 i 个词出现的概率最大。
GPT(Generative Pre-Training)论文解读及实现(一),NLP,gpt,transformer,NLP

we use a multi-layer Transformer decoder [34] for the language model
我们使用多层Transormer decoder层来实现GPT,公式如下图所示。
U是输入语料，We是全量字典token embedding矩阵，Wp是位置embedding 矩阵,n代表了有n层transformer_block.
p(u)是最后输出的softmax概率
GPT(Generative Pre-Training)论文解读及实现(一),NLP,gpt,transformer,NLP
在这里插入图片描述

1.2 Unsupervised pre-training

有了上面的预训练模型后，在进行下游任务。
在给定数据x1,x2 …,xm 和label y时，
① 将数据 X输入上面预训练模
② 取预训练模型的transformer_block最后一层作为预训练模型输出
③ 在预训练模型输出结果上再加一层全连接层，权重Wy，得到分类模型。
④ 最大化分类模型
GPT(Generative Pre-Training)论文解读及实现(一),NLP,gpt,transformer,NLP

We additionally found that including language modeling as an auxiliary objective to the fine-tuning helped learning by improving generalization of the supervised model, and accelerating convergence.
怎加语言模型作为微调模型的附属任务，有利于改善模型泛化能力和加快收敛。
整个微调任务，只增加了参数Wy，没有增加任何其他参数。
GPT(Generative Pre-Training)论文解读及实现(一),NLP,gpt,transformer,NLP
文章来源地址https://www.toymoban.com/news/detail-553269.html