深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT

这篇具有很好参考价值的文章主要介绍了深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分类目录:《自然语言处理从入门到应用》总目录
相关文章:
· GPT(Generative Pre-Trained Transformer):基础知识
· GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT
· GPT(Generative Pre-Trained Transformer):GPT-2与Zero-shot Learning
· GPT(Generative Pre-Trained Transformer):GPT-3与Few-shot Learning


GPT预训练语言模型作为一个标准的语言模型,其输入和输出是固定的,即输入一个词序列,输出该词序列的下一个词。《深入理解深度学习——GPT(Generative Pre-Trained Transformer):基础知识》已经完整地剖析了GPT的模型结构,即使在监督微调阶段添加了针对不同任务的自适应层,GPT的输入和输出依旧没有本质上的改变。对于一些任务(如文本分类任务),可以通过带标签的文本分类数据,然后使用微调方法进行训练,让GPT学会文本分类。文本分类任务的微调数据格式如下:

输入文本:梅西宣布退役。
标签:体育新闻

虽然标签代表的文本与输入文本并没有因果关系,但语义上存在强关联,可以理解为预训练语言模型经过微调训练能够学会这样的映射。对于输入文本包含多个句子(有序的句子对、二元组、三元组)的任务,如问答或常识性推理任务,其训练数据的格式如下:

问:今天天气怎么样?
答1:今天多云转阴,气温23摄氏度。
答2:今天适合去爬山。
答3:周末天气很好。
正确选择:答1

对于由多个句子按照规定组合而成的数据格式,GPT显然无法通过更改其输入数据格式来匹配指定任务。将问答语句揉在一起作为输入序列的简单拼接方式存在明显的隐患,事实上,这样做也无法获得很好的微调效果。思考Self-Attention过程在以下输入语句上的表现:

今天天气怎么样?今天多云转阴,气温23摄氏度。今天适合去爬山。周末天气很好。

隐患一,虽然Self-Attention的计算过程不考虑词与词之间的距离,直接计算两个词的语义关联性,但是位置编码会引入位置关系,人类语言学认知及实验结果均表明,距离越近的词具有的语义相关性越强。因此,直接拼接的输入会导致相同的答案在不同的位置与问句产生不同的相关性,即答案之间存在不公平的现象。

隐患二,模型无法准确分割问句与多个答句,通常,模型可以根据问号区分问句和答句,或根据句号来辨别输入的不同答句。在本例中,模型确实可以判断出输入序列是“问+答+答+答”的形式,但是如果问句不带问号,或者答句内部存在句号,则会出现问题,例如:

怎样用一句话证明你去过北京?
北京很干燥。而且北京风沙很大。北京冬天很冷。
但是北京的烤鸭很好吃。

模型无法根据句号来判断这是两个答案还是四个答案。除此之外,句号作为常见的标点符号,本身就具有终止的含义,将句号作为分隔符会对模型产生较大影响。考虑到以上两个隐患,GPT采用遍历式方法(Traversal-style Approach)做输入数据预处理,从而将预训练语言模型应用于有序句对或者多元组任务。如下图所示,列出了分类、蕴含、相似度、多选这4类任务的输入转化格式。注意,对于每个特定的任务,输入数据的首尾必须添加起始符和终止符,记为<s><e>。接下来介绍转化细节:

  • 蕴含
    • 任务介绍:给定一个前提 P P P(Premise),根据这个前提推断假设 H H H(Hypothesis)与前提 P P P的关系,蕴含关系表示可以根据前提 P P P推理得到假设 H H H。蕴含任务就是计算在已知前提 P P P的情况下,能推理得到假设 H H H成立的概率值。
    • 输入改写:顺序连接前提 P P P和假设 H H H,中间加入分隔符$,如下图中蓝色部分所示。
    • 样例:<s>你借我的球明天还你。$你的球在我这里。<e>
  • 相似度
    • 任务介绍:给定两个文本序列,判断两个序列的语义相似性,以概率表示。
    • 输入改写:相似度任务中的两个文本序列并没有固定顺序,为了避免序列顺序对相似度计算造成干扰,生成两个不同顺序的输入序列,经过GPT主模型(12个Transformer Block)后,得到语义特征向量 h i m h_i^m him,在输入至任务独有的线性层之前按元素相加,如下图中黄色部分所示。
    • 样例:
      • <s>她很漂亮$她很好看<e>
      • <s>她很好看$她很漂亮<e>
  • 多选
    • 任务介绍:给定上下文文档 Z Z Z(也可以没有)、一个问题 Q Q Q(Wuestion)和一组可能的答案 a k a_k ak(Answer),从可能的答案中选取最佳答案。
    • 输入改写:将上下文 Z Z Z和问题 Q Q Q连在一起作为前提条件,加入分隔符与每个可能的答案 a k a_k ak拼接,得到 [ Z ; W ; a k ] [Z; W; a_k] [Z;W;ak]序列。这些序列都用GPT单独进行处理(包括独有的线性层),最后通过Softmax层进行规范化,在所有可能的答案上计算一个概率分布,如下图中紫色部分所示。
    • 样例:
      • <s>今天天气怎么样?$今天多云转阴,气温23摄氏度。<e>
      • <s>今天天气怎么样?$今天适合去爬山。<e>
      • <s>今天天气怎么样?$周末天气很好。<e>

深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT
回顾前面提到的两个隐患,可以发现,通过遍历式方法和采用特殊分隔(起始/终止)符可以很好地规避隐患。相似度任务通过交换输入文本的顺序来消除句子相对位置带来的干扰,而多选任务则通过遍历单个问句和答句组合的方式,规避了句子相对位置带来的不公平性。用固定特殊符号$作为分隔符也避免了采用句号等通用标点作为分隔符所产生的不利影响。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.文章来源地址https://www.toymoban.com/news/detail-497577.html

到了这里,关于深入理解深度学习——GPT(Generative Pre-Trained Transformer):在不同任务中使用GPT的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AIGC实战——GPT(Generative Pre-trained Transformer)

    注意力机制能够用于构建先进的文本生成模型, Transformer 是用于序列建模的强大神经网络,该神经网络不需要复杂的循环或卷积架构,而只依赖于注意力机制。这种方法克服了循环神经网络 ( Recurrent Neural Network , RNN ) 方法难以并行化的缺陷( RNN 必须逐符号处理序列)。 Transf

    2024年03月12日
    浏览(44)
  • 【论文阅读笔记】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代码开源】 【论文概述】 本文介绍了一种名为“预训练通用医学图像变换器(Pre-trained Universal Medical Image Transformer,简称PUMIT)”的新型算法,该算法旨在解决标记医学图像数据稀缺

    2024年02月04日
    浏览(47)
  • Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

    论文链接:https://arxiv.org/abs/2211.10655 GitHub链接:https://github.com/HJ-harry/DiffusionMBIR 【score-MRI作者】 扩散模型已成为具有高质量样本的新的艺术生成模型,具有模式覆盖和高灵活性等有趣的特性。它们也被证明是有效的逆问题求解器,充当分布的先验,而正演模型的信息可以在采

    2024年02月09日
    浏览(46)
  • [ACL2023] Exploring Lottery Prompts for Pre-trained Language Models

    文章链接 清深的工作,比较有意思的一篇。作者先给出假设,对于分类问题,在有限的语料空间内总能找到一个prompt让这个问题分类正确,作者称之为lottery prompt。为此,作者组织了一个prompt集合,每个prompt的组成都很简单,名词+动词+介词/形容词/副词+MASK,语料都是从常用

    2024年02月11日
    浏览(40)
  • A Survey of Knowledge-Enhanced Pre-trained Language Models

    本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练

    2024年02月09日
    浏览(39)
  • A Survey on Knowledge-Enhanced Pre-trained Language Models

    自然语言处理(NLP)已经通过使用BERT等预训练语言模型(plm)发生了革命性的变化。尽管几乎在每个NLP任务中都创造了新的记录, 但plm仍然面临许多挑战,包括可解释性差,推理能力弱,以及在应用于下游任务时需要大量昂贵的注释数据。通过将外部知识集成到plm中,知识增强预

    2024年02月11日
    浏览(43)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,针对《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻译。 在没有标记或额外的未标记数据的情况下,我们如何将预先训练的模型扩展到许多语言理解任务?经过预训练的语言模型(PLM)对于广泛的NLP任务是有效的。然而,现有的方法要么需要对下游

    2024年02月07日
    浏览(45)
  • 【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model

    论文标题:Label prompt for multi-label text classification(基于预训练模型对少样本进行文本分类) 发表时间:2021 领域:多标签文本分类 发表期刊:ICANN(顶级会议) 相关代码:无 数据集:无 最近,预先训练过的语言模型在许多基准测试上都取得了非凡的性能。通过从一个大型的

    2024年02月14日
    浏览(45)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP这一类方法只能进行图片级别的视觉和文本对齐; 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联; 本文致力于进行多粒度(

    2024年02月09日
    浏览(43)
  • GPT(Generative Pre-Training)论文解读及实现(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    浏览(159)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包