ChatGLM基座:GLM(General Language Model)论文阅读笔记

这篇具有很好参考价值的文章主要介绍了ChatGLM基座:GLM(General Language Model)论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


ChatGLM基座:GLM(General Language Model)论文阅读笔记

Introduction

现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。

一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。
作者概述了它们目前存在的问题·:

  1. GPT:单向的注意力机制,不能完全捕捉NLU任务中上下文词之间的依赖关系。
  2. Bert:编码器可以更好的提取上下文信息,但是不能直接用于文本生成。

作者提到上述框架不够灵活,之前也有人做过统一这两个架构的工作,但是自编码与自回归本质的不同,不能很好的继承两个架构的优点,于是提出了一个基于自回归空白填充的语言模型(GLM)GLM通过2D的 positional encoding和允许一个任意的predict spans 来改进空白填充预训练。同时,GLM可以通过改变空白的数量和长度对不同类型的任务进行预训练。

GLM Pretraining Framework

它基于一个新颖的自回归空白填充目标。GLM将NLU任务制定为包含任务描述的cloze问题,这些问题可以通过自回归生成来回答。

Autoregressive Blank Infilling

ChatGLM基座:GLM(General Language Model)论文阅读笔记

  1. 给定Input=[x1,x2,x3,x3,x5,x6],然后采样m个 spans。
  2. 把被采样的部分mask掉,得到Part A。
  3. random 被采样的 spans,得到 PartB。
  4. 把PartA与PartB拼接成一个sequence,Part A部分采用双向注意力,PartB部分采样自回归预测。为了能够自回归生成,padded 【start】和【end】。

Multi-Task Pretraining

在上一节中,GLM掩盖了短跨度,适用于NLU任务。然而,作者对预训练一个能同时处理NLU和文本生成的单一模型感兴趣,考虑以下两个目标。

  • Document-level:对单一跨度进行采样,其长度从原始长度的50%-100%的均匀分布中抽出。该目标旨在生成长文本。

  • Sentence-level:限制被mask的跨度必须是完整的句子。多个跨度(句子)被取样,以覆盖15%的原始token。这一目标是针对seq2seq任务,其预测往往是完整的句子或段落。
    这两个新目标的定义与原目标相同,唯一不同的是的跨度数量和跨度长度。

Model Architecture

GLM使用单一的Transformer,并对架构进行了一些修改:
(1)重新安排了层的归一化和残差连接的顺序,这已被证明对大规模语言模型避免数字错误至关重要。
(2)使用单一的线性层进行输出token预测。
(3)用GeLU替换ReLU激活函数。

2D Positional Encoding

ChatGLM基座:GLM(General Language Model)论文阅读笔记

Experiment

Conclusion

GLM是一个用于自然语言理解和生成的通用预训练框架。NLU任务可以被表述为条件生成任务,因此可以通过自回归模型来解决。GLM将不同任务的预训练目标统一为自回归空白填充、混合注意力mask和新的二维位置编码。经验表明,GLM在NLU任务中的表现优于以前的方法,并且可以有效地共享不同任务的参数。文章来源地址https://www.toymoban.com/news/detail-431369.html

到了这里,关于ChatGLM基座:GLM(General Language Model)论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读笔记】GLM-130B: AN OPEN BILINGUAL PRE-TRAINEDMODEL

    Glm-130b:开放式双语预训练模型 我们介绍了GLM-130B,一个具有1300亿个参数的双语(英语和汉语)预训练语言模型。这是一个至少与GPT-3(达芬奇)一样好的100b规模模型的开源尝试,并揭示了如何成功地对这种规模的模型进行预训练。在这一过程中,我们面临着许多意想不到的技术和

    2024年02月03日
    浏览(49)
  • 【论文阅读24】Better Few-Shot Text Classification with Pre-trained Language Model

    论文标题:Label prompt for multi-label text classification(基于预训练模型对少样本进行文本分类) 发表时间:2021 领域:多标签文本分类 发表期刊:ICANN(顶级会议) 相关代码:无 数据集:无 最近,预先训练过的语言模型在许多基准测试上都取得了非凡的性能。通过从一个大型的

    2024年02月14日
    浏览(45)
  • 【论文阅读】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

    会议: 2024-ICLR-UNDER_REVIEW 评分:5,3,3,3 作者:Anonymous authors 文章链接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING? 代码链接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?  图对比学习( GCL)在使用无标签数据的预训练图神经网络上被证明是有效的方法

    2024年01月24日
    浏览(43)
  • 中英双语大模型ChatGLM论文阅读笔记

    论文传送门: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github链接: THUDM/ChatGLM-6B GLM-130B 和 GPT-3 175B(davinci) 相比,参数量减少,但性能提升了。 INT4 quantization without post training INT4量化是一种将模型的权重和激活从使用

    2024年02月02日
    浏览(47)
  • 论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction

    arxiv 2024 时空+大模型

    2024年04月24日
    浏览(49)
  • Pixel Aligned Language Models 论文阅读笔记(PixelLLM)

    发表于2023.12, Google Research UC San Diego Part 1 概述 PixelLLM:像素对齐大语言模型 a vision-language model with fine-grained localization ability by densely aligning each output word to a pixel location can take an image and any combination of location or text as input or output. generates captions, and aligns each output word to a pixel l

    2024年01月19日
    浏览(43)
  • LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

    LLaMA是meta在2023年2月开源的大模型,在这之后,很多开源模型都是基于LLaMA的,比如斯坦福大学的羊驼模型。 LLaMA的重点是比通常情况下使用更多的语料,来训练一系列可在各种推理预算下实现可能的最佳性能的语言模型。 摘要翻译:我们在此介绍LLaMA,这是一个参数范围从

    2024年02月15日
    浏览(48)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(58)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(46)
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    题目 论文作者与单位 来源 年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接:https://arxiv.org/pdf/2106.09685.pdf 论文代码:https://github.com/microsoft/LoRA 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关

    2024年02月06日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包