论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

这篇具有很好参考价值的文章主要介绍了论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
  • 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang
  • 日期:2020
  • 期刊:AAAI

2. 文章导读

2.1 概括

  文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE1.0[1]的基础上提升了采用了continual multi-task learning,在多个NLP下游任务上取得了SOTA表现。
  文章总体框架如下
论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

2.2 文章重点技术

2.2.1 Continual Pre-training

  大语言模型的训练成本比较高,为了节约成本和方便使用,我们希望有一个通用的大语言模型可以适用于尽可能多的下游任务。一般来说,我们可以采用多任务学习来对进行语言模型的预训练(multi-task learning)。常规的多任务学习对选定的tasks同时进行训练,这样可以保证所有task都能被平等对待。但这种方法要求所有task的数据都预先准备好,而实际工程化时我们的训练集往往是在过程中逐渐增多的。
  Continual pre-training在一定程度上解决了这个问题。在Continual learning中,模型依此学习每个task,这样我们可以在训练号的模型基础上随时增加新的task训练。但这种串行结果往往会让模型忘记之前学习到的信息。
  为了解决上述问题,模型提出了一种sqeuential multi-task learning,使得模型在不忘记前面学习的知识的前提下进行增量学习。下图给出了本文应用的sequential multi-task learning(SMTL)和传统的multi-task learning以及continual learning的区别。SMTL首先用原始模型的参数初始化,然后每次新增一个任务的时候,会讲新增任务和原有任务一些学习来更新模型的参数。
论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

2.2.2 Pre-Training Tasks

  为了使得模型学习到训练语料库中的词汇、语法和语义信息,文章构建了多个级别的任务

  • word级别
    • 知识掩码:同ERNIE1.0[1]中的掩码任务,模型会进行单词、实体和短语级别的三阶段掩码,从而学习到上下文之间的依赖关系
    • 大小写预测:大写字母往往蕴含一些单词信息,对NER等任务比较重要。从而模型增加了预测单词大小写的分类任务,来捕获这种信息。
    • token-document关系预测:此任务中,模型预测当前文本段的token是否出现在同文档的其它文本段中。一般来说,如果一个token频繁出现,则它很可能与当前文档的主题相关。这种思想即TF-IDF中的TF思想。
  • strcuture级别
    • 句子重排序:在此任务中,对任意给定的段落,模型首先将其随机分割为 n ( n = 1 , … , m ) n (n=1, \dots, m) n(n=1,,m)个片段,再将片段打乱,模型对其进行重新排序,即给出 n ! n! n!中顺序中的任意一个作为预测。
    • 句子距离预测:此任务为一个3-分类任务。标签为“0”表示两个句子时同一篇文档的相邻句子,“1”表示两个句子为同一篇文档的不同句子,“2”表示两个句子为不同文档中的句子。此任务旨在让模型学习到文档级别的句子距离信息。
  • semantic级别
    • 关系预测:文章使用自动构建的数据集来进行次任务的训练,从而学习到两个句子的语义和修辞关系。
    • IR关联预测:此任务为一个3-分类任务。标记为“0”表示query和title之间是强相关,“1”表示二者弱相关,“2”表示二者无关。模型通过学习此任务可以学习到IR(information retrieval)中的短文本关联性。

2.2.3 Task-Embedding

  为了使模型了解到不同的任务指令,模型增加了task embedding。每个task id由0~N表示,然后生成对应的task embedding。例如task id为3时,对应的输入如下图
论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

2.2.4 Data

  文章在BERT基础上,新增了Reddit和Discovery的数据,且增加了百科、新闻、对话等中文语料库(类似ERNIE1.0,来自百度百科、贴吧、新闻等)

3. 文章亮点

  文章给出一种基于sequential multi-task learning的模型预训练方法,在不忘记历史学习到的知识的同时,又可以进行增量学习。文章给出的ERNIE 2.0在多个英文任务上达到了SOTA,且ERNIE 2.0 LARGE重新刷新了实验的10个任务的SOTA表现。

4. 原文传送门

ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
代码+模型

5. References

[1] 论文笔记–ERNIE: Enhanced Representation through Knowledge Integration文章来源地址https://www.toymoban.com/news/detail-493765.html

到了这里,关于论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    【论文笔记】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    论文地址:https://arxiv.org/abs/2302.00861 时间序列分析被广泛应用于各个领域。近年来,为了降低标签费用,使各种任务受益, 自我监督式预训练 引起了人们的极大兴趣。一种主流范式是 masked 建模,它通过学习基于未 masked 部分 重构 masked 内容来成功地预训练深度模型。然而,

    2024年01月21日
    浏览(11)
  • GPT(Generative Pre-Training)论文解读及实现(一)

    GPT(Generative Pre-Training)论文解读及实现(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在给定语料上下文环境下,目标时最大化下面的语言模型,即在给定前 i-1个词和参数θ前提下,使第 i 个词出现的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    浏览(11)
  • 论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)

    论文阅读-(GLIP)Grounded Language-Image Pre-training (目标检测+定位)

    Paper:Grounded Language-Image Pre-training Code:https://github.com/microsoft/GLIP 简介: 定位任务与图像检测任务非常类似,都是去图中找目标物体的位置,目标检测为给出一张图片找出bounding box,定位为给出一个图片和文本,根据文本找出物体。GLIP 模型统一了目标检测(object detection)和

    2024年02月05日
    浏览(7)
  • 【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training

    【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training

    chatGPT的初代工作,可以说没有GPT,就没有现在的大模型百家争鸣,本篇文章回顾这篇经典论文,思考作者是如何根据前者的工作在思想上进行创新,从而得到通用的模型架构。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然语言理解

    2024年02月15日
    浏览(70)
  • ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

    以下是我阅读完整篇论文做的个人总结,基本包含了ChatGPT1设计的完整框架思路,可以仅看【论文总结】章节。 在GPT1实现的核心架构中,包含两个阶段。 第一阶段 在 第一阶段 基于一个包含 7000本书籍 内容的海量 未标注文本数据集 进行无监督预训练,该阶段引入了一种 T

    2024年02月05日
    浏览(11)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(11)
  • Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

    Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

    诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称:REALM: Retrieval-Augmented Language Model Pre-Training 模型名称:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文,作者来自谷歌,关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来

    2024年02月04日
    浏览(8)
  • 【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然语言处理(Natural Language Processing,NLP)领域内的 预训练语言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。

    2024年02月14日
    浏览(13)
  • 跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 视觉语言预训练的位置引导文本提示 视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。 然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至

    2024年02月11日
    浏览(12)
  • 论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    论文阅读【自然语言处理-预训练模型2】BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation

    BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension BART: 用于自然语言生成、翻译和理解的去噪序列对序列预训练 【机构】:Facebook AI 【作者】:Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoye

    2024年02月03日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包