论文笔记--ERNIE: Enhanced Language Representation with Informative Entities

这篇具有很好参考价值的文章主要介绍了论文笔记--ERNIE: Enhanced Language Representation with Informative Entities。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:ERNIE: Enhanced Language Representation with Informative Entities
  • 作者:Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu
  • 日期:2019
  • 期刊:ACL

2. 文章概括

  文章提出了ERNIE(Enhanced Language Representation with Informative Entities),一种可以将外部知识融合进入预训练模型的方法。数值实验表明,ERNIE可以提升一些知识驱动的下游任务的表现,且在其它NLP任务上效果基本持平SOTA。

3 文章重点技术

3.1 模型框架

  给定token序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1,,wn},其中 n n n为序列长度,令 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1,,em}表示对应的实体序列,其中 m m m为实体数。一般来说 m < n m<n m<n,这是因为不是每个token都可以映射为知识图谱(KG)中的实体(entity),且一个实体可能对应多个token,比如"bob dylan"两个token对应一个实体"Bob Dylan"。记所有token的词表为 V \mathcal{V} V,KG中所有实体的集合为 E \mathcal{E} E。如果对 v ∈ V v\in\mathcal{V} vV,存在与其对应的实体 e ∈ E e\in\mathcal{E} eE,则我们用 f ( v ) = e f(v)=e f(v)=e表示这种对齐关系。特别地,针对上述多个token对应单个实体的情况,我们将实体对齐给第一个token,例如句子中出现"bob dylan…"时, f ( "bob" ) = "Bob Dylan" f(\text{"bob"}) = \text{"Bob Dylan"} f("bob")="Bob Dylan"
  如下图所示,ERNIE的整体框架分为两部分:1) T-Encoder(Textual encoder),用于捕捉基本的词义和句法信息;2) K-Encoder(Knowledgeable encoder),用于将外部知识融合进入模型。记T-Encoder的层数为 N N N,K-Encoder的层数为 M M M
论文笔记--ERNIE: Enhanced Language Representation with Informative Entities,论文阅读,论文阅读,bert,ERNIE,知识图谱,实体
  具体来说,给定输入序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1,,wn}和对应的实体序列 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1,,em},T-encoder层首先将token序列、segment序列和位置序列输入得到词汇和句法层面的特征 { w 1 , … , w n } = T-Encoder ( { w 1 , … , w n } ) \{\bold{w}_1, \dots, \bold{w}_n\} = \text{T-Encoder}(\{w_1, \dots, w_n\}) {w1,,wn}=T-Encoder({w1,,wn}),其中T-Encoder结构和BERT[1]相同,基本架构为Transformer的Encoder层。
  然后将上述特征传入到K-Encoder层。K-Encoder还会接受外部知识信息,首先我们会通过TransE生成 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1,,em}对应的预训练实体嵌入 { e 1 , … , e m } \{\bold{e}_1, \dots, \bold{e}_m\} {e1,,em},然后将该嵌入同上述特征 { w 1 , … , w n } \{\bold{w}_1, \dots, \bold{w}_n\} {w1,,wn}一起输入K-Encoder层从而得到融合外部知识的输出嵌入: { w 1 o , … , w n o } , { e 1 o , … , e m o } = K-Encoder ( { w 1 , … , w n } , { e 1 , … , e m } ) \{\bold{w}_1^o, \dots, \bold{w}_n^o\},\{\bold{e}_1^o, \dots, \bold{e}_m^o\} = \text{K-Encoder}(\{\bold{w}_1, \dots, \bold{w}_n\},\{\bold{e}_1, \dots, \bold{e}_m\}) {w1o,,wno},{e1o,,emo}=K-Encoder({w1,,wn},{e1,,em}),上述输出嵌入后续可用来作为特征参与下游任务。

3.2 K-Encoder(Knowledgeable Encoder)

  如上图所示,K-Encoder包含堆叠的聚合器,每个聚合器包含token和实体两部分输入。在第 i i i个聚合器中,输入为来自上层聚合器的嵌入 { w 1 ( i − 1 ) , … , w n ( i − 1 ) } \{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\} {w1(i1),,wn(i1)}和实体嵌入 { e 1 ( i − 1 ) , … , e m ( i − 1 ) } \{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\} {e1(i1),,em(i1)},然后将token和实体嵌入分别传入到两个多头自注意力机制MH-ATTs得到各自的输出: { { w ~ 1 ( i ) , … , w ~ n ( i ) } = MH-ATT ( { w 1 ( i − 1 ) , … , w n ( i − 1 ) } ) { e ~ 1 ( i ) , … , e ~ m ( i ) } = MH-ATT ( { e 1 ( i − 1 ) , … , e m ( i − 1 ) } ) \begin{cases}\{\bold{\tilde{w}}_1^{(i)}, \dots, \bold{\tilde{w}}_n^{(i)}\} = \text{MH-ATT}(\{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\})\\ \{\bold{\tilde{e}}_1^{(i)}, \dots, \bold{\tilde{e}}_m^{(i)}\} = \text{MH-ATT}(\{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\})\end{cases} {{w~1(i),,w~n(i)}=MH-ATT({w1(i1),,wn(i1)}){e~1(i),,e~m(i)}=MH-ATT({e1(i1),,em(i1)})。然后模型通过将每个token与其对应的实体进行拼接,将外部实体信息融合进入嵌入。具体来说,针对一个有与之对应的实体的token,假设 e k = f ( w j ) e_k=f(w_j) ek=f(wj),则 h j = σ ( W ~ t ( i ) w ~ j ( i ) + W ~ e ( i ) e ~ k ( i ) + b ~ ( i ) ) \bold{h}_j = \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} + \bold{\tilde{W}}_e^{(i)} \bold{\tilde{e}}_k^{(i)} + \bold{\tilde{b}}^{(i)}) hj=σ(W~t(i)w~j(i)+W~e(i)e~k(i)+b~(i))为整合了实体和token信息的隐藏层输出, w j ( i ) = σ ( W t ( i ) h j + b ~ t ( i ) ) e k ( i ) = σ ( W e ( i ) h j + b ~ e ( i ) ) \bold{w}_j^{(i)} = \sigma (\bold{W}_t^{(i)} \bold{h}_j + \bold{\tilde{b}}_t^{(i)})\\\bold{e}_k^{(i)} = \sigma (\bold{W}_e^{(i)} \bold{h}_j + \bold{\tilde{b}}_e^{(i)}) wj(i)=σ(Wt(i)hj+b~t(i))ek(i)=σ(We(i)hj+b~e(i))表示当前聚合器的输出嵌入,其中 σ \sigma σ为GELU激活函数。对于没有与之对应实体的token,只需要把上述涉及 e e e的部分拿掉即可: h j = σ ( W ~ t ( i ) w ~ j ( i ) + b ~ ( i ) ) w j ( i ) = σ ( W t ( i ) h j + b ~ t ( i ) ) \bold{h}_j = \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} + \bold{\tilde{b}}^{(i)})\\\bold{w}_j^{(i)} = \sigma (\bold{W}_t^{(i)} \bold{h}_j + \bold{\tilde{b}}_t^{(i)}) hj=σ(W~t(i)w~j(i)+b~(i))wj(i)=σ(Wt(i)hj+b~t(i))

3.3 预训练任务

  为了将知识融合进入语言表达,文章提出了一种新的预训练任务:dEA(denoising entity auto-encoder):随机掩码一些token-entity的对齐,然后让模型给予对齐的tokens来预测被掩码的实体。具体来说,给定输入序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1,,wn}和对应的实体序列 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1,,em},通过下述公示预测token w i w_i wi对应的实体分布: p ( e j ∣ w i ) = exp ⁡ ( linear ( w i o ) ⋅ e j ) ∑ k = 1 m exp ⁡ ( linear ( w i o ) ⋅ e k ) p(e_j|w_i) = \frac {\exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_j)}{\sum_{k=1}^m \exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_k)} p(ejwi)=k=1mexp(linear(wio)ek)exp(linear(wio)ej)
  考虑到实际对齐过程中可能存在一些错误,我们增加如下策略:1)5%的时间用随机的实体替代当前实体,使得模型纠正token-实体对齐错误的情况 2)15%的时间将token-实体对齐进行掩码,使得模型可以纠正当实体对齐为被识别到的情况 3)其余时间保持token-实体对齐不变,从而使得模型学习到token和实体之间的对齐方法。
  最终,ERNIE使用MLM、NSP和上述dEA三种训练目标。

3.4 微调

  类似于BERT,我们使用[CLS]的嵌入作为句子的最终嵌入表示来进行分类。针对关系分类任务,我们增加[HD]和[TL]表示head/tail实体的开头和结尾;针对实体抽取任务,我们增加[ENT]表示实体位置。

4. 文章亮点

  文章提出了一种可以将外部信息融合至预训练的ERNIE模型。实验表明,ERNIE可以有效地将KG中的信息注入到预训练模型,从而使得模型在处理实体提取、关系分类等需要外部知识的任务时更加出色,且实验证明外部知识可以帮助模型充分利用少量的训练集。

5. 原文传送门

ERNIE: Enhanced Language Representation with Informative Entities

6. References

[1] 论文笔记–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[2] 百度ERNIE论文笔记–ERNIE: Enhanced Representation through Knowledge Integration文章来源地址https://www.toymoban.com/news/detail-600349.html

到了这里,关于论文笔记--ERNIE: Enhanced Language Representation with Informative Entities的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NEQR: novel enhanced quantum representation

       NEQR利用量子叠加和量子纠缠的特性,将数字图像转换为量子态表示,并通过量子门操作进行处理和操作。相较于传统的经典图像表示方法,NEQR具有更高的图像压缩率和更强的安全性,能够在保持图像质量的同时实现更小的存储空间。此外,NEQR还可以用于实现基于量子计

    2023年04月27日
    浏览(29)
  • 【论文阅读随笔】RoPE/旋转编码:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING

    绝对位置编码比较简单,加或乘一个有次序的数 实现相对位置编码,也即意味着,要蕴含位置差的信息: 假设m是某个token的位置信息,n是另一个token的位置信息,要有类似 m − n m-n m − n 的信息,比较容易想到复数乘法会产生 m − n m-n m − n ,以及复数乘法和复数内积的性

    2024年03月11日
    浏览(43)
  • VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 论文阅读笔记

    写在前面   又是一周周末,在家的时间感觉过得很快呀,下周就能回学校啦~ 论文地址:Open-Set Domain Adaptation with Visual-Language Foundation Models 代码地址:当前版本暂未提供代码地址 预计提交于:CVPR 2024 Ps:2023 年每周一篇博文阅读笔记,主页 更多干货,欢迎关注呀,期待 5

    2024年02月14日
    浏览(43)
  • 【论文阅读笔记】4篇Disentangled representation learning用于图像分割的论文

    4篇应用解耦表示学习的文章,这里只关注如何解耦,更多细节不关注,简单记录一下。 Chen C, Dou Q, Jin Y, et al. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, O

    2024年01月17日
    浏览(46)
  • 论文笔记--GloVe: Global Vectors for Word Representation

    标题:GloVe: Global Vectors for Word Representation 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning 日期:2014 期刊:EMNLP   文章提出了一种新的单词表示的训练方法:Glove。该方法结合了基于统计方法和基于上下文窗口方法的优势,在多个下游任务上超越了当下SOTA方法的表现。

    2024年02月15日
    浏览(31)
  • 论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

    Title: 深入研究单目 3D 物体检测的 输出表示 单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。 然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具

    2024年04月09日
    浏览(41)
  • 论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

    2022 ICML 长时间序列问题是一个研究很广泛的问题 RNN以及变体会遇到梯度消失/梯度爆炸,这会在很大程度上限制他们的表现 Transformer的方法会导致很高的计算复杂度,以及很大的内存消耗,这也会使得在长时间序列上使用Transformer很吃力 近来有方法优化Transformer,使其计算复

    2024年02月11日
    浏览(50)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(38)
  • 【论文阅读】InstructGPT: Training language models to follow instructions with human feedback

    论文链接:InstructGPT 🤗关注公众号 funNLPer 了解更多AI算法🤗 把语言模型变大并不意味着会让模型更好的理解用户意图,例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户,换句话说,这些模型并没有和用户的意图对齐(aligned)。在这篇论文中我们展示了

    2023年04月19日
    浏览(52)
  • 论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》

    本文是2022年CVPR上的一篇 多模态 论文,利用对比学习和动量来进行图片与文本信息的上游预训练。 作者提出问题 简单的跨模态比对模型无法确保来自同一模态的相似输入保持相似。(模态内部语义信息损失) 全局互信息最大化的操作没有考虑局部信息和结构信息。 对于上

    2024年04月13日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包