【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling

这篇具有很好参考价值的文章主要介绍了【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

为了更好的阅读体验,请点击这里

由于发不出论文,所以找点冷门方向做一做。从汉语比喻开始。

读完这篇论文之后我觉得 COLING 这方向我上我也行(ε=ε=ε=┏(゜ロ゜;)┛

题目:CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling

论文链接

代码链接

发表于 2022,10 月,COLING

Chinese Nominal Metaphor —— 汉语比喻,以下简写做 NM。

本文提出了一个基于 GPT2 的结构解决三个问题,NM 的识别,NM 中部件的识别(就是本体、喻体、比喻词(e.g. 像、若、似)、上下文(比喻中蕴含的意思))以及 NM 的生成。并提了一个 6.3k 的数据集,这个数据集已被标注好并包含许多不同的比喻模式。

由于目前中文的比喻数据稀缺,作者执行自训练程序,从大规模未标记数据集中学习新发现的隐喻。自训练有三个步骤:

  1. 模型是在用于比喻识别的标记数据集上训练的;
  2. 将模型应用于未标记的语料库,以检测具有相应置信度得分的潜在比喻句;
  3. 在标记的比喻句和新发现的比喻句的组合上训练 NM 生成模型。

CM-Gen提出在识别潜在比喻成分过程中,要由比喻分类器生成的注意力权重监督。

作者认为有上下文才算成功生成了比喻句。这里的上下文是用来解释比较的一个组成部分;其定义相对灵活。有时它可以是一个简单的形容词,有时是一个关系从句,甚至在某些情况下是隐含的。以前生成比喻句的方法大多是基于模板(template-based)的方法,严重限制了生成的比喻句的多样性,并且模板方法和神经方法(neural method)都以相对简单的结构生成比喻句。最重要的是,以前的方法在其代中不提供上下文(或者只提供很少的上下文),这使得生成的结果可读性较差。

模型结构

【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling

上图是整个框架的结构图。将句子 \(S = (w_0, \cdots, w_n, w_{\text{EOS}})\) 传入 GPT2 模型中,得到特征向量 \(H = (h_0, \cdots, h_n, h_{\text{EOS}})\),其中 EOS 是特殊符号表示一个序列(sequence)的结束。

任务1:比喻识别

比喻识别利用 \(h_{\text{EOS}}\) 向量作为整个句子的特征向量,经过一个线性层和一个 SoftMax 函数,得到其概率:

\[P = \text{softmax} \left(W_m h_{\text{EOS}} + b_m \right) \]

(吐槽原文:不明意义的 \(P_M\)\(M\) 是什么?)

Loss 函数采用了二分类常用的 BCE Loss,作者毫无疑问在此处写错了公式,而且不知道为什么审稿人居然看不出来。其中,假定 \(U\) 为整个数据集,且 \(U = \{ (x_i, y_i) \}_{i=1}^N\)

\[L_1 = - \sum_{i=1}^N (y_i \log P(\hat{y_i}|x_i) + (1 - y_i) \log (1 - P(\hat{y_i}|x_i)) ) \]

任务2:比喻组件识别

作者认为 GPT2 有不连续的问题,而放到生成比喻句的环境中,会导致上下文生成和比喻中的比较内容不一致问题。除此之外,先天趋势经常导致文字错误(literal error,不知道具体应该翻译成什么)。

为解决上述问题,作者的模型把生成程序放到了比喻中的比较内容之上,也就是比喻的组件(本体、喻体和比喻词)上。同时作者也在训练过程中对于得分高的比喻组件进行加权以减少文字错误。

采用线性层来计算每个词元是比喻组件的概率:

\[P_c = \text{Sigmoid} (W_cH + b_c) \]

请注意,该过程并不预测组件的类型(例如,本体),相反,它只计算每个词元的概率,指示生成应该关注每个词元的程度。

由于比喻分类器更倾向于注意比喻的组件,因此作者用这个特性来探索比喻组件。不妨设 \(\Phi\) 为在 GPT2 的 Transformer 结构最后一层中 \(h_\text{EOS}\) 与其他词元的自注意力分数,其中 \(Q\) 是自注意力中的查询矩阵,\(k\)\(\text{EOS}\) 词元的值向量:

\[\Phi = \text{softmax} \left( \frac{Qk^T}{\sqrt{d_k}} \right) \]

用 KL 散度来作为第二个损失函数,用于评估得到的概率分布 \(P_c\)\(h_\text{EOS}\) 与其他词元的距离:

\[L_2 = D_{KL} (P_c \| \Phi) \]

这里有几个问题:

  1. 存在级联误差的情况,即 \(\Phi\) 是比喻识别线性层生成的产物,它与分布 \(P_c\) 做 KL 散度,所以为什么不直接用注意力分数做比喻的组件识别呢?
  2. 为什么使用 KL 散度而非交叉熵来做这个损失函数呢?\(D_{KL} = H(P_c) + CELoss(P_c, \Phi)\),由于 \(P_c\) 不固定,因此这里最小化 KL 散度与最小化交叉熵并不等价,这里多了 \(P_c\) 自己的熵需要最小化。在最小化交叉熵的同时最小化自己的熵我认为并不是什么好选择。
  3. 更新的时候是否有固定训练参数?如果是,固定了哪些参数?如果没有固定参数的话,\(\Phi\) 会随着 GPT2 的以及比喻识别器的参数变化而变化,因此训练时这是两个一直在变化的值在做 KL 散度。

总之这几个问题突出一个难绷。

任务3:比喻生成

执行比喻生成任务三个步骤:

  1. 在比喻组件上调节生成(conditioning the generation);
  2. 强化比喻成分;
  3. 执行自训练过程

在比喻组件上调节生成 Conditioning the generation

首先,作者先求一个比喻组件表示 \(C = (c_0, \cdots, c_i, \cdots, c_n)\),(我觉得大概应该是用于求它是什么组件类型的):

\[c_i = \sum_{k=0}^i \alpha_k \cdot h_k \]

其中,

\[(\alpha_0, \cdots, \alpha_i) = \text{softmax} P_c^{\{0,\cdots,i\}} \]

此后将 \(h_i\)\(c_i\) 拼接在一起,预测下一个词元可以写作:

\[P(w_{i+1}|w_0, \cdots, w_i) = \text{softmax} (W_l \cdot \text{concat}(h_i, c_i) + b_l) \]

\(W_l,b_l\) 都是训练用参数。

看完这几个式子又有了几个新的问题:

  1. 首先 \(h_i\) 向量就是采用了 \([0,i]\) 区间内所有词元的信息才能求出的特征向量,然后我们再做一个前缀的加权和?
    • 暂且假定除了 \(h_\text{EOS}\) 之外的其他词元对应的特征向量受位置在其之前的词元影响不大,这个假定回答这个问题只能说是勉强。
  2. \(P_c\) 本就是刚过了激活函数 \(\text{Sigmoid}\),现在再过 \(\text{softmax}\) 得到 \(\alpha\)?过两次激活函数总感觉不大正常。
  3. 拼接和其他方法比效果如何?例如向量加权等方法。拼接是否能将二者的信息较好的融合?

强化 Emphasizing

设句子 \(S = (w_0, \cdots, w_n)\),最小化如下损失函数:

\[\mathcal{L}(S) = - \sum_{i=0}^n P_c^i \cdot \log P(w_i | w_0, \cdots, w_{i-1}) \]

同样的问题:在反向传播的过程中,由于不冻结参数,\(P_c\) 也会被更新,欲最小化上面的函数,\(P_c^i\) 会趋向于变大。

自训练 Self-training

作者采用从大规模语料库中发现新的汉语比喻的自我训练来训练比喻生成模块,从而提高生成的流畅性和多样性。

具体而言,作者用两个相同大小(论文中没提及,但是对于数据集大小都用了 \(N\))的有标签数据集 \(U = \{ (x_i, y_i) \}_{i=1}^N\) 和无标签数据集 \(V = \{ (x_i, y_i=P_M^i) \}_{i=1}^N\),其中 \(P_M^i\) 为模型判断第 \(i\) 组数据是否为比喻的概率,然后损失函数如下:

\[L_3 = - \sum_{x,y \in U \cup V} y \cdot \mathcal{L}(x) \]

训练和推断

最终损失函数为:

\[L = \gamma \cdot L_1 + L_2 + L_3 \]

注意,当学习未标记的句子时,\(\gamma\) 被设置为 \(0\),因为这些数据缺乏比喻识别的监督标签。为了帮助模型收敛,在用 \(L\) 在混合数据上训练整个框架之前,我们首先在任务 1 的监督数据集上预训练模型。此外,在进行推理时,我们的模型只执行任务 3。

实验

数据集

  1. Chinese NM Corpus (CMC)
    • 有监督
    • 标注步骤共 5 步
      1. 从散文、文章和小说中收集了 55000 句中文句子
      2. 雇佣了三名具有 NLP 背景的中国研究生来标记每个句子是否为比喻
      3. 把多数同意作为每一句话的最终标签
      4. 识别所有比喻部件的边界(boundary),包括本体、比喻词和喻体
      5. 将现有的隐喻语料库与作者的语料库合并,以扩大整体多样性。
    • 为了鼓励生成上下文,作者确保上下文明确出现在数据集中的所有隐喻中。
    • 通过 Krippendorff 的 \(\alpha\) 计算比喻标注的内部标注的一致性,为 \(0.84\)
  2. Chinese Literature Corpus (CLC)
    • 无监督
    • 大规模

【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling

BaseLine

  • SeqGAN
  • GPT2
  • BART
  • SCOPE
  • MultiTask

实验设置

在联合优化三个特定任务的损失函数之前,CM-GEN 模型在比喻识别任务上和 CMC 预训练了三个轮次。

指标

自动指标

  • PPL
  • Dist-1, 2
  • 在 CMC 上训练一个基于 RoBERTa 的汉语比喻分类器
    • 用于测试生成输出的比喻性
    • 用于计算生成句子中比喻话语的比例
  • Novelty
  • 基于语法的方法从生成的比喻句中识别本体(TENOR)和喻体(VEHICLE)
    • 并计算训练集中不同时出现的 <TENOR,VEHICEL> 对的比例。

人工评估

  • Fluency
  • Consistency
  • Creativity

结果

【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling

自训练机制提高了生成流畅性和多样性。从模型中删除自训练很大程度上影响了四个自动指标。比喻成分强调主要有助于方法减轻文字错误,从而提高 Meta 评分。上下文条件也有利于 Meta 评分的整体框架。

人的评价也体现了自训练、强化和在比喻组件上调节生成三种机制的有效性。自训练在流利性和创造性两个方面都能提高生成的质量。调节作用主要有助于一致性得分,因为它使模型能够生成上下文描述。文章来源地址https://www.toymoban.com/news/detail-711553.html

到了这里,关于【读论文】CM-Gen: A Neural Framework for Chinese Metaphor Generation with Explicit Context Modelling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记: NSG: Neural Scene Graphs for Dynamic Scenes

    对动态场景进行渲染,完成动态前景与背景分离、背景inpainting、动态前景编辑和新视角生成。 之前的方法如nerf只能够渲染静态场景(利用的是静态场景在多视角下的一致性),如将整张图像场景中的所有物体编码进单个神经网络中,缺乏表征动态物体和将这些物体分解为单

    2024年01月16日
    浏览(41)
  • 论文笔记:Adjusting for Autocorrelated Errors in Neural Networks for Time Series

    2021 NIPS 原来的时间序列预测任务是根据 预测 论文提出用一阶自回归误差 预测 一阶差分,类似于ResNet的残差思路? 记 为pred,最终的预测结果  

    2024年02月14日
    浏览(42)
  • 【论文笔记】SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

    论文地址:https://arxiv.org/pdf/2210.17168.pdf 论文提出了一种token-level的自蒸馏对比学习(self-distillation contrastive learning)方法。 传统方法使用BERT后,会对confusion chars进行聚类,但使用作者提出的方法,会让其变得分布更均匀。 confusion chars: 指的应该是易出错的字。 作者提取特征的方

    2024年02月02日
    浏览(59)
  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(49)
  • One-4-All: Neural Potential Fields for Embodied Navigation 论文阅读

    题目 :One-4-All: Neural Potential Fields for Embodied Navigation 作者 :Sacha Morin, Miguel Saavedra-Ruiz 来源 :arXiv 时间 :2023 现实世界的导航可能需要使用高维 RGB 图像进行长视野规划,这对基于端到端学习的方法提出了巨大的挑战。 目前的半参数方法通过将学习的模块与环境的拓扑记忆相

    2024年02月14日
    浏览(45)
  • [论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation

    这是论文Glancing Transformer for Non-Autoregressive Neural Machine Translation的笔记。 传统的非自回归文本生成速度较慢,因为需要给定之前的token来预测下一个token。但自回归模型虽然效率高,但性能没那么好。 这篇论文提出了Glancing Transformer,可以只需要一次解码,并行地文本生成。并

    2024年02月12日
    浏览(46)
  • NICE-SLAM: Neural Implicit Scalable Encoding for SLAM论文阅读

    标题 :NICE-SLAM: Neural Implicit Scalable Encoding for SLAM 作者 :Zihan Zhu, Songyou Peng,Viktor Larsson — Zhejiang University 来源 :CVPR 代码 :https://pengsongyou.github.io/nice-slam 时间 :2022 神经隐式(Neural implicit representations)表示最近在同步定位和地图绘制(SLAM)方面有一定的进展,但现有方法

    2024年02月15日
    浏览(53)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(53)
  • 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing

    A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of California, San Diego 作者:Canwen Xu, Julian McAuley 发表会议: EACL 2023 论文地址:http://arxiv.org/abs/2202.07101 发布时间:2022.2.15(v1) 2023.2.24 (v2) 掌握主要内容 有效缩小大型Transformer模型是自然语言处理最新进展的主

    2024年02月03日
    浏览(47)
  • 【深度学习】WaveMix: A Resource-efficient Neural Network for Image Analysis 论文

    论文:https://arxiv.org/abs/2205.14375 代码:https://github.com/pranavphoenix/WaveMix 我们提出了WaveMix——一种新颖的计算机视觉神经架构,既资源高效,又具有泛化性和可扩展性。WaveMix网络在多个任务上实现了与最先进的卷积神经网络、视觉Transformer和token mixer相当或更好的准确性,为C

    2024年02月15日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包