【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分

1年前作者：沐兮Krystal分类：Toy博客阅读(13)违法举报

这篇具有很好参考价值的文章主要介绍了【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

摘要

本文工作聚焦于从领域泛化的视角提升AES模型的泛化能力，在该情况下，目标主题的数据在训练时不能被获得。
本文提出了一个主题感知的神经AES模型（PANN）来抽取用于作文评分的综合的表示，包括主题无关（prompt-invariant）和主题相关（prompt-specific）的特征。
为了提升表示的泛化能力，我们进一步提出了一个新的解缠绕表示学习框架（disentangled representation learning）。在这个框架中，设计了一个对比的模长-角度对齐策略（norm-angular alignment）和一个反事实自训练策略（counterfactual self-training）用于解开表示中主题无关和主题相关的特征信息。

引言

本文提出一个主题感知的神经AES模型，它能够基于一篇作文的编码器（比如说预训练的BERT）来抽取作文的质量特征，并且基于一个文本匹配模块来抽取主题遵循度特征。
存在两个问题：
- 从编码器中抽取到的作文质量特征，比如BERT，可能编码了质量和内容信息，并且它们在特征中是相互缠绕的。怎样从特征中解开独立的质量信息是第一个问题；
- 主题关联特征和作文质量特征都是基于作文抽取得到的。因此，从因果的角度看，作文是两种特征的混淆因素，导致主题关联度和作文质量间的有误导性的关联。比如，一篇作文可能有不同的主题关联性但是一样的质量，在不同的主题下。所以，怎样解开这种误导性的关联，使得这两种特征独立得贡献于最终的分数是第二个问题。

方法

解缠绕表示学习框架（DRL）是基于预训练和微调的范式进行设计的。
- 在预训练阶段，设计了一个对比的norm-angular对齐策略来预训练文章质量特征，目的是解绑特征中的质量和内容信息。
- 在微调阶段，应用了一个反事实自训练策略来微调整个PANN模型，目的是解绑文章质量特征和主题相关特征之间的误导性的关联。
- 最后，使用完全训练好的PANN来评分目标主题的作文。

PANN的模型架构

三个主要组成：
- 作文质量网络（EQ-net）：只把作文作为输入，抽取主题无关的作文质量特征。
- 主题关联网络（PA-net）：把作文和主题都作为输入，抽取主题特定的主题遵循度特征。因为这样的基于交互的文本匹配模型能够只关注作文和主题的词级的相似度，它能够避免编码到和作文质量相关的信息，比如句法和内聚力，从而使得特征只特定于主题遵循度。
- 作文评分预测器（ESP）：结合两种特征来预测整体分数。
解缠绕表示学习DRL
- EQ-net可能会编码主题无关的质量信息和主题相关的内容信息，并且内容信息会在不同主题间切换，它会阻止EQ-net的泛化能力。
- 并且，PA-net和EQ-net都把作文作为输入，这使得作文变成主题关联度特征和作文质量特征的混淆因素，导致他们之间具有误导性的关联。

质量-内容解缠（Quality-Content Disentanglement）

我们提出了一个对比的模长-角度对齐策略（Contrastive Norm-Angular Alignment，CNAA）来在作文质量特征中的质量和内容信息。
这个策略的设计是基于模长不变性（norm invariant）和角度切换（angular shift）的假设，它假设质量和内容信息能够通过分别对齐就模长和角度而言的特征来被解绑。
对于模长不变性，我们假设相似质量的作文能够本分布具有相似的模长，并且这些模长可能是各个主题都不变的。
对于角度切换，我们假设具有相似内容的作文（i.e.,主题）能够被分布具有相似的角度，但是这些角度应该在不同的主题上切换。

数据增强

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分,NLP,论文阅读,学习

为了准备数据用于对比的模长-角度对齐，我们首先从训练集中抽取所有的高分和低分作文来组成原始数据 $D_o$ 。
通过两两拼接这些作文来构建衍生的数据 $D_d$ 。
随机降低分数给拼接后的作文的原因是：
- 拼接两篇文章可能会降低那篇更高分数的作文的质量（比如，内聚力和组织）。
- 拼接来自不同主题的两篇文章可能会降低作文的主题遵循度（对两个主题都是）。

模长不变性&角度切换对齐

基于成对的对比学习，包括模长不变的质量对齐和角度切换的内容对齐。

质量-遵循度解缠（Quality-Content Disentanglement）

本文尝试提出和回答以下问题：“如果一篇文章的质量保持不变，但它的题目符合度不同，那么最终得分会是多少？”

预评分指导的自训练

本文把每个反事实实例的预打好的预分数和模型预测的伪分数结合作为它的最终分数。以这种方式，在预分数中提供的先验知识和编码在伪分数中的模型知识能够被很好得融合。

实验

ASAP数据集和TOEFL11数据集

实验结果

我们和主题泛化设置的方法进行比较，包括三类方法：基于手工特征的，基于神经网络的和混合的。
可以看到，我们的PANN模型能够超过大多数的基准方法，在两个数据集上都达到最好的整体性能。这表明我们的方法对于主题泛化的作文评分是有用的。

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分,NLP,论文阅读,学习

结合PA-net和EQ-net两个部分比单独的PA-net或者EQ-net的性能好。这表明PA-net和EQ-net都能够为作文评分提供有用的信息。
当EQ-net被用NIA和ASA预训练，EQ-net的性能被提升。但是当EQ-net被只有他们中的一个预训练的时候，在TOEFL11数据集上性能下降了。相似的现象也可以在PA-net+EQ-net上观察到。这可能是由于两个损失需要被同时使用来解开质量和内容信息的缠绕。
并且，CTS也需要和CNAA策略一起使用来获得更好的性能。

进一步分析

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分,NLP,论文阅读,学习

数据增强的影响：可以发现PANN和EQ-net能够从数据增强中受益，特别是在ASAP的P3上，和TOEFL11数据集的P5上。

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分,NLP,论文阅读,学习

PA-net的影响：是否PA-net能够独立的影响最终的分数预测。可以看到，PANN为在不匹配的主题下的高分作文预测了平均更低的分数；由于EQ-net在两种设置下输出的特征是不变的，所以PA-net能够感知主题上的变化，能够独立影响分数预测。
数据大小的影响：在数据大小增大时，我们的PANN的预测性能相应提升，但是BERT的性能先上升后下降。这表明我们的表示解缠绕策略能够处理主题个数增长时带来的缠绕的信息的问题，所以模型能够从数据增长中获益。

特征可视化

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分,NLP,论文阅读,学习文章来源地址https://www.toymoban.com/news/detail-629442.html

展示了EQ-net有和没有CNAA策略时的特征分布。
(a)图三个等级的分数相对很好的分开了（left），但是不同主题的作文没有完全分开，特别时低分和中等分数的作文。
(b)图中使用了本文的CNAA策略，分数能够很好的分开根据不同的模长，主题能够很好的分开根据不同的角的方向。

到了这里，关于【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

SCI一区论文阅读小结之深度学习在气象领域应用（未完待续）
最近文献调研，发现一个研究相近的师兄最近发的几篇文章给的启发性很高，阅读文献的同时也对这几篇文章做个总结，以防自己忘记，也分享给大家。首先，甩出这位大佬的RG: https://www.researchgate.net/profile/Xuan-Tong-3/research 最近的研究都是将深度学习应用到气象领域的，比如
2024年02月21日
浏览(22)
《论文阅读》通过生成会话模型的迁移学习会话中的情感识别
前言你是否也对于理解论文存在困惑？你是否也像我之前搜索论文解读，得到只是中文翻译的解读后感到失望？小白如何从零读懂论文？和我一起来探索吧！今天为大家带来的是《Emotion Recognition in Conversations with Transfer Learning from Generative Conversation Modeling》出版：Journal o
2024年02月14日
浏览(13)
图像融合论文阅读：ReFusion：通过元学习的从可学习损失重建中学习图像融合
@article{bai2023refusion, title={ ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning }, author={Bai, Haowen and Zhao, Zixiang and Zhang, Jiangshe and Wu, Yichen and Deng, Lilun and Cui, Yukun and Xu, Shuang and Jiang, Baisong}, journal={arXiv preprint arXiv:2312.07943}, year={2023} } 论文级别：arXiv 影响因子：
2024年01月25日
浏览(45)
图像处理之《寻找和隐藏：通过深度强化学习的对抗隐写术》论文阅读
一、文章摘要图像隐写术的目的是将一个完整大小的图像(称为秘密)隐藏到另一个图像(称为封面)中。以往的图像隐写算法只能在一个封面中隐藏一个秘密。在这篇论文中，我们提出了一个自适应局部图像隐写(AdaSteg)系统，允许缩放和位置自适应图像隐写。该系统通过在局部
2024年03月14日
浏览(9)
使用AIGC工具提升论文阅读效率
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的
2024年02月08日
浏览(8)
图像融合论文阅读：CS2Fusion: 通过估计特征补偿图谱实现自监督红外和可见光图像融合的对比学习
@article{wang2024cs2fusion, title={CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estimating feature compensation map}, author={Wang, Xue and Guan, Zheng and Qian, Wenhua and Cao, Jinde and Liang, Shu and Yan, Jin}, journal={Information Fusion}, volume={102}, pages={102039}, year={2024}, publisher={Elsevier} } 论文级
2024年01月22日
浏览(20)
论文阅读：通过时空生成卷积网络合成动态模式(重点论文)
原文链接 github code 介绍视频视频序列包含丰富的动态模式，例如在时域中表现出平稳性的动态纹理模式，以及在空间或时域中表现出非平稳的动作模式。我们证明了时空生成卷积网络可用于建模和合成动态模式。该模型定义了视频序列上的概率分布，对数概率由时空ConvN
2024年01月19日
浏览(8)
Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用
Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为的
2023年04月23日
浏览(10)
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用能力
查看原文基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用能力目录专题一、Python软件的安装及入门专题二、气象常用科学计算库专题三、气象海洋常用可视化库专题四、爬虫和气象海洋数据专题五、气象海洋常用插值方法专题六、机器学习基础理
2023年04月21日
浏览(9)
【论文阅读】通过对比聚类分配的深度多视图聚类
原文链接对于大多数现有的深度MVC方法，探索多视图的不变表示仍然是一个棘手的问题。在本文中，提出了一种跨视图对比学习(CVCL)方法，该方法学习视图不变表示，并通过比较多个视图之间的聚类分配来产生聚类结果。具体来说，首先在预训练阶段使用深度自编码器提
2024年02月21日
浏览(8)