【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分

这篇具有很好参考价值的文章主要介绍了【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要

  • 本文提出一个新的无监督的AES方法ULRA,它不需要真实的作文分数标签进行训练;
  • ULRA的核心思想是使用多个启发式的质量信号作为伪标准答案,然后通过学习这些质量信号的聚合来训练神经自动评分模型。
  • 为了将这些不一致的质量信号聚合为一个统一的监督信号,我们将自动评分任务视为一个排序问题,并设计了一种特殊的深度成对排名聚合(DPRA)损失函数进行训练。
  • 在DPRA损失中,我们为每个信号设置了一个可学习的置信权重来解决信号间的冲突,并且以成对的方式训练神经AES模型以解开部分排序对之间的级联效应。

方法

  • 我们的ULRA框架包括两个阶段:模型训练和模型推理。
    【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读
  • 模型训练阶段,ULRA框架包含两个模块: 1)启发式作文排序模块:根据启发式质量信号产生排序对;2)深度成对排序聚合模块:聚合来自多个质量型号的排序对,到一个统一的监督中。
  • 模型推理阶段,考虑到神经AES模型预测的作文分数可能和预定义的分数集合有不同的分数,我们提出了一个评分策略来转换被神经AES模型预测的分数到预训练的分数集合的范围。

启发式作文排序

  • 多个经典的质量信号被引入从不同的方面描述作文的质量;每个质量信号的值可以之后被用来排序文章和产生一个排序列表。
  • 质量信号:surface、preposition、readability
  • 作文排序:与基于质量信号来对一篇作文评分外,比较他们的质量信号来评价两篇文章的相对质量更容易。所以,对于每个质量信号,我们只通过排序保留作文间的部分有序的关系信息。
  • 排序对生成:考虑到在每个排序列表中,只有部分的有序信息是正确的,本文把每个排序列表转换成一个集合的部分有序的排序对,从而使得不正确的部分有序对能够被其他排序列表纠正。

深度成对排序聚合

  • 本文设计了一个深度成对的排序聚合损失,它为每个信号设置了一个可学习的置信权重来度量每个信号的重要度。
  • 神经AES模型:包括作文编码器和全连接层。
  • 置信权重(confidence weight):度量哪个排序对更加可靠。可学习的参数 η k \eta _k ηk可以被定义为在第 k k k个排序列表中的部分有序的信息和真实的分数排序的吻合的概率或程度。

实验

数据集

  • ASAP数据集,总共12978篇作文,8个主题。
    【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读

实现细节

  • 质量信号设置:总共用了20个质量信号。分为以下三类:
    • 浅层信号(Surface Signals): character number (CH), word number (W), commas number (CO), and number of unique words (UW);
    • 介词信号(Preposition Signals):number of noun-plural words (NNP), number of determiner words (DT), number of noun-singular words (NN), number of adverb words (RB), number of adjective words(JJ), and number of preposition/subordinatingconjunction words (IN);
    • 可读性信号(Readability Signals):Gunning Fog (GF) index, SMOG index, RIX, Dale-Chall (DC) index, wordtype number (WT), sentence number (S), number of longwords (LW), number of complex words (CW), number of non-basic words (NBW), and number of difficult words (DW).

【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读

  • 数据集设置:
    • 对于直推式设置(transductive):模型在整个无标签数据集上训练,并在整个数据集上进行测试,也就是说测试作文在训练时都被看到。
    • 对于归纳式设置(inductive):整个无标签的数据集被分为训练集、验证集和测试集(6:2:2),也就是说测试作文在训练时并没有被看到。由于是无监督的设置,验证集并没有作用,所以被舍弃。

比较的方法

  • 主要和之前的无监督AES方法进行比较:Signal Clustering (Chen et al., 2010) and Signal Regression (Zhang and Litman, 2021).
  • 4个变种(variants):(1) averaged signal as supervision, (2) averaged output as prediction, (3) aggregated signal as supervision, and (4) aggregated output as prediction.
  • 也列举了两个额外的基线:分别取20个质量信号的最小和最大值作为预测分数。

性能比较

【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读
【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读

  • 我们可以发现ULRA超过了所有的无监督方法,并且提升很大,在直推式的设置下取得了0.615的QWK,在归纳式的设置下取得了0.614的QWK。这显示出ULRA能够在可见和不可见的作文集上都表现良好。
  • 和跨主题以及单样本的方法比较,我们可以发现ULRA实现了可与之比肩的性能,只比跨主题低了0.047,比单样本低了0.073。通过观察通用的有监督方法,我们可以发现,由于缺乏强有力的监督,ULRA的性能仍然比它们低很多。

消融实验

【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读

  • 我们首先学习了置信权重 η k \eta_k ηk 和神经网络对性能的影响。
    • 把可学习的参数 η k \eta_k ηk 固定为1,性能下降很多。显示出可学习的参数 η k \eta_k ηk 可以处理不一致的信号之间的冲突。
    • 当使用非预训练的编码器,或者直接设置作文的分数为可学习的参数时,性能也下降很多。显示了一个好的作文编码器能够充分利用作文的文本信息来提升评分性能。
  • 我们接着通过从监督中移除某些类型的信号来研究信号对性能的影响。删除一种类型后性能下降约0.02,并在进一步删除另一种后继续下降。这表明所有三种类型的质量信号对模型训练都是有用的。

模型分析

【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读

  • 更多无标签作文的影响:调整训练的作文的比例从0.2到1.0,曲线先增加,之后在比例为0.6后保持平稳。它显示了大约60%的无标签作文就足够训练一个好的ULRA模型。
  • 更多训练对的影响:调整batch size的大小从2到32,以使得一个batch中的训练对的数量能相应得从1增加到496。可以发现所有的线都展示出向上的趋势。它展示出更多数量的训练对能够带来更好的性能。
  • 弱信号的影响:弱信号是那些和真实分数具有较弱相关性的信号。从图中可以看到几乎所有的线都呈现出整体的下降趋势。它表明弱监督会弱化监督以及减损模型性能。

【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读文章来源地址https://www.toymoban.com/news/detail-588810.html

  • 更多信号的影响:基于最好的N个质量信号和最差的N个质量信号。通过调整N从1到10,可以发现所有的best-N和所有的worst-N展示了向上的趋势。它显示出更多的信号能够带来更好的性能。
    【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分,NLP,论文阅读
  • 置信权重的影响:计算学习到的置信权重和对应的QWK的斯皮尔曼相关系数。可以发现两者是高度相关的。显示出学习到的置信权重确实能够反映质量信号的confidence。

到了这里,关于【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 树上启发式合并(dsu on tree)

    dsu on tree dsu text{dsu} dsu 一般指 disjoint set union text{disjoint set union} disjoint set union ,即并查集。 dsu on tree text{dsu on tree} dsu on tree 指树上合并与查询操作,但它的实现和普通的并查集并无关联,两者的共同点仅仅在于都能合并集合和查询而已。 dsu on tree text{dsu on tree} d

    2024年02月16日
    浏览(41)
  • 非梯度类启发式搜索算法:Nelder Mead

    Hello,今天给大家介绍一种不基于梯度的优化算法 Nelder Mead。 Nelder Mead 算法通常是用来求解非线性(nonlinear)、导函数未知情况下目标函数的最大值或者最小值。学过梯度下降的同学应该知道,梯度下降类算法的每一步都需要计算当前位置的梯度,从而更新当前解使得最终逐

    2024年02月02日
    浏览(47)
  • 【启发式算法】灰狼优化算法【附python实现代码】

    写在前面: 首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬

    2024年02月16日
    浏览(38)
  • 求解三维装箱问题的启发式深度优先搜索算法(python)

    给定一个容器(其体积为 V V V ) 和一系列待装载的箱子,容器和箱子的形状都是长方体。问题的目标是要确定一个可行的箱子放置方案使得在满足给定装载约束的情况下,容器中包含的箱子总体积 S S S 尽可能的大,即填充率尽可能的大,这里填充率指的是 S / V ∗ 100 % S/ V * 1

    2024年02月05日
    浏览(101)
  • 元启发式算法库 MEALPY 初体验-遗传算法为例

    官网: MealPY官网 开源许可: (GPL) V3 MEALPY (MEta-heuristic ALgorithms in PYthon) 是一个提供最新自然启发式元启发算法的Python模块,它是最大的此类Python模块之一。这些算法模仿自然界中的成功过程,包括生物系统以及物理和化学过程。mealPy 的目标是免费向所有人分享元启发领域的知识

    2024年04月11日
    浏览(42)
  • 人工大猩猩部队优化器:一种新的面向全局优化问题的自然启发元启发式算法(Matlab代码实现)

           目录 💥1 概述 📚2 运行结果 🎉3 参考文献 👨‍💻4 Matlab代码 元启发式在解决优化问题方面发挥着关键作用,其中大多数都受到自然界中自然生物集体智慧的启发。本文提出了一种新的元启发式算法,其灵感来自自然界大猩猩部队的社会智能,称为人工大猩猩部

    2024年02月01日
    浏览(44)
  • 【无码专区1】简单路径的第二大边权(启发式合并+最小生成树)

    只有std,没有自我实现,所以叫做无码专区 description 给一张无向图,多次询问,每次询问两个点之间所有简单路径(不重复经过点)中边权第二大(不是严格第二大)的权值的最小值。 数据范围: 1 0 5 10^5 1 0 5 级别 我的想法 前 50 % 50% 5 0 % 的数据 q , n ≤ 1 0 3 , m ≤ 2 × 1 0

    2024年02月08日
    浏览(37)
  • 如何进行测试分析与设计-HTSM启发式测试策略模型 | 京东云技术团队

    测试,没有分析与设计就失去了灵魂; 测试人员在编写用例之前,该如何进行测试分析与设计呢?上次在《测试的底层逻辑》中讲到了【输入输出测试模型】,还讲到了【2W+1H测试分析法】,但2W1H分析法是初步的分析方法,具体在测试中如何落地,还需要更细的设计。 今天

    2024年02月05日
    浏览(51)
  • 启发式搜索算法:A算法(全局、局部择优算法)+A*算法 解决八数码问题

    参考博客:人工智能搜索策略:A*算法 在图搜索算法中,如果能在搜索的每一步都利用估价函数f(n)=g(n)+h(n)对Open表中的节点进行排序,则该搜索算法为 A算法 。由于估价函数中带有问题自身的启发性信息,因此,A算法又称为启发式搜索算法。 对启发式搜索算法,又可根据搜

    2024年02月10日
    浏览(39)
  • Codeforces Round 890 (Div. 2) D. More Wrong(交互题 贪心/启发式 补写法)

    题目 t(t=100)组样例,长为n(n=2000)的序列 交互题,每次你可以询问一个区间[l,r]的逆序对数,代价是 要在的代价内问出最大元素的位置,输出其位置 思路来源 neal Codeforces Round 890 (Div. 2) supported by Constructor Institute D (交互+分治) 附加强 - 知乎 题解 赛中开题顺序大失败没看这个

    2024年02月14日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包