【NLP】Label prompt for multi-label text classification论文阅读笔记

这篇具有很好参考价值的文章主要介绍了【NLP】Label prompt for multi-label text classification论文阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0.前言

        写于来XXXX公司实习的最后一个月,预祝自己实习顺利结束~

Paper address:

Label prompt for multi-label text classification | Applied Intelligence

( Applied Intelligence 2023)

摘要

        在多标签分类任务中,在复杂且未知的标签空间中直接对标签之间的相关性进行建模是相当具有挑战性的。所以文章提出了一个标签提示多标签文本分类模型(LP-MTC)。具体来说,文章作者设计了一组用于多标签文本分类的模板,将标签集成到预先训练的语言模型的输入中,并通过掩蔽语言模型(MLM)进行联合优化。通过这种方式,可以在self-attention的帮助下捕捉标签之间的相关性以及标签与文本之间的语义信息,从而有效地提高模型性能。

1.介绍

        文本分类任务是NLP领域极为重要的一种任务,其中有一种情况是大量的样本被分配给多个标签,我们称此为多标签文本分类(MTC)。

        但在实际应用中,由于文档的冗长和复杂,语义信息可能被隐藏在嘈杂或冗余的内容中。此外,标记之间可能存在一些语言相关性,并且不同的标记可能共享文档的一个子集。

        为了解决这些问题,对MTC的研究视角可以分为以下三类:

        1.如何从原始文档中充分捕获语义模式。

        2.如何从每个文档中提取与相应标签相关的区别信息。

        3.如何准确地挖掘标签之间的相关性。

        过往方法:一些深度学习方法,如CNN 和注意机制,可以有效地对文档进行建模,将多标签文本分类任务转换为几个二值分类任务,但却忽略标签之间的关系;一些方法利用标签结构和内容来捕获标签之间的相关性;一些研究将MTC转化为标签生成模型,以检索多标签的潜在空间;一些方法通过学习标签的表示来得到一个更一般化的分类模型;还有一些方法可以通过显式建模训练集中标签之间的关联来预测测试集的标签。然而,当标签文本之间没有太大的差异或缺乏标签文本时,这些模型可能会在分类上失败。此外,在一个未知和复杂的标签空间中建模标签的关联可能是非常具有挑战性的。
        大规模的预训练语言模型的出现,如BERT和GPT-3 ,使得自然语言处理领域的知识转移更加容易。最近的一些研究表明,为预先训练过的语言模型编写提示可以更好地释放模型的优势,并实现进一步的改进。在提示学习中,任务被形式化为等效的封闭式任务,语言模型用于处理相应的封闭式任务,而不是原始任务。

        因此,本文的作者受基于大规模预训练语言模型的提示学习方法的启发,提出了一种标签提示多标签文本分类模型(LP-MTC),通过使用语言模型学习的提示模板中的语义信息来学习标签与文本之间的关系

2.相关工作

        相关工作主要介绍了多标签分类与提示学习的内容,这里不再赘述

3.准备工作

        这里简单介绍了一下如何对数据添加提示模板并结合MLM进行预测,给读者一个大致的理解。

        输入文本:x = {w1,w2,…,wm}

        文本标签:y = {y1,y2,…,yL}

        MTC任务的目标是学习一个映射函数:χ:x→y:{0,1}L

        1.为不同的任务构建提示模板。以一个电影情感二分法句子为例,如下图所示,“The movie was so touching!”,提示学习通常会生成一个新句子,通过添加前缀模板输入:“The movie was so touching!I [Mask] it!”。[Mask]可以是“love”或“hate”,分别表示积极或消极的情绪。带有前缀模板的新输入可以表示为:x' = T||x,||代表连接。

        2.在训练过程中,提示学习通常与语言模型相结合来预测掩码标记信息。给定一个带有词汇表V的语言模型M和带有掩码的新输入x',提示学习的目标是预测掩码token的概率P。要预测的标记通常反映了句子的分类。

        3.将搜索到的答案映射到标签空间。一般来说,预测的标记与实际的类别不同,因此需要通过映射的方法将特定的标记分配给相应的类别。例如,在下图中,love被映射为一个积极的类别,hate被映射为一个消极的类别。通过这种方式,即时学习可以将二元情绪分类任务转换为封闭式的任务。

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

4.方法

        整体的模型架构如下图所示。首先,我们需要设计一套提示模板,可以用于多个标签任务,以便在输入中显示标签信息。在此之后,我们需要使用语言模型在模板中学习[Mask]标记。然后,我们还通过随机掩蔽原始输入的标记来构建一个多任务框架,并使用MLM来预测掩蔽标记。

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

4.1提示模板

        对于每个标签,有三个值:Y, N,MASK,分别表示是、否、MASK。

  同时,对于每个标签还显式地赋予了位置编码,即给这个标签的前后分别加上token:start、end。举个栗子🌰:该样本的标签为[1, 0, MASK],那么最终会拼接上的模板为:

4.2对语言模型的提示学习

        生成模板后,将其视为原始句子的前缀,并将原始文本一起输入到预训练模型中。训练过程有两个主要目标:预测标签空间中多个标签的概率分布,以及预测MLM的掩码。15%的概率屏蔽提示模板中的中心标记(只有YN可以屏蔽)。此外,以相同的概率随机屏蔽了原句中的标记。接下来,我们将标签预测与语言模型的MLM任务相结合。(在此,我的理解是:我们又重新预训练了一个新的模型出来,在这个模型的预训练任务中,不仅有BERT原始对于文本的MLM任务,现在还加入了对于文本标签的MLM,使得模型捕获到了标签与其上下文之间的相关性。最后,利用我们训练好的预训练模型对标签空间中的多个标签进行概率分布预测。仅为本人个人理解哈~)

4.3训练与推理

        正向传播

        前向传播模板生成后,我们将其视为原始句子的前缀,并输入x’到预训练模型中。训练过程有两个主要目标:基于提示模板预测标签分布,以及预测原始句子和模板的掩蔽标记。

        标签预测:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        预测原始句子和模板的掩蔽标记:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        联合损失

        使用二进制交叉熵(BCE)作为MTC的损失函数,使用交叉熵作为MLM的损失函数。BCE损失如下:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        最后的联合损失:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        推理

        在推断时,在模板中所有的标签都被覆盖为掩码,并计算所有掩码标签的概率。与训练不同,此时不需要执行MLM任务,因为提示模板中的token可以很容易地预测标签分布。最后将标签的输出用Sigmoid函数进行概率归一化。最后,所有大于0.5的概率值被预测为正标签,否则为负标签。模型推理过程下图所示。

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

5.实验

5.1数据集

        数据集使用了AAPD、Reuters、Emotion、Toxic Comments,都是一些多分类的文本数据集,这里便不再赘述。

5.2评价指标

        评价指标都是常用的召回率,F1分数,精确度,汉明损失,这里也不再赘述。

5.3Baselines

        CNN:利用卷积神经网络提取文本特征,输出标签在标签空间中的分布。
        BiLSTM-Attention:在最后一层采用自注意的第2层LSTM神经网络得到文档表示,并通过逻辑回归对每个标签进行预测。
        SGM:将MTC视为一个序列生成问题,并应用一个具有新的解码器结构的序列生成模型来解决它。
        BERT:基于自我注意的预训练语言模型。对不同的下游任务进行了不同的微调。
        BERT+MLM:在基本的BERT分类上,还添加了额外的MLM任务。
        Label-Wise (LW) LSTM with PT and FT:通过预训练模型获得了具有标签感知信息的文档表示,并对不同的下游任务进行了细化。PT为训练前的方法,FT表示对下游任务的微调方法。
        LP:论文方法但没有额外的MLM任务。
        LP-MLM:论文方法与额外的MLM任务。

5.4总体结果

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

       

        1.通过将基于LP的方法(LP和LP-MLM)与不使用提示模板的方法(BERT和BERT-MLM)进行比较,确认了第一点。我们发现,在大多数情况下,LP有显著的性能提高,这表明将MTC转化为提示学习任务可以促进分类效果。提示模板可以被视为语言模型的特殊输入,因此语言模型可以学习模板中包含的标签信息。当我们将标签和原句子一起输入到BERT中时,这相当于为标签构建相应的上下文,而自我注意可以敏感地捕捉到原句子中不存在的上下文关系。用这种方式,我们引入标签之间的关联,可以提高模型理解标签上下文的能力。

        2.对于第二点,我们也注意到,添加MLM可以进一步提高LP和BERT的性能,这说明了联合训练的有效性。我们从Bert的本质来解释这一现象。由于BERT本质上是一个MLM,允许BERT继续学习不同下游任务的掩码令牌,可以使模型更适合于下游任务,从而进行更好的分类。

        3.此外,我们还注意到,对于不同的数据集,LP-MLM与BERT-MLM相比的改进也不同。对于大标签空间的AAPD、Reuters和Emotion,LP-MLM分别提高了1.47%、3.64%和2.97%,而对于只有6个标签的Toxic,提高了1.04%。这表明,通过引入标签之间的相关性所带来的改进可能是与标签空间的大小有关。

        4.另外,模型的性能也与数据集的特殊性有关。例如,所有模型的micro-F1值通常很低,情感是一个细粒度的情绪数据集,很难区分。

6.分析

6.1注意力可视化

        作者选择了AAPD、Reuters、Toxic Comments的测试集中相关性(斯皮尔曼相关系数)较高的前11个标签。然后,以不同BERT层的注意输出参数作为可视化的输入。平均所有的注意力头,并在所有的标签对之间选择注意分数。我们将所有批次相加,得到测试集上的全局得分矩阵,并对其进行归一化。我们选择第二层、第六层和最后一层的注意矩阵进行可视化。

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读        从可视化结果中,我们发现浅层的BERT学习了一些粗略的信息,比如标签与自身的相关性。(图5b),但是相关性可能是很弱的,并且经常捕获不相关的标签。(图6b和图7b),第6层更注重局部相关性,闭合标签0和1之间的相关性得到了很好的捕获,如图5c所示。然而,我们也发现,一些没有相关性的局部标签被错误地分配为高相关性,如图6c中的标签2和标签4。
        最后一层的注意力更接近于原始的标签相关性分布。与第6层相比,它不仅可以学习AAPD的标签0和标签1之间的关系,还可以学习更遥远的标签对之间的相关性,如图5d的标签2和标签4。对Toxic和 Reuters也进行了类似的观察。校正了第6层的误差相关性,并正确地捕获了标签1和标签2之间的高相关性。这表明,深度BERT可以捕获标签之间的相关性,这也为LP-MTC的优势提供了一个有效的解释。

6.2损失的可视化

        对比了八个方法不同的loss收敛速度,得出结论:
       
1.MLM任务具有更大的标签空间和更多的预测值(占所有令牌的15%),因此优化速度更慢,损失值比MTC具有更大的数量级。

        2.MTC任务的收敛速度很快,通常在50步之前就变平了,这表明像BERT这样的语言模型可以很容易地学习文档标签。

        3.LP-MLM方法可以使MTC任务在训练样本上比在AAPD、Emotion和 Reuters的BERT-MLM更快,说明LP可以帮助模型更好地学习。

6.3λ的选择

    对于不同的λ,作者做实验进行了比较,得出λ=0.01的时候模型效果最好

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

 6.4不同的提示策略

        ·END

        将prompt和原始文本拼接顺序替换:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        ·SAME

        不区分不同标签的位置信息,而是用相同的特殊标记表示:

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        ·LP-MLM

        本文所提出的方法

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读

        得出结论:本文提出的模板策略是最好的咯~

6.5耗时

        1.与BERT相比,BERT-MLM增加了训练时间,因为增加了MLM辅助任务。

        2.与Bert-MLM相比,LP-MTC的改进是由于使用了标签模板,这增加了输入标记的长度。因此,拥有大标签空间的 Reuters比Toxic需要更多的时间。然而,总的来说,LP-MLM仅略微增加了模型的训练时间。

【NLP】Label prompt for multi-label text classification论文阅读笔记,自然语言处理,人工智能,论文阅读文章来源地址https://www.toymoban.com/news/detail-780884.html

 

到了这里,关于【NLP】Label prompt for multi-label text classification论文阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

    论文十问十答: Q1论文试图解决什么问题? 多标签文本分类问题 Q2这是否是一个新的问题? 不是 Q3这篇文章要验证一个什么科学假设? 因为文本标签越多,分类就越难,所以就将文本类型进行分层分类,这样就可以加大文本分类的准确度。 Q4有哪些相关研究?如何归类?谁

    2023年04月09日
    浏览(29)
  • 论文解读( FGSM)《Adversarial training methods for semi-supervised text classification》

    论文标题:Adversarial training methods for semi-supervised text classification 论文作者:Taekyung Kim 论文来源:ICLR 2017 论文地址:download  论文代码:download 视屏讲解:click 通过对输入进行小扰动创建的实例,可显著增加机器学习模型所引起的损失 对抗性实例的存在暴露了机器学习模型的

    2023年04月12日
    浏览(36)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通过 prompt learning 来解决长尾问题,包括 (1) 使用 shared prompt 学习 general features 并将预训练模型 adapt 到 target domain;(2) 使用 group-specific prompts 学习 group-specific features 来提高模型的 fine-grained discriminative ability 作者首先通过对比 VPT (Visual Prom

    2024年02月11日
    浏览(31)
  • 【论文解读】(如何微调BERT?) How to Fine-Tune BERT for Text Classification?

    论文地址:https://arxiv.org/pdf/1905.05583.pdf 论文年份:2019年05月 论文代码: https://github.com/xuyige/BERT4doc-Classification 论文引用量:1191 (截止2023-04-28) 论文阅读前提:熟悉NLP、深度学习、Transformer、BERT、多任务学习等。 现在NLP任务方式大多都是对BERT进行微调。例如:我们要做一个

    2024年02月07日
    浏览(31)
  • Knowledge Graph Prompting for Multi-Document Question Answering

    本文是LLM系列文章,针对《Knowledge Graph Prompting for Multi-Document Question Answering》的翻译。 大型语言模型的“预训练、提示、预测”范式在开放领域问答(OD-QA)中取得了显著的成功。然而,很少有工作在多文档问答(MD-QA)的场景中探索这种范式,这项任务需要彻底理解不同文

    2024年02月09日
    浏览(26)
  • elementUi el-radio神奇的:label与label不能设置默认值

    问题:最近项目遇到一个奇葩的问题:红框中列表的单选按钮无法根据需求设置默认选中,但是同样是设置开启状态的单选框可以设置默认状态  原因:开始同样是和 开启/关闭状态 一样也把 红框中列表的默认值 设置为数字模式,但是由于后台返回值、与label绑定值的类型不

    2024年02月14日
    浏览(30)
  • Kubernetes Label && Selector

    Author: rab 在 Kubernetes 中,Label 和 Selector 是用于标识和选择对象的两个关键概念,它们在定义和管理资源对象之间的关系和关联时非常有用。 1.1 定义 Label 是键值对(key-value),可以附加到 K8s 对象上,如 Pod、Service、Deployment 等,允许您自定义对象的属性,例如,您可以为一

    2024年02月07日
    浏览(28)
  • matplotlib中的label标签

    plt中的label参数,其实可以理解为,我们往图形中要加入的图例, 通过plt.legend()的方法将其显示在图中。

    2024年02月12日
    浏览(35)
  • 【HTML】label 标签

    在HTML中, label 标签用于为表单元素创建标签文本或标题。它可以与输入字段(如文本框、单选按钮、复选框等)和其他表单元素关联起来,以提高可用性和可访问性。 label 元素有两种常见的用法: 包裹方式: 在这个示例中, label 标签将文本 “用户名:” 与一个文本输入

    2024年02月14日
    浏览(30)
  • HTML <label> 标签

    带有两个输入字段和相关标记的简单 HTML 表单: 元素 Chrome IE Firefox Safari Opera label Yes Yes Yes Yes Yes 所有主流浏览器都支持 label 标签。 Safari 2 或更早的版本不支持 label 标签。 label 标签为 input 元素定义标注(标记)。 label 元素不会向用户呈现任何特殊效果。不过,它为鼠标用

    2024年02月12日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包