前言
因为每次看论文遇到新的名词查了很久,好不容易找到/总结出其意思
过了很久记不清,或者笔记本找不到
于是就想着写在这里当做笔记
方便自己随时查看
Distantly supervised (远程监督)
将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练处一个效果不错的关系抽取器。
可以用于关系抽取。
原文:Distant supervision for relation extraction without labeled data
If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.
(两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。)
感谢纸短情长的博客提供的例子
远程监督数据的例子
假设我们有一个大型知识库,其中包含大量关于人物和他们之间关系的信息。我们还有大量未标记的文本,其中包含这些人物的提及。通过远程监督方法,我们可以利用知识库中的信息来自动为文本中的实体对生成关系标签。
例如,如果知识库中有关于比尔·盖茨和梅琳达·盖茨是夫妻关系的信息,那么在文本中提到比尔和梅琳达的句子就可以自动标记为夫妻关系。
这些自动生成的标签构成了远程监督数据。
Axial Attention(轴向注意力)
先在竖直方向进行self-attention,然后再水平方向进行self-attention。这样可以降低计算复杂度。
可以用于关系抽取。
Focal Loss(局部损失函数)
局部损失函数。主要解决样本不均衡问题。
Knowledge Distillation(知识蒸馏)
从大模型学到的知识用于指导小模型,使得小模型具有大模型的泛化能力,并且参数量显著降低,压缩了模型提升了性能。其作用是过滤远程监督数据中的噪音。
简单来说就是把大模型的参数喂给小模型参数,已达到相近或一致的结果。
以teacher-student模型以例子。
核心思想就是训练一个复杂模型,把这个复杂模型的输出和有label的数据一并喂给了小网络,所以知识蒸馏一定会有个复杂的大模型(teacher model)和一个小模型(student model)。
soft labels(软标签)
例如:probs 0.32, 0,18, 0,2…
可以视为是回归问题
比起分类的是不是他,更倾向于有多大的概率是他
与知识蒸馏相结合能够更好的学习训练模型
hard labels(硬标签)
例如:实际label值 0, 1, 2…
更像是分类问题中是不是的情况
是就是,不是就不是
distant labels(远距离标签)
这个暂时还没有总结出来
positive sample(正样本)
属于某一类别的样本。
例如我们检测提取动词,得到了一些样本。
样本里是动词的样本称为正样本。
negative sample(负样本)
不属于某一类别的样本。
例如我们检测提取动词,得到了一些样本。
样本里不是动词的样本称为负样本。
residual connection(残差链接)
运用于神经网络中
输入x ⇒ 添加函数F ⇒ F(x) ⇒ 添加x ⇒ 输出 x+F(x)
这样做的目的是为了在神经网络某层中添加一项,求偏导数时多一个常数
防止反向传播出现梯度消失的情况
可以类比:y = 1 / (x^2+1)
x^2+1的目的是防止分母为0
F1分数
F1为精确率和召回率的调和平均数(为下部分做准备)
Ign_F1
我看网上所有的解释都是:表示在训练集、验证集和测试集中不包含关系事实的F1分数。
那么我通俗的给大家白话一下:
解释Ign_F1还是需要与DocRED数据集相结合
DocRED数据集包含3,053/1,000/1,000个实例,对应训练/验证/测试
在3053里识别实体,提取实体对。
举例:
北京是中国的首都
我们可以提取<北京,首都,中国>这个关系事实
但这只是在训练集里
在1000的测试集里可能有这句话
小王来自中国,他是北京人
我们可以提取<北京,城市,中国>这个关系事实
那么(划重点了)
在测试集里提取关系对之前
我们已经在训练集里知道了北京和中国这层关系(别管是啥关系类型,肯定是有关系的)
可能就会导致F1里的查准率和准确率,召回值产生影响
降维比喻:
就像是狼人杀里的上帝视角
知道谁是狼人(或者说谁是坏人)
谁是女巫(或者说谁是好人)
为了消除上帝视角这个隐患
我们在计算Ign_F1时,删掉已知的关系对(训练集里有的关系事实)
这样再计算Ign_F1时,得到的结果更加具有真实性
补充:Ign_F1目前我看到的只出现在文档级关系抽取的论文里
(很可能是我看的论文太少)
Adaptive Thresholding Loss(自适应阈值损失,ATL)
关系抽取分类器最终输出为0-1之间的概率值,需要一个阈值来得到最终的关系标签。 因此一个常规的做法是枚举一定量的阈值,然后选取使得评测指标(对于关系抽取来说即 [F1] )最大的阈值作为最终阈值。 然而对于不同关系类别,模型会有不同的置信度,因此使用一个全局的阈值不是最优的。
为解决这个问题,作者提出一个自适应阈值方法,具体描述如下。对于一个实体对 [T=(es,eo)] , 将其标签分为两部分正类别标签 [PT] 和负类别标签集合 [NT] :
如果一个实体对关系预测正确,则正类别的分数应该都高于阈值并且负类别的分数都低于阈值。 基于此作者引入一个阈值类TH。训练时,该类别和其他关系类别一同学习。 测试时,输出分数高于TH类别的关系为最终预测的关系;若都低于TH类别,则输出该实体对没有关系。 为学习到上述TH类别,作者提出了一个新的损失函数:
以上内容引用此处
Adaptive Focal Loss(自适应局部损失,AFL)
这个名词出自《Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation》
AFL与上述ATL并无太大区别
ATL没有对所有示例使用全局概率阈值,而是引入了一个特殊类TH 作为每个示例的自适应阈值。对于每个实体对(es、eo),其logit 大于TH类logit的类将被预测为正类,其余的将被预测为负类。
这部分依然可以用于AFL中
以下是AFL的解释:
①正类:
正类子集PT包含实体对(es, eo)中存在的关系,如果实体对(es, eo)中不存在关系,则PT为空(PT =∅)。
正类概率计算:
②负类:
负子集NT包含不属于正类的关系类,NT = R \ PT。
负类logit计算TH类概率:
损失函数:
ATL与AFL区别:
AFL其中ri的logit与阈值类TH的logit分别排序。这与最初的ATL不同,在最初的ATL中,所有的正对数都与softmax功能一起排序。
Ground Truth
就理解为真实情况/值!!
whitening(数据白化)
将数据整体的分布形状进行均匀化的操作,成为数据白化
实体提及
在一篇文章里出现了实体(比如:北京),那么接下来在文章中该实体以多次相同别名出现(比如接下来文章还会有北京,中国首都,清朝首都等等,都代指北京),就成为实体提及。
长尾分布
在实际应用中,训练样本通常表现为长尾类分布,其中一小部分类有大量的样本点,而其他类只与少数样本相关。
简单降维举个例子,如果用中国人做的人脸识别项目直接照搬到非洲,可能会出现水土不服的情况
因为中国人普遍属于黄皮肤,皮肤黑的也有,也占极少数。
所以人脸识别的项目对于黄皮肤数据就很敏感,对于黑皮肤不那么敏感
在中国人脸这个训练样本中,黄皮肤就占了大量的样本点,黑皮肤占了少数样本点
以上可以做个简单的长尾分布的理解
或者换个一句话的解释:正类和负类出现的概率是不一样的(一般正多负少),不同类别下数量也是不一致的
想深入了解可参考这篇论文
BLEU(双语替换评测)
用于NLP中评估机器翻译的一种算法
评判标准就是看机器翻译是否能够靠近专业翻译
取值范围[0,1]
数值越大,表示翻译的越准确
聚合关系
也称作包含关系
是指具有组织或结构特征的“部分与整体”之间的关系
例如:凳子是桌子的一部分
实体重叠/嵌套
在一句话中,出现了长实体包含了短实体的情况出现
例如:《小鱼儿与花无缺》这部电视剧上映于2005年。
那么长实体:小鱼儿与花无缺
短实体:小鱼儿、花无缺
很可能模型在NER的时候仅仅识别除了《小鱼儿与花无缺》,从而忽略了短实体文章来源:https://www.toymoban.com/news/detail-426437.html
以上部分就是实体重叠/嵌套文章来源地址https://www.toymoban.com/news/detail-426437.html
到了这里,关于NLP论文中出现的名词解释(不断更新)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!