NLP论文中出现的名词解释（不断更新）-Toy模板网

这篇具有很好参考价值的文章主要介绍了NLP论文中出现的名词解释（不断更新）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

因为每次看论文遇到新的名词查了很久，好不容易找到/总结出其意思

过了很久记不清，或者笔记本找不到

于是就想着写在这里当做笔记

方便自己随时查看

Distantly supervised （远程监督）

将已有的知识库对应到丰富的非结构化数据中，从而生成大量的训练数据，从而训练处一个效果不错的关系抽取器。

可以用于关系抽取。

原文：Distant supervision for relation extraction without labeled data

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.
（两个实体如果在知识库中存在某种关系，则包含该两个实体的非结构化句子均能表示出这种关系。）

感谢纸短情长的博客提供的例子

远程监督数据的例子
假设我们有一个大型知识库，其中包含大量关于人物和他们之间关系的信息。我们还有大量未标记的文本，其中包含这些人物的提及。通过远程监督方法，我们可以利用知识库中的信息来自动为文本中的实体对生成关系标签。
例如，如果知识库中有关于比尔·盖茨和梅琳达·盖茨是夫妻关系的信息，那么在文本中提到比尔和梅琳达的句子就可以自动标记为夫妻关系。
这些自动生成的标签构成了远程监督数据。

Axial Attention（轴向注意力）

先在竖直方向进行self-attention，然后再水平方向进行self-attention。这样可以降低计算复杂度。

可以用于关系抽取。

Focal Loss（局部损失函数）

局部损失函数。主要解决样本不均衡问题。

NLP论文中出现的名词解释（不断更新）

Knowledge Distillation（知识蒸馏）

从大模型学到的知识用于指导小模型，使得小模型具有大模型的泛化能力，并且参数量显著降低，压缩了模型提升了性能。其作用是过滤远程监督数据中的噪音。

简单来说就是把大模型的参数喂给小模型参数，已达到相近或一致的结果。

以teacher-student模型以例子。

核心思想就是训练一个复杂模型，把这个复杂模型的输出和有label的数据一并喂给了小网络，所以知识蒸馏一定会有个复杂的大模型(teacher model)和一个小模型(student model)。

soft labels（软标签）

例如：probs 0.32, 0,18, 0,2…

可以视为是回归问题

比起分类的是不是他，更倾向于有多大的概率是他

与知识蒸馏相结合能够更好的学习训练模型

hard labels（硬标签）

例如：实际label值 0, 1, 2…

更像是分类问题中是不是的情况

是就是，不是就不是

distant labels（远距离标签）

这个暂时还没有总结出来

positive sample（正样本）

属于某一类别的样本。

例如我们检测提取动词，得到了一些样本。

样本里是动词的样本称为正样本。

negative sample（负样本）

不属于某一类别的样本。

例如我们检测提取动词，得到了一些样本。

样本里不是动词的样本称为负样本。

residual connection（残差链接）

运用于神经网络中

输入x ⇒ 添加函数F ⇒ F(x) ⇒ 添加x ⇒ 输出 x+F(x)

这样做的目的是为了在神经网络某层中添加一项，求偏导数时多一个常数

防止反向传播出现梯度消失的情况

可以类比：y = 1 / (x^2+1)

x^2+1的目的是防止分母为0

F1分数

F1为精确率和召回率的调和平均数（为下部分做准备）
NLP论文中出现的名词解释（不断更新）

Ign_F1

我看网上所有的解释都是：表示在训练集、验证集和测试集中不包含关系事实的F1分数。

那么我通俗的给大家白话一下：

解释Ign_F1还是需要与DocRED数据集相结合

DocRED数据集包含3,053/1,000/1,000个实例，对应训练/验证/测试

在3053里识别实体，提取实体对。

举例：

北京是中国的首都

我们可以提取<北京，首都，中国>这个关系事实

但这只是在训练集里

在1000的测试集里可能有这句话

小王来自中国，他是北京人

我们可以提取<北京，城市，中国>这个关系事实

那么（划重点了）

在测试集里提取关系对之前

我们已经在训练集里知道了北京和中国这层关系（别管是啥关系类型，肯定是有关系的）

可能就会导致F1里的查准率和准确率，召回值产生影响

降维比喻：

就像是狼人杀里的上帝视角

知道谁是狼人（或者说谁是坏人）

谁是女巫（或者说谁是好人）

为了消除上帝视角这个隐患

我们在计算Ign_F1时，删掉已知的关系对（训练集里有的关系事实）

这样再计算Ign_F1时，得到的结果更加具有真实性

补充：Ign_F1目前我看到的只出现在文档级关系抽取的论文里

（很可能是我看的论文太少）

Adaptive Thresholding Loss（自适应阈值损失，ATL）

关系抽取分类器最终输出为0-1之间的概率值，需要一个阈值来得到最终的关系标签。因此一个常规的做法是枚举一定量的阈值，然后选取使得评测指标（对于关系抽取来说即 [F1] ）最大的阈值作为最终阈值。然而对于不同关系类别，模型会有不同的置信度，因此使用一个全局的阈值不是最优的。

为解决这个问题，作者提出一个自适应阈值方法，具体描述如下。对于一个实体对 [T=(es,eo)] ，将其标签分为两部分正类别标签 [PT] 和负类别标签集合 [NT] :
NLP论文中出现的名词解释（不断更新）

如果一个实体对关系预测正确，则正类别的分数应该都高于阈值并且负类别的分数都低于阈值。基于此作者引入一个阈值类TH。训练时，该类别和其他关系类别一同学习。测试时，输出分数高于TH类别的关系为最终预测的关系；若都低于TH类别，则输出该实体对没有关系。为学习到上述TH类别，作者提出了一个新的损失函数：
NLP论文中出现的名词解释（不断更新）
以上内容引用此处