NLP论文中出现的名词解释(不断更新)

这篇具有很好参考价值的文章主要介绍了NLP论文中出现的名词解释(不断更新)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

因为每次看论文遇到新的名词查了很久,好不容易找到/总结出其意思

过了很久记不清,或者笔记本找不到

于是就想着写在这里当做笔记

方便自己随时查看

Distantly supervised (远程监督)

将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练处一个效果不错的关系抽取器。

可以用于关系抽取。

原文:Distant supervision for relation extraction without labeled data

If two entities have a relationship in a known knowledge base, then all sentences that mention these two entities will express that relationship in some way.
(两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。)

感谢纸短情长的博客提供的例子

远程监督数据的例子
假设我们有一个大型知识库,其中包含大量关于人物和他们之间关系的信息。我们还有大量未标记的文本,其中包含这些人物的提及。通过远程监督方法,我们可以利用知识库中的信息来自动为文本中的实体对生成关系标签。
例如,如果知识库中有关于比尔·盖茨和梅琳达·盖茨是夫妻关系的信息,那么在文本中提到比尔和梅琳达的句子就可以自动标记为夫妻关系。
这些自动生成的标签构成了远程监督数据。

Axial Attention(轴向注意力)

先在竖直方向进行self-attention,然后再水平方向进行self-attention。这样可以降低计算复杂度。

可以用于关系抽取。

Focal Loss(局部损失函数)

局部损失函数。主要解决样本不均衡问题。

NLP论文中出现的名词解释(不断更新)

Knowledge Distillation(知识蒸馏)

从大模型学到的知识用于指导小模型,使得小模型具有大模型的泛化能力,并且参数量显著降低,压缩了模型提升了性能。其作用是过滤远程监督数据中的噪音。

简单来说就是把大模型的参数喂给小模型参数,已达到相近或一致的结果。

以teacher-student模型以例子。

核心思想就是训练一个复杂模型,把这个复杂模型的输出和有label的数据一并喂给了小网络,所以知识蒸馏一定会有个复杂的大模型(teacher model)和一个小模型(student model)。

soft labels(软标签)

例如:probs 0.32, 0,18, 0,2…

可以视为是回归问题

比起分类的是不是他,更倾向于有多大的概率是他

与知识蒸馏相结合能够更好的学习训练模型

hard labels(硬标签)

例如:实际label值 0, 1, 2…

更像是分类问题中是不是的情况

是就是,不是就不是

distant labels(远距离标签)

这个暂时还没有总结出来

positive sample(正样本)

属于某一类别的样本。

例如我们检测提取动词,得到了一些样本。

样本里是动词的样本称为正样本。

negative sample(负样本)

不属于某一类别的样本。

例如我们检测提取动词,得到了一些样本。

样本里不是动词的样本称为负样本。

residual connection(残差链接)

运用于神经网络中

输入x ⇒ 添加函数F ⇒ F(x) ⇒ 添加x ⇒ 输出 x+F(x)

这样做的目的是为了在神经网络某层中添加一项,求偏导数时多一个常数

防止反向传播出现梯度消失的情况

可以类比:y = 1 / (x^2+1)

x^2+1的目的是防止分母为0

F1分数

F1为精确率和召回率的调和平均数(为下部分做准备)
NLP论文中出现的名词解释(不断更新)

Ign_F1

我看网上所有的解释都是:表示在训练集、验证集和测试集中不包含关系事实的F1分数。

那么我通俗的给大家白话一下:

解释Ign_F1还是需要与DocRED数据集相结合

DocRED数据集包含3,053/1,000/1,000个实例,对应训练/验证/测试

在3053里识别实体,提取实体对。

举例:

北京是中国的首都

我们可以提取<北京,首都,中国>这个关系事实

但这只是在训练集里

在1000的测试集里可能有这句话

小王来自中国,他是北京人

我们可以提取<北京,城市,中国>这个关系事实

那么(划重点了)

在测试集里提取关系对之前

我们已经在训练集里知道了北京和中国这层关系(别管是啥关系类型,肯定是有关系的)

可能就会导致F1里的查准率和准确率,召回值产生影响

降维比喻:

就像是狼人杀里的上帝视角

知道谁是狼人(或者说谁是坏人)

谁是女巫(或者说谁是好人)

为了消除上帝视角这个隐患

我们在计算Ign_F1时,删掉已知的关系对(训练集里有的关系事实

这样再计算Ign_F1时,得到的结果更加具有真实性

补充:Ign_F1目前我看到的只出现在文档级关系抽取的论文里

(很可能是我看的论文太少)

Adaptive Thresholding Loss(自适应阈值损失,ATL)

关系抽取分类器最终输出为0-1之间的概率值,需要一个阈值来得到最终的关系标签。 因此一个常规的做法是枚举一定量的阈值,然后选取使得评测指标(对于关系抽取来说即 [F1] )最大的阈值作为最终阈值。 然而对于不同关系类别,模型会有不同的置信度,因此使用一个全局的阈值不是最优的。

为解决这个问题,作者提出一个自适应阈值方法,具体描述如下。对于一个实体对 [T=(es,eo)] , 将其标签分为两部分正类别标签 [PT] 和负类别标签集合 [NT] :
NLP论文中出现的名词解释(不断更新)
NLP论文中出现的名词解释(不断更新)
如果一个实体对关系预测正确,则正类别的分数应该都高于阈值并且负类别的分数都低于阈值。 基于此作者引入一个阈值类TH。训练时,该类别和其他关系类别一同学习。 测试时,输出分数高于TH类别的关系为最终预测的关系;若都低于TH类别,则输出该实体对没有关系。 为学习到上述TH类别,作者提出了一个新的损失函数:
NLP论文中出现的名词解释(不断更新)
以上内容引用此处

Adaptive Focal Loss(自适应局部损失,AFL)

这个名词出自《Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation》

AFL与上述ATL并无太大区别

ATL没有对所有示例使用全局概率阈值,而是引入了一个特殊类TH 作为每个示例的自适应阈值。对于每个实体对(es、eo),其logit 大于TH类logit的类将被预测为正类,其余的将被预测为负类。

这部分依然可以用于AFL中

以下是AFL的解释:

①正类:

正类子集PT包含实体对(es, eo)中存在的关系,如果实体对(es, eo)中不存在关系,则PT为空(PT =∅)。
正类概率计算:
NLP论文中出现的名词解释(不断更新)
②负类:

负子集NT包含不属于正类的关系类,NT = R \ PT。
负类logit计算TH类概率:
NLP论文中出现的名词解释(不断更新)

损失函数:
NLP论文中出现的名词解释(不断更新)

ATL与AFL区别:

AFL其中ri的logit与阈值类TH的logit分别排序。这与最初的ATL不同,在最初的ATL中,所有的正对数都与softmax功能一起排序。

Ground Truth

就理解为真实情况/值!!

whitening(数据白化)

将数据整体的分布形状进行均匀化的操作,成为数据白化

实体提及

在一篇文章里出现了实体(比如:北京),那么接下来在文章中该实体以多次相同别名出现(比如接下来文章还会有北京,中国首都,清朝首都等等,都代指北京),就成为实体提及。

长尾分布

在实际应用中,训练样本通常表现为长尾类分布,其中一小部分类有大量的样本点,而其他类只与少数样本相关。

简单降维举个例子,如果用中国人做的人脸识别项目直接照搬到非洲,可能会出现水土不服的情况

因为中国人普遍属于黄皮肤,皮肤黑的也有,也占极少数。

所以人脸识别的项目对于黄皮肤数据就很敏感,对于黑皮肤不那么敏感

在中国人脸这个训练样本中,黄皮肤就占了大量的样本点,黑皮肤占了少数样本点

以上可以做个简单的长尾分布的理解

或者换个一句话的解释:正类和负类出现的概率是不一样的(一般正多负少),不同类别下数量也是不一致的

想深入了解可参考这篇论文

BLEU(双语替换评测)

用于NLP中评估机器翻译的一种算法

评判标准就是看机器翻译是否能够靠近专业翻译

取值范围[0,1]

数值越大,表示翻译的越准确

聚合关系

也称作包含关系

是指具有组织或结构特征的“部分与整体”之间的关系

例如:凳子是桌子的一部分

实体重叠/嵌套

在一句话中,出现了长实体包含了短实体的情况出现

例如:《小鱼儿与花无缺》这部电视剧上映于2005年。

那么长实体:小鱼儿与花无缺

短实体:小鱼儿、花无缺

很可能模型在NER的时候仅仅识别除了《小鱼儿与花无缺》,从而忽略了短实体

以上部分就是实体重叠/嵌套文章来源地址https://www.toymoban.com/news/detail-426437.html

到了这里,关于NLP论文中出现的名词解释(不断更新)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • STM32电源名词解释

    STM32电源架构 常用名词 VCC C=circuit 表示电路,即接入电路的电压。 VDD D=device 表示器件, 即器件内部的工作电压。 VSS S=series 表示公共连接,通常指电路公共接地端电压。 VDDA A=analog 表示模拟,是模拟电路部分的电源。主要为ADC模块以及其他的模拟电路部分(复位电路、PLL等

    2024年02月11日
    浏览(51)
  • 金融工程名词解释 简答题

    金融工程:金融工程是以金融产品和解决方案的设计、金融产品的定价与风险管理为主要内容,运用现代金融学、数理和工程方法与信息技术的理论与技术,对基础产品与金融衍生产 品进行组合与分解,以达到创造性地解决金融问题的根本目的的学科与技术。 风险中性定价

    2024年02月08日
    浏览(49)
  • 区块链行业名词解释大全

    区块链(Blockchain):是一种去中心化的账本,所有交易都被记录在区块中,这些区块按顺序连接在一起,形成一个不可篡改的链条。 加密货币(Cryptocurrency):是一种数字资产,使用加密技术来保护其安全性和匿名性。比特币和以太坊是最著名的加密货币。 智能合约(Smart Co

    2024年02月08日
    浏览(55)
  • 区块链基本概念和名词解释

    区块链基本概念和名词解释 P2P 共识算法 梅克尔-帕特里夏树 从零开始搭建区块链 至今(2022)从业已经10年了,作为一个IT老鸟,见证了移动互联时代的崛起,甚至参与其中充当一颗光荣的螺丝钉。其间各种各样的所谓新技术、新框架、新工具层出不穷,有的昙花一现,有的

    2024年01月17日
    浏览(63)
  • 智能小程序相关名词解释(汇总)

    小程序 ID 小程序 ID 是智能小程序分配给开发者的应用 ID,是应用的唯一标示,只有应用创建后才可以获取。创建小程序应用后,您可获得小程序应用的小程序 ID。 小程序框架 小程序提供一套简单高效的开发框架,帮助您开发具有原生 App 体验的服务。 整个小程序框架系统分

    2024年01月18日
    浏览(50)
  • 常见通信名词的解释

    在通信接口的介绍中,难免见到全双工/半双工/单工、同步/异步等这些名词。今天就专门来介绍一下这些名词。 数据通信中,数据在线路上的传送方式可以分为单工通信、半双工通信和全双工通信三种。 单工通信:是指消息只能单方向传输的工作方式。例如遥控、遥测(某

    2024年02月06日
    浏览(52)
  • 计算机视觉——期末复习(填空、名词解释)

    图像文件: 指包含图像数据的文件,文件内除图像数据本身以外,还有对图像的描述信息等 距离变换: 特殊的变换,把二值图像变换为灰度图像 距离图: 如果考虑目标区域中的每个点与最接近的区域外的点之间的距离, 并用与距离成正比的灰度表示该点的灰度,那么这样

    2024年02月11日
    浏览(47)
  • EDA、PLD、FPGA等名词解释

    加*为常考: *EDA:(electronic design automation)电子设计自动化 *HDL:(hard description language)硬件描述语言 ASIC:(application specific intergrated circuit)专用集成电路 *FPGA:(field programmable gate array)现场可编程逻辑门阵列 *PLD:(programmable logic device)可,编程逻辑器件  *CPLD:(complex pr

    2024年02月06日
    浏览(62)
  • 电气电工相关专业知识及名词解释

    一、电流电压 火线、零线、地线 :火线和零线的区别就是:火线带电,零线不带电。火线是传电流的,而零线是回流的。 红色是火线,零线一般是绿色的,通常可用电笔来测。电笔一头亮了是火线,不亮的则是零线。也可用电压表来测,火线之间的电压是220V,而零线是没有

    2024年02月02日
    浏览(45)
  • 50个渗透(黑客)常用名词及解释

    目录 前言 一.渗透测试 二.网络安全 三.安全攻击 四.黑客工具 五.渗透方法 六.网络钓鱼 七.攻击技术 八.其他名词 总结 🌈嗨!我是Filotimo__🌈。很高兴与大家相识,希望我的博客能对你有所帮助。 💡本文由Filotimo__✍️原创,首发于CSDN📚。 📣如需转载,请事先与我联系以

    2024年02月06日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包