NLP任务中常用的损失函数

这篇具有很好参考价值的文章主要介绍了NLP任务中常用的损失函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

适用于：文本分类，情感分析，机器翻译，抽取式问答的有：
$y,\hat{y}$ 分别表示真实和预测值

语言模型（LM）：

问答系统（生成式问答），生成式任务（如文本生成）
给定输入序列 $x=\{x_{i}\}_{i=1}^{M}$ ，文本生成模型生成一个目标序列文本 $y=\{y_{i}\}_{i=1}^{N}$

对数似然损失函数：
$L_{NLL}=-\sum_{t=1}^{N}logp_{\theta}(y_{t}\vert x,y_{<t})$
在训练过程中，预测下一个token是利用真实的先前序列 $y_{<t}\in y$ ，而在推理过程中，预测下一个token是利用模型预测的先前序列 $y_{<t}$

语义相似度：文章来源地址https://www.toymoban.com/news/detail-801158.html

余弦相似度：
$L(a,b)=1-\frac{a\cdot b}{\Vert a\Vert \cdot \Vert b\Vert }$
常见的向量空间模型下的相似度计算方法，将文本表示为向量，通过计算它们的余弦值来衡量相似度。
皮尔逊相关系数
$P(a,b)=\frac{cov(a,b)}{\sigma_{a}\cdot\sigma_{b}}$
衡量两个变量之间线性相关性的指标，在语义相似度任务中可以用于评估两个文本向量之间的线性关系。
Jaccard相似度
$J(a,b)=\frac{\vert a\cap b\vert}{\vert a\cup b\vert}$
用于衡量两个集合的相似度，对于文本来说，可以将文本中的词看作是集合中的元素。
欧几里得距离
$D(a,b)=\sqrt{\sum_{i=1}^{n}(a_{i}-b_{i})^{2 }}$
曼哈顿距离
$D(a,b)=\sum_{i=1}^{n}|a_{i}-b_{i}|$