NLP任务中常用的损失函数

这篇具有很好参考价值的文章主要介绍了NLP任务中常用的损失函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

适用于:文本分类,情感分析,机器翻译,抽取式问答的有:
y , y ^ y,\hat{y} y,y^分别表示真实和预测值

  • 二分类交叉熵损失
    L ( y , y ^ ) = − ( y l o g y ^ + ( 1 − y ) l o g ( 1 − y ^ ) L(y,\hat{y})=-(ylog\hat{y} + (1-y)log(1-\hat{y}) L(y,y^)=(ylogy^+(1y)log(1y^)
  • 多分类交叉熵损失函数
    L ( y , y ^ ) = − ∑ i = 1 m y i l o g y i ^ L(y,\hat{y})=-\sum_{i=1}^{m}y_{i}log\hat{y_{i}} L(y,y^)=i=1myilogyi^

语言模型(LM):

  • 困惑度(Perplexity):
    P e r p l e x i t y = 2 − 1 N ∑ i = 1 N l o g 2 P ( x i ) Perplexity=2^{-\frac{1}{N}\sum_{i=1}^{N}log_{2}P(x_{i})} Perplexity=2N1i=1Nlog2P(xi)

问答系统(生成式问答),生成式任务(如文本生成)
给定输入序列 x = { x i } i = 1 M x=\{x_{i}\}_{i=1}^{M} x={xi}i=1M,文本生成模型生成一个目标序列文本 y = { y i } i = 1 N y=\{y_{i}\}_{i=1}^{N} y={yi}i=1N

  • 对数似然损失函数:
    L N L L = − ∑ t = 1 N l o g p θ ( y t ∣ x , y < t ) L_{NLL}=-\sum_{t=1}^{N}logp_{\theta}(y_{t}\vert x,y_{<t}) LNLL=t=1Nlogpθ(ytx,y<t)
    在训练过程中,预测下一个token是利用真实的先前序列 y < t ∈ y y_{<t}\in y y<ty,而在推理过程中,预测下一个token是利用模型预测的先前序列 y < t y_{<t} y<t

语义相似度:文章来源地址https://www.toymoban.com/news/detail-801158.html

  • 余弦相似度:
    L ( a , b ) = 1 − a ⋅ b ∥ a ∥ ⋅ ∥ b ∥ L(a,b)=1-\frac{a\cdot b}{\Vert a\Vert \cdot \Vert b\Vert } L(a,b)=1abab
    常见的向量空间模型下的相似度计算方法,将文本表示为向量,通过计算它们的余弦值来衡量相似度。
  • 皮尔逊相关系数
    P ( a , b ) = c o v ( a , b ) σ a ⋅ σ b P(a,b)=\frac{cov(a,b)}{\sigma_{a}\cdot\sigma_{b}} P(a,b)=σaσbcov(a,b)
    衡量两个变量之间线性相关性的指标,在语义相似度任务中可以用于评估两个文本向量之间的线性关系。
  • Jaccard相似度
    J ( a , b ) = ∣ a ∩ b ∣ ∣ a ∪ b ∣ J(a,b)=\frac{\vert a\cap b\vert}{\vert a\cup b\vert} J(a,b)=abab
    用于衡量两个集合的相似度,对于文本来说,可以将文本中的词看作是集合中的元素。
  • 欧几里得距离
    D ( a , b ) = ∑ i = 1 n ( a i − b i ) 2 D(a,b)=\sqrt{\sum_{i=1}^{n}(a_{i}-b_{i})^{2 }} D(a,b)=i=1n(aibi)2
  • 曼哈顿距离
    D ( a , b ) = ∑ i = 1 n ∣ a i − b i ∣ D(a,b)=\sum_{i=1}^{n}|a_{i}-b_{i}| D(a,b)=i=1naibi

到了这里,关于NLP任务中常用的损失函数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 软件测试开发工程师常用的测试工具详解

    1. 操作系统: Linux: vmware: 用于虚拟化环境,创建和管理虚拟机。 xshell、xftp、ssh: 提供对Linux服务器的远程访问和文件传输。 2. 数据库: MySQL: SQLyog、Navicat: 前端连接工具,简化MySQL数据库的管理和操作。 Oracle: PLSQL Developer、Navicat: 前端连接工具,用于Oracle数据库的开发和

    2024年02月02日
    浏览(73)
  • 【网络工程师人手必备的常用网络命令合集,整理收藏!】

    在计算机网络中经常要对网络进行管理,测试,这时就要用到网络命令。今天就为大家整理了一些网络工程师必备的一些常用网络命令合集,建议收藏后观看哦! ping是个使用频率极高的实用程序,主要用于确定网络的连通性。这对确定网络是否正确连接,以及网络连接的状

    2024年02月05日
    浏览(47)
  • 算法工程师

    目录 算法工程师 基础语言:python,c,java 算法思想:贪心,动态

    2024年02月16日
    浏览(45)
  • 测试工程师常用的10个python库,面试必备哦

    目录 前言 1、os库 2、sys库 3、time库 4、selenium库 5、unittest库 6、pytest库 7、email库 8、appium库 9、pymsql库 10、requests库 总结: 今天给各位小伙伴带来的是测试工程师常用的10个python库,相信有些小伙伴肯定知道一些库,也使用过一些库。下面我们就来聊聊这常用的10个python库,我

    2024年02月08日
    浏览(49)
  • 硬件工程师需要掌握的PCB设计常用知识点

          一个优秀的硬件工程师设计的产品一定是既满足设计需求又满足生产工艺的,某个方面有瑕疵都不能算是一次完美的产品设计。规范产品的电路设计,工艺设计,PCB设计的相关工艺参数,使得生产出来的实物产品满足可生产性、可测试性、可维修性等的技术规范要求,

    2023年04月20日
    浏览(58)
  • 网络安全工程师常用的威胁情报分析平台有哪些?

    在进行渗透过程中,也可以借助一些商用或者非商业平台来进行信息搜索及验证,主要针对邮箱、IP、域名、文件md5、apk文件等进行搜索,整理和完善线索信息。文章对目前公开的威胁情报平台进行了搜集,在实际使用过程中建议交叉搜索,以获得更多的信息。这些平台都需

    2024年02月13日
    浏览(53)
  • 算法部署优化工程师面试题整理

    原文来自【知乎-高性能计算方向面试问题总结】 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:C/C++面试整理 🎀CSDN主页 发狂的小花 🌄人生秘诀:学习的本质就是极致重复! 目录 整体情况简介 高性能计算基础 AI 框架知识 算法题 一些比较零碎的问题 推荐参考资

    2024年03月19日
    浏览(56)
  • 算法工程师的基本职责概述(合集)

      算法工程师的基本职责概述     算法工程师的基本职责概述1     职责:     1、负责图像特征提取、运动物体跟踪算法的开发与实现。     2、负责进行各类机器学习、深度神经网络产品的研发。     3、负责设计研究相关算法,并优化算法性能。     4、负责撰

    2024年02月06日
    浏览(43)
  • 硬件系统工程师宝典(36)-----盘点常用的总线和常见的逻辑电平

    各位同学大家好,欢迎继续做客电子工程学习圈,今天我们继续来讲这本书,硬件系统工程师宝典。 上篇我们了解了SDRAM的存储技术以及SDRAM的发展历程,技术的进步推动着产品的升级,也加速了整个电子行业的发展。今天我们来讲一讲一些常用的总线及逻辑电平。 I2C总线是

    2024年02月13日
    浏览(39)
  • AIGC算法工程师 面试八股文

    目录 八股文 1、简述DDPM的算法原理 2、什么是重参数化技巧?Diffus

    2024年02月08日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包