光谱异常样本检测分析

这篇具有很好参考价值的文章主要介绍了光谱异常样本检测分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

光谱异常样本检测分析

       以近红外光谱为例,大部分光谱数据在不考虑分类问题时,在构建模型前需要对采集数据进行样本分析,以降低因生产过程异常、人为误操作和其他原因对软测量模型的影响,即异常样本检测分析。

       按照定义,异常样本检测任务指的是检测偏离期望行为的事件或者模式,可以是简单地检测数值型数据中是否存在远超于正常范围的离群值,也可以是借助相对复杂的机器学习算法识别数据中隐藏的异常模式。

        1定义及类别

        异常样本分为:

       (1) 离群值(Outlier):偏离正常范围的数据,可能是由传感器故障、人为录入错误或者异常事件导致,在构建机器学习或者统计模型前,可能会导致模型出现偏差。

       (2) 奇异值(Novelty):数据集未受到异常值污染,但是存在某些区别于原始数据分布的观测数据。

       从统计分析角度看,离群值指的是破坏正常数据分布的数据,而奇异数据则是丰富正常数据分布的数据;从模型性能角度看,离群值是降低模型性能的样本,而奇异值则是可能提高模型性能的样本。

         2分析思路

        异常样本检测分析思路:

        (1) 了解你的数据;

        首先,你需要充分了解你的数据及数据所属对象的专业背景,不同类型数据对于异常样本的理解是存在差异的,通常包括以下思路:

        (a) 原始数据中的异常是否显而易见的?

        对于复杂生产过程或不稳定测量环境下获得的样品光谱,其异常样本是比较明显的,如下图所示,存在明显的异常光谱,其主要原因是在线光纤探头堵塞造成的谱线异常。值得注意的是,很多异常样本是无法通过人眼观测的,甚至需要很多工程经验才能做到初步辨识,这也是很多模型泛化性无法进一步提升的因素之一,此类情况下,只能借助其他工具辨识异常样本。

光谱异常样本检测分析

        (b) 从原始数据中是否可以提取出能够有效区分异常的特征?

        针对(a)之外的异常问题,我们能否聚焦于正常和异常样本的可区分特征,这里的特征可以是原始的或者变换后的,例如降维后的、高维扩增后的或者从时域变换为频域的。例如针对图1很难通过人工筛选全部异常样本的情况下,通过PCA降维后可以较为明显的区分正常和异常样本。

光谱异常样本检测分析

        (c) 从统计分析的角度去区分正常和异常样本

        此方法主要基于实测数据的统计分布特性,对于一个稳定或者自然过程,其采集数据通常服从某种分布,多采用正态分布去表征不确定具体分布的过程数据。基于实测数据的统计分析,我们有理由相信正常样本是在变动区间的界限内分布,并且在特定范围存在的概率小于某一近似值。以正态分布为例,数据分布在正负3个标准差范围内的概率为99.73%,因此,可将超出此范围的数据认定为异常样本。

光谱异常样本检测分析

        (d) 对于无法确定是否存在异常样本的数据,我们应该如何处理?

        对于全天候设备,或者连续生产设备,故障导致的停机意味着产能降低甚至造成重大安全问题。此类问题的显著特征是异常数据稀缺,且能够采集到的数据全部或者大部分为正常数据,此类情况下异常样本检测认为被处理为无监督学习问题,可通过数据的隐藏特性筛选异常样本。一个典型的例子是利用过程的时序性,建立LSTM模型,监测输出值的变化趋势实现异常样本的预警分析。

        (2) 选择合适的方法;

        根据所测变量维度的不同,通常分为一维和高维异常样本分析,可以理解为多个样本的单个指标就是一维,多个样本的多维光谱就是高维,两者的异常样本选择方法是存在明显差异的。

      3分析方法

        01一维数据分析方法

        (a) 是否超出历史数据的最大/最小值;

        此方法是最大容错限度,通常情况下不会以历史数据的极值作为批判标准,更多的是结合统计过程控制(statistical process control, SPC)建立合适的批判上下限进行样本分析。

        (b) 3-sigma原则;

        如果数据符合正态分布,可将3sigma作为误差极限,将落在[u-3sigma, u+3sigma]外的样本作为离群值;以某数据为例,其分布统计图如下所示,可根据数据分布选择性地确定离群阈值线并确定对应样本。

光谱异常样本检测分析

        (c) 利用箱线图/四分位图检验

        箱线图或者箱型图可以反映数据的整体分布情况,因此可以用于判断数据是否存在异常值,如下图所示,可以较为明显地判断是否有异常及异常值的判断上下界。此外,结合其他指标可以确定对应异常值的索引,并最终确定异常样本。

        02高维数据分析方法

        对于多变量数据集,特征之间可能存在复杂和高度非线性的相关性,上述方法不再适用于异常样本分析,通常采用以下检测方法:

        (a) 高维数据可视化分析

        可视化分析包括统计分布可视化、聚类分布可视化和降维可视化等,此外包括升维可视化,主要目的是将低维不可分问题转换为高维线性可分问题。以某数据为例,其利用tSNE降维后的数据可区分性得以提升。

光谱异常样本检测分析

        (b) 有监督异常检测

        可以根据采集有标签样本数据建立分类模型实现异常样本检测,例如朴素贝叶斯分类模型,CNN模型等,此处不再详细介绍。

        (c) 无监督异常检测

        对于没有标签信息的多变量样本数据,可以通过数据自身的特性出发进行无监督异常分析,例如基于距离类的、基于统计类的、基于因子分析类的等等。此处介绍几种基于距离类的方法。

        1) 马氏距离(Mahalanobis Distance),该方法是一种衡量样本和数据集分布间相似度的尺度无关的度量指标。具体为如果数据符合多变量正态分布,那么可以使用样本到数据集分布中心的马氏距离检测异常。此处需要简单解释一下为什么不建议采用欧式距离,如下图所示,图中蓝色点和黄色点离样本均值的欧式距离相近,但是由于样本整体分布沿 f(x)=x 的方向分布(变量之间具有相关性),蓝色点更有可能是数据集中的点,对应的马氏距离更小,而黄色点更有可能是离群值,对应马氏距离也更大。因此,设定一个合理的阈值,可以划分异常样本和正常样本。

光谱异常样本检测分析

        对于上述的某数据集,基于马氏距离的方法可较好的实现异常样本筛选。

光谱异常样本检测分析

        值得一提的是,马氏距离筛选异常样本适用于数据符合或接近正态分布的情况,但在通常情况下,实际数据的分布规律难以预估。

        2) 局部离群因子法:通过计算样本及其周围k个近邻点的局部可达密度并量化每个样本的离群程度确定离群样本,该方法不受数据分布的影响,同时考虑了数据集的局部和全局属性,比较适用于中等高维的数据集,针对示例数据集的预测准确度比较理想。但对近邻参数较为敏感,由于需要计算数据集中任意两个数据点的距离,算法的时间复杂度较高,在大规模数据集上效率偏低,适合小规模到中等规模的数值型数据。

        3) 孤立森林:利用决策树模型对样本进行划分,并根据路径长度确定异常样本。

光谱异常样本检测分析

        对于上述某数据,我们可得到如下样本得分统计分布并确定阈值线,根据阈值可确定最终的异常样本。

光谱异常样本检测分析

        4总结回顾

        1. 在处理数据前,首先要结合专业背景充分了解你的数据;

        2. 熟悉不同异常样本检测方法的适用范围或特定条件,根据实际情况选择合适的方法。

        3. 转换思考角度,从不同方面去看异常样本的特性;

        4. 尊重实际过程问题,数据来源于实际,脱离实际问题,很多方法无法发挥作用。

如果您有感兴趣的话题、其他观点或者问题,欢迎留言或者发送邮件文章来源地址https://www.toymoban.com/news/detail-401545.html

到了这里,关于光谱异常样本检测分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模

    022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。2023年

    2024年01月25日
    浏览(56)
  • ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模进阶应用

    2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

    2024年02月02日
    浏览(47)
  • 基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程

    详情点击链接:基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程 第一:GPT4 1、ChatGPT(GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变) 2、ChatGPT对话初体验 3、GPT-4与GPT-3.5的区别,以及与国内大语言模型(文心一言、星火等)的区别 4、ChatGPT科研必备插件(Da

    2024年01月23日
    浏览(49)
  • 一文了解ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模应用

    2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

    2024年01月20日
    浏览(44)
  • 如何将ChatGPT4与Python近红外光谱数据分析及机器学习与深度学习建模完美融合

    2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5,将人工智能的发展推向了一个新的高度。2023年4月,更强版本的ChatGPT4.0上线,文本、语音、图像等多模态交互方式使其在各行各业的应用呈现了更多的可能性。202

    2024年01月16日
    浏览(69)
  • 基于vasp计算材料红外与Raman光谱信息

    使用方法一:获取材料raman活性信息 代码链接:VASP/Sibulk-VASP at master · raman-sc/VASP · GitHub 前置计算材料的振动频率和介电常数等,参考INCAR如下: SYSTEM = Si_bulk ISTART = 0 # From-scratch; job : 0-new 1-cont 2-samecut NWRITE = 3 Verbosity ! electronic relaxation ENCUT = 300.0 # cut-off energy PREC = Accurate # p

    2024年02月08日
    浏览(50)
  • 应急响应-勒索病毒检测指南&Win&Linux样本演示&家族识别&分析解密

    勒索病毒是一种新型电脑病毒,主要以RDP爆破、邮件、程序木马、网页挂马的形式进行传播。该病毒性质恶劣、危害极大,一旦感染将给用户带来无法估量的损失。这种病毒利用各种加密算法对文件进行加密,被感染者一般无法解密,必须拿到解密的私钥才有可能破解。201

    2024年04月14日
    浏览(57)
  • 机器学习-决策树-异常检测-主成分分析

    一种对实例进行分类的树形结构,通过多层判断区分目标所属类别 本质:通过多层判断,从训练数据集中归纳出一组分类规则 优点: 计算量小,运算速度快 易于理解,可清晰查看个属性的重要性 缺点: 忽略属性间的相关性 样本类别分布不均匀时,容易影响模型表现 决策

    2024年01月21日
    浏览(37)
  • 基于机器学习的异常检测与分析技术

    传统的运维方式在监控、问题发现、告警以及故障处理等各个环节均存在明显不足,需要大量依赖人的经验,在数据采集、异常诊断分析、故障处理的效率等方面有待提高。 本关键技术面对传统运维故障处理效率低、问题定位不准确、人力成本高三大痛点,将人工智能与运维

    2024年02月16日
    浏览(35)
  • 【数据挖掘】葡萄酒质量分析及异常值检测

    葡萄酒在人类历史中扮演着非常重要的角色,它能舒缓疲劳、减轻病痛、消毒杀菌、美容养颜等等直到19世纪晚期,葡萄酒都是西方医学中不可缺少的用品,适量饮用对人的身体会有益处。无论是用于交际会谈,还是滋身养颜,优良的葡萄酒因其独特的风味与绝佳的品质往往

    2024年02月04日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包