常见的20种数据值异常检验方法

这篇具有很好参考价值的文章主要介绍了常见的20种数据值异常检验方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


        数据值异常是指在数据集中存在一些与其他数据值相比较不符的值。这些异常值有可能是由于数据录入错误、测量偏差或者其他未知原因导致的。数据值异常对数据分析和建模的结果产生了不利的影响,因此需要进行检验和处理。

检验方法的分类

常见的数据值异常检验方法可以按照不同的分类标准进行归类,以下是其中几种分类方法:

  • 基于统计学方法和机器学习方法的分类:

基于统计学方法的检验方法:Z-Score检验、Grubbs检验、Dixon检验、箱线图检验等。

基于机器学习方法的检验方法:Isolation Forest、One-Class SVM、LOF、ABOD、HBOS、COF、CBLOF等。

  • 基于数据分布的分类:

基于正态分布的检验方法:Z-Score检验、Grubbs检验、Dixon检验等。

基于非正态分布的检验方法:箱线图检验、Isolation Forest、One-Class SVM、LOF、ABOD、HBOS、COF、CBLOF等。

  • 基于距离和密度的分类:

基于距离的检验方法:Grubbs检验、Dixon检验、Isolation Forest等。

基于密度的检验方法:LOF、ABOD、HBOS、COF、CBLOF等。

这些方法之间存在一定的重叠和交叉,很多方法都同时具有多种分类特征。因此,在具体应用时需要综合考虑多个方面的因素来选择适合的异常检验方法。

20种数据值异常的检验方法

1. 箱线图检验

箱线图是一种可视化数据分布的方法。箱线图可以显示数据集的最小值、最大值、中位数、第一四分位数和第三四分位数。在箱线图中,任何超出1.5倍四分位距(IQR)之外的数据点都被认为是异常值。

2. Grubbs检验

Grubbs检验是一种统计方法,用于检测数据集中是否存在异常值。该方法假设数据集是正态分布的,并基于此计算出一个统计值。如果一个数据点的统计值显著大于其他数据点,则该数据点被认为是异常值。

3. Z-score检验
Z-score检验是一种基于标准差的方法,用于检测数据集中是否存在异常值。该方法首先计算出数据集的平均值和标准差,然后计算出每个数据点的Z-score。如果一个数据点的Z-score超过3,则该数据点被认为是异常值。

4. Tukey检验
Tukey检验是一种基于中位数和四分位距的方法,用于检测数据集中是否存在异常值。该方法计算出一个统计值,如果一个数据点的统计值超过了特定的阈值,则该数据点被认为是异常值。

5. Cook's距离检验
Cook's距离检验是一种用于检测数据集中是否存在异常值的方法,特别适用于多元线性回归模型。该方法计算出每个数据点对回归系数的影响程度,如果一个数据点对回归系数的影响程度显著大于其他数据点,则该数据点被认为是异常值。

6. Mahalanobis距离检验
Mahalanobis距离检验是一种用于检测多元数据集中是否存在异常值的方法。该方法基于样本的均值和协方差矩阵,计算出每个数据点与样本均值的距离。如果一个数据点的距离显著大于其他数据点,则该数据点被认为是异常值。

7. Hampel检验
Hampel检验是一种基于中位数和绝对离差的方法,用于检测数据集中是否存在异常值。该方法首先计算出数据集的中位数和绝对离差,然后计算出每个数据点与中位数的绝对差值,如果一个数据点的绝对差值超过了特定的阈值,则该数据点被认为是异常值。

8. LOF(局部离群因子)检验
LOF检验是一种基于密度的方法,用于检测数据集中是否存在离群点。该方法根据每个数据点周围的密度,计算出该数据点的局部离群因子。如果一个数据点的局部离群因子显著大于其他数据点,则该数据点被认为是离群点。

9. Isolation Forest(孤立森林)检验
Isolation Forest检验是一种基于随机森林的方法,用于检测数据集中是否存在离群点。该方法将数据集分成多个子空间,然后通过随机选择特征和阈值的方式,将子空间中的离群点逐渐分离出来。如果一个数据点在随机分离中被分离出来的次数显著高于其他数据点,则该数据点被认为是离群点。

10. HBOS(基于直方图的离群点检测)检验
HBOS检验是一种基于直方图的方法,用于检测数据集中是否存在离群点。该方法首先将数据集分成多个区间,并统计每个区间中的数据点数。然后计算每个数据点所在区间的频率,并将其作为该数据点的得分。如果一个数据点的得分显著低于其他数据点,则该数据点被认为是离群点。


11. One-class SVM(支持向量机)检验
One-class SVM检验是一种基于支持向量机的方法,用于检测数据集中是否存在离群点。该方法利用支持向量机对数据集进行建模,然后将数据集中的每个数据点作为测试数据进行预测。如果一个数据点的预测值显著低于其他数据点,则该数据点被认为是离群点。

12. Local Correlation Integral(局部相关积分)检验
Local Correlation Integral检验是一种基于局部相关性的方法,用于检测数据集中是否存在离群点。该方法首先计算出数据集中每个数据点与其他数据点之间的相关性,然后计算出每个数据点周围的局部相关性积分值。如果一个数据点的局部相关性积分值显著低于其他数据点,则该数据点被认为是离群点。

13. Ridge Regression(岭回归)检验
Ridge Regression检验是一种基于回归模型的方法,用于检测数据集中是否存在异常值。该方法使用岭回归模型对数据集进行建模,并根据模型的预测误差来检测异常值。如果一个数据点的预测误差显著高于其他数据点,则该数据点被认为是异常值。

14. Robust PCA(鲁棒主成分分析)检验
Robust PCA检验是一种基于主成分分析的方法,用于检测数据集中是否存在异常值。该方法使用鲁棒主成分分析模型对数据集进行建模,并利用模型的残差来检测异常值。如果一个数据点的残差显著大于其他数据点,则该数据点被认为是异常值。

15. MCD(Minimum Covariance Determinant)检验
MCD检验是一种基于鲁棒协方差矩阵的方法,用于检测数据集中是否存在异常值。该方法利用鲁棒协方差矩阵对数据集进行建模,并利用模型的马氏距离来检测异常值。如果一个数据点的马氏距离显著大于其他数据点,则该数据点被认为是异常值。


16. LOF(局部离群因子)检验
LOF检验是一种基于局部密度的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点的局部密度,然后计算每个数据点相对于其邻居的局部离群因子。如果一个数据点的局部离群因子显著高于其他数据点,则该数据点被认为是离群点。

17. ABOD(Angle-based Outlier Detection)检验
ABOD检验是一种基于角度的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点相对于其他数据点的角度,然后计算每个数据点的平均角度偏差。如果一个数据点的平均角度偏差显著大于其他数据点,则该数据点被认为是离群点。

18. HBOS(Histogram-based Outlier Score)检验
HBOS检验是一种基于直方图的方法,用于检测数据集中是否存在离群点。该方法首先将数据集划分成若干个区间,然后计算每个数据点在各个区间的分布情况。最后,根据数据点的分布情况计算出其离群得分。如果一个数据点的离群得分显著高于其他数据点,则该数据点被认为是离群点。

19. COF(Connectivity-based Outlier Factor)检验
COF检验是一种基于连通性的方法,用于检测数据集中是否存在离群点。该方法首先计算每个数据点的可达距离和可达点数,然后计算每个数据点的COF得分。如果一个数据点的COF得分显著高于其他数据点,则该数据点被认为是离群点。

20. CBLOF(Clustering-based Local Outlier Factor)检验
CBLOF检验是一种基于聚类的方法,用于检测数据集中是否存在离群点。该方法首先将数据集进行聚类,然后计算每个数据点相对于其所在簇的局部离群因子。如果一个数据点的局部离群因子显著高于其他数据点,则该数据点被认为是离群点。文章来源地址https://www.toymoban.com/news/detail-432467.html

到了这里,关于常见的20种数据值异常检验方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 干货整理,Selenium 自动化测试常见异常问题 +解决方法(详细)

    异常1:Stale Element Reference Exception 直译异常 Stale Element Reference Exception:陈旧元素引用异常 首先,啥情况下会出现这异常 简单来说就是,页面元素过期了,无法引用元素 出现这异常的常见原因 The element has been deleted entirely:该元素已被删除【更常见】 The element is no longer attac

    2024年02月08日
    浏览(50)
  • 前端开发中常见的20个数组方法,你掌握了几个?

    数组是每种语言都必须打交道的,重要程度不言而喻! 数组在前端开发中的主要使用场景有: 存储和处理数据 :数组是一种有序的数据结构,可以用来存储和处理多个相关的数据。在前端开发中,我们经常使用数组来存储和处理列表、表格、选项等数据。 循环和遍历 :数

    2024年02月15日
    浏览(52)
  • 20 - 常见内置数据类型

    在Python中,常用的类型是这些: Python 中查看数据类型的函数(function)为 type() 。 Python 中常看内置方法(build-in method)的函数为 dir() 。 一个对象是否可变(mutable) 一些对象的 值在对象被创建后是不能再更改的 ,这类对象被称为 不可变对象(immutable objects) ; 一些对象的 值在被创建

    2024年02月19日
    浏览(40)
  • 异常值检验(t分布查表)、方差分析

    异常值检验 T-test 参考:1.ttest和ttest2 区别 2. ttest在 matlab 3.T test分布表 单侧 方差分析(ANOVA) Def: 方差分析(analysis of variance, ANOVA)是一种 统计检验 ,用于检验两组或更多组样本的 均值是否相同 。 与T test区别: 方差分析能够在 不增加第一类错误发生率 的情况下测试几组

    2024年02月08日
    浏览(44)
  • openGauss学习笔记-198 openGauss 数据库运维-常见故障定位案例-分析查询效率异常降低的问题

    198.1 分析查询效率异常降低的问题 198.1.1 问题现象 通常在几十毫秒内完成的查询,有时会突然需要几秒的时间完成;而通常需要几秒完成的查询,有时需要半小时才能完成。 198.1.2 处理办法 通过下列的操作步骤,分析查询效率异常降低的原因。 使用analyze命令分析数据库。

    2024年01月16日
    浏览(65)
  • 【统计】假设检验方法 一、方差齐性检验

    1. 不同检验方法 最小样本量 的确认 由统计量反推得到 2. 检验方法 方差齐性检验(F检验): 两个独立样本的方差差异检验,反映了平均值的代表性。方差齐次检验前提要近似正态分布。 正态性检验: 是否符合正态分布 似然比检验: 比较样本不同似然函数,检验其分布 参

    2023年04月14日
    浏览(49)
  • 【统计】假设检验方法

    1. 不同检验方法 最小样本量 的确认 由统计量反推得到 2. 检验方法 方差齐性检验(F检验): 两个独立样本的方差差异检验,反映了平均值的代表性。方差齐次检验前提要近似正态分布。 正态性检验: 是否符合正态分布 似然比检验: 比较样本不同似然函数,检验其分布 参

    2024年02月05日
    浏览(49)
  • 非参数检验方法,核密度估计简介

    在20世纪,统计学还处于起步阶段计算机还不是那么流行的时候,假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代,正态分布可以使计算不那么繁琐。 但在这个大数据时代,随着计算能力的提高,数据的可用性使得统计学家采用了更现代的

    2024年02月07日
    浏览(43)
  • python 常见数据类型和方法

    回到顶部 回到顶部  

    2024年02月14日
    浏览(36)
  • Java_20_异常

    什么是异常? 异常是程序在\\\"编译\\\"或者\\\"执行\\\"的过程中可能出现的问题。 异常是应该尽量提前避免的。 异常可能也是无法做到绝对避免的,异常可能有太多情况了,开发中只能提前干预!! 异常一旦出现了,如果没有提前处理,程序就会退出JVM虚拟机而终止,开发中异常是

    2024年02月16日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包