中位数绝对偏差(MAD)法处理离群值

这篇具有很好参考价值的文章主要介绍了中位数绝对偏差(MAD)法处理离群值。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:非妃是公主
专栏:《数学建模》
个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩
中位数绝对偏差(MAD)法处理离群值

中位数绝对偏差(MAD)是由Hampel(1974)发现并推广的,中位数(M)和平均数(mean)一样,是中心趋势的衡量标准,但它的优点是对异常值的存在非常不敏感。异常检测模型的击穿点是可以被污染(即设置为无穷大)而不迫使模型出现错误(在规模估计器的情况下为无穷大或空)的最大观察比例。例如,当单个观测值具有无限值时,所有观测值的平均值就变成了无限值;因此,平均值的击穿点是0。只有当超过50%的观察值是无限的时候,中位数才会出错。在分解点为0.5的情况下,中位数是具有最高击穿点的离群点估计模型。MAD作为一个异常检测的模型(定义见下面的公式),利用了中位数的这一特性。初此之外,MAD完全不受样本大小的影响。
M A D = b M i × x i − M j × x j MAD=bM_i\times x_i-M_j\times x_j MAD=bMi×xiMj×xj
其中, x j x_j xj是n个原始值的观测值, M i M_i Mi ∣ x i − M j ( x j ) ∣ \left|x_i-M_j\left(x_j\right)\right| xiMj(xj)的中位数, M j M_j Mj x j x_j xj的中位数,即一个单一维度数据集合。通常情况下, b = 1.4826 b=1.4826 b=1.4826,这是一个与数据的正态性假设有关的常数。假设数据整体具有正态性,不考虑离群值所引起的异常。
一般情况下,在中位数上下3倍MAD值范围内波动被认为是正常数据,超过3倍MAD值被认为是离群值,判断公式如下:
M − 3 × M A D < x i < M + 3 × M A D M-3\times MAD < x_i<M+3×MAD M3×MAD<xi<M+3×MAD

or

∣ x i − M M A D ∣ < 3 \vert \frac{x_i-M}{MAD}\vert<3 MADxiM<3

其中, M M M为样本中位数, x i x_i xi为样本值。不满足上述两式的被判断为离群点,满足等式的判定为正常点。文章来源地址https://www.toymoban.com/news/detail-476164.html

clear
clc
close all
%离群值的删除
t = 1:1:4096;
A = load("3A附件/9.txt");% A读入的为一个一维数组

figure(3)
B3 = filloutliers(A,'linear','movmedian',51);%MAD法

hold on
plot(t,A)
% YL = ylim;
% ylim(YL)
xlim([0,4100])
plot(t,B3)
% ylim(YL)
hold off
legend('原数据','去除离散值后','Location','southeast')
title('中位数绝对偏差去除离散值(MAD)效果图')

到了这里,关于中位数绝对偏差(MAD)法处理离群值的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 4. 寻找两个正序数组的中位数

    给定两个大小分别为  m  和  n  的正序(从小到大)数组  nums1  和  nums2 。请你找出并返回这两个正序数组的  中位数  。 算法的时间复杂度应该为  O(log (m+n))  。 示例 1: 示例 2: 提示: nums1.length == m nums2.length == n 0 = m = 1000 0 = n = 1000 1 = m + n = 2000 -106 = nums1[i], nums2[i]

    2024年01月18日
    浏览(29)
  • MATLAB知识点:median :计算中位数

    ​讲解视频:可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇(数学建模清风主讲,适合零基础同学观看)_哔哩哔哩_bilibili 节选自第3章 3.4.1节 中位数又称中值,我们将数据按从小到大的顺序排列,在排列后的数据中居于中间位置的

    2024年04月11日
    浏览(32)
  • 【动态规划】【中位数】【C++算法】1478. 安排邮筒

    【深度优先搜索】【树】【图论】2973. 树中每个节点放置的金币数目 动态规划汇总 给你一个房屋数组houses 和一个整数 k ,其中 houses[i] 是第 i 栋房子在一条街上的位置,现需要在这条街上安排 k 个邮筒。 请你返回每栋房子与离它最近的邮筒之间的距离的 最小 总和。 答案保

    2024年02月21日
    浏览(29)
  • 4---寻找两个正序数组的中位数

    给定两个大小分别为 m m m 和 n n n 的正序(从小到大)数组 n u m s 1 nums1 n u m s 1 和 n u m s 2 nums2 n u m s 2 。请你找出并返回这两个正序数组的 中位数 。 算法的时间复杂度应该为 O ( l o g ( m + n ) ) O(log (m+n)) O ( l o g ( m + n )) 。 示例 1: 输入 :nums1 = [1,3], nums2 = [2] 输出 :2.00000 解释

    2024年02月03日
    浏览(44)
  • 算法进阶——数据流中的中位数

    题目 如何得到一个数据流中的中位数?如果从数据流中读出奇数个数值,那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值,那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流,使用GetMedian()方法获取当

    2024年01月24日
    浏览(36)
  • 【LeetCode: 295. 数据流的中位数 + 堆】

    🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,CSDN-Java领域优质创作者🏆,保研|国家奖学金|高中学习JAVA|大学完善JAVA开发技术栈|面试刷题|面经八股文

    2024年02月19日
    浏览(29)
  • python计算平均数、中位数及标准差

    哈喽,大家好呀,下面是我整理的python计算平均数、中位数和标准差的方法,咱们一起学习,共同进步! 1.计算平均数 方法① lst=[1,2,3,4,5]                 #首先定义一个列表  avg= sum (lst)/ len (lst)     #使用sum( )函数和len( )函数计算平均值 print(\\\'平均值为:\\\',avg) 方法② impo

    2024年02月17日
    浏览(29)
  • 「ML 实践篇」回归系统:房价中位数预测

    目的 :使用加州人口普查的数据建立加州的房价模型,从而根据所有其他指标,预测任意区域的房价中位数; 机器学习项目清单 框出问题并看整体; 获取数据; 研究数据以获得深刻见解; 准备数据以便将潜在的数据模式提供给机器学习算法; 探索不同模型,并列出最佳模

    2023年04月08日
    浏览(28)
  • 剑指offer41.数据流中的中位数

     我一开始的想法是既然要找中位数,那肯定要排序,而且这个数据结构肯定要能动态的添加数据的,肯定不能用数组,于是我想到了用优先队列,它自己会排序都不用我写,所以addNum方法直接调用就可以,但是找中位数就很麻烦,它不能根据下标访问,于是我写了一个很屎

    2024年02月15日
    浏览(34)
  • 【map】【滑动窗口】【优先队列】LeetCode480滑动窗口中位数

    动态规划 多源路径 字典树 LeetCode2977:转换字符串的最小成本 C++算法:滑动窗口总结 map 优先队列 中位数是有序序列最中间的那个数。如果序列的长度是偶数,则没有最中间的数;此时中位数是最中间的两个数的平均数。 例如: [2,3,4],中位数是 3 [2,3],中位数是 (2 + 3) / 2 =

    2024年02月03日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包