基于间隔密度的概念漂移检测算法mdm-DDM

这篇具有很好参考价值的文章主要介绍了基于间隔密度的概念漂移检测算法mdm-DDM。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

概念漂移

​ 概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的,其数据分布不会随着时间发生变化。然而对于真实的数据流来说,由于数据流天生的时间性,到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析,模型更是需要有检测和适应数据分布变化的能力。例如,在服装店销售预测的例子中,如果季节性因素导致服装销售额在夏季月份较高,那么在冬季该预测模型可能就不管用了

​ 如果要对概念漂移下定义的话,它的定义是:概念漂移是一种现象,即目标领域的统计属性随着时间的推移以一种任意的方式变化。

​ 如果用一句话来描述概念漂移的话,它就是:数据分布不均匀,使得过去训练的表现不能保证将来的结果

基于间隔密度的概念漂移检测算法mdm-DDM

背景

​ 参考论文:https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C475KOm_zrgu4lQARvep2SAkaWjBDt8_rTOnKA7PWSN5MEdRZ4_Punz3wA-1d-2-our_XnGz-hr7Ar5EH4I5MWNB&uniplatform=NZKPT

​ mdm-DDM解决了基于错误率的漂移检测算法必须及时获取标记数据标签的问题。mdm-DDM利用间隔密度作为检测漂移的度量,然后结合McDiarmid 不等式来进行显著性检验,以此判断是否产生概念漂移。

​ 本文只考虑了没有明确决策边界的mdm-DDM,在有标签情况下,用集成分类器来进行预测。

定义

  • 间隔区域
    • 预测空间中最容易分类错误的部分
  • 间隔密度
    • 分类器不确定区域中的样本密度,即具有不确定性的数据样本占总体样本的密度

间隔密度计算

  1. 对于每一个样本x来说:
\[margin = P_E(y = trueclass|x) - P_E(y \neq trueclass|x) \]

​ 其中E指的是集成分类器。被减数指的是样本经过分类器预测后,集成分类器预测标签为样本标签的概率。减数的是样本经过分类器预测后,集成分类器预测标签不为样本标签的概率。

  1. 间隔密度的计算方式:
\[S_{(w,b)} = \begin{cases} 1,if\ margin \leq \theta_{margin\ of\ uncertainty}\\ 0, 其他\end{cases} \]
\[MD_{svm} = \frac{\sum{S_{(w,b)}(x)}}{|X|},\forall x\in X \]

​ 其中𝜃是定义阈值,表示间隔区域,默认值为0.15,X 表示样本集,x 是样本集中的样本点,𝑚𝑎𝑟𝑔𝑖𝑛表示样本点距离决策面的距离。当样本点落入间隔区域,该样本点被Sign函数标为1,否则为0。MD表示间隔密度。

基于 McDiarmid 不等式的阈值设计

​ 当集成分类器的间隔密度开始以一种不寻常的方式增加的时候,概念漂移的可能性将会增加。因此随着数据流中的数据一个接一个的被处理,算法将不断更新,两个滑动窗口之间的加权平均值的显著差异意味着概念漂移的产生

基于间隔密度的概念漂移检测算法mdm-DDM

​ 其中置信度δ的默认值为0.000001。

​ ε的计算公式如下:

\[\varepsilon_w = \sqrt{\frac{\sum_{i=1}^{n}{v^2_i}}{2}ln\frac{1}{\delta_w}} \]

​ v的计算公式如下:

\[v_i = \frac{w_i}{\sum_{i=1}^{n}{w_i}} \]

​ w𝑖表示滑动窗口中数据流实例中第i个数据的权重。由于数据流具有时效性这个特点,算法定义最近到来的数据应具有较高的权重,w𝑖 < w𝑖+1,其中w𝑖表示第 i 个实例的权重。权重的计算方法如下:

\[w_i = 1 + (i-1)*d \]

​ 权重随时间增加的d默认值为0.01。

漂移算法整体流程

基于间隔密度的概念漂移检测算法mdm-DDM文章来源地址https://www.toymoban.com/news/detail-709970.html

到了这里,关于基于间隔密度的概念漂移检测算法mdm-DDM的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 以太网交换安全(二)----MAC地址表安全&MAC地址漂移防止与检测

    目录 一、MAC地址表安全 MAC地址表项类型包括: MAC地址表安全功能:​ 实验部分: 黑洞MAC地址表: 更改动态MAC地址老化时间:​ 交换机MAC学习功能切换: 静态MAC地址: 限制接口的MAC地址学习数量: 二、MAC地址漂移 什么是MAC地址漂移? 解决方法:(实验部分:) 1、优先级部

    2024年02月04日
    浏览(45)
  • 深入了解目标检测技术--从基本概念到算法入门

    前言: Hello大家好,我是Dream。 众所周知,目标检测是计算机视觉领域中的重要任务之一,其目的是 识别图像或视频中包含的物体实例并将其定位 。实现目标检测可以帮助人们在 自动驾驶、机器人导航、安防监控 等领域中更好地理解和应用图像信息。接下来Dream将带大家一

    2024年02月03日
    浏览(36)
  • 【详解算法流程+程序】DBSCAN基于密度的聚类算法+源码-用K-means和DBSCAN算法对银行数据进行聚类并完成用户画像数据分析课设源码资料包

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。 与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇, 并可在噪声的空间数据库中发现任意形状的聚类。         选

    2024年04月11日
    浏览(45)
  • YOLOv5目标检测学习(1):yolo系列算法的基础概念

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 关于深度学习目标检测,有许多概念性的东西需要先了解一下。这里主要以基于深度学习的目标检测算法的部署实现来学习。 以yolov5为例: 使用YOLOv5进行车辆和行人的目标检测通常涉及以下步骤: 数据

    2024年04月09日
    浏览(60)
  • 什么是SVM算法?硬间隔和软间隔的分类问题

    SVM全称是supported vector machine(支持向量机),即寻找到一个超平面使样本分成两类,并且间隔最大。 SVM能够执行线性或⾮线性分类、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。 上左图显示了三种可能的线性分

    2024年02月15日
    浏览(36)
  • 密度峰值聚类(DPC)算法的介绍

    密度峰值聚类算法(Density Peak Clustering Algorithm)是一种无监督的聚类算法,它能够自动发现数据中的密度峰值点,并根据这些峰值点将数据进行聚类。该算法由Alex Rodriguez和Alessandro Laio于2014年提出,其原理相对简单但非常有效。 局部密度():局部密度指的是一个数据点周围

    2024年02月05日
    浏览(41)
  • 密度聚类算法(DBSCAN)实验案例

    DBSCAN是一种强大的基于密度的聚类算法,从直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。DBSCAN的一个巨大优势是可以对任意形状的数据集进行聚类。 本任务的主要内容: 1、 环形数据集聚类 2、 新月形数据集聚类 3、

    2024年02月08日
    浏览(46)
  • 目标检测第三篇:基于SSD的目标检测算法

    SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法,截至目前是主要的检测框架之一,相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势,是在 RCNN 系列和 YOLO 系列之外属于单阶段的另外一系列的奠基之作。 论文链接:https://arxiv.org/pdf/1

    2024年02月07日
    浏览(137)
  • 人工智能|机器学习——DBSCAN聚类算法(密度聚类)

    DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,簇集的划定完全由样本的聚集程度决定。聚集程度不足以构成簇落的那些样本视为噪声点,因此DBSCAN聚类的方式也可以用于异常点的检测。 算法的关键在于样本的‘聚集程度’,这个程度的刻画

    2024年04月10日
    浏览(83)
  • 【漂移-扩散通量重建 FV 方案】用于半导体和气体放电模拟的电子传输的更准确的 Sharfetter-Gummel 算法(Matlab代码实现)

     💥💥💞💞 欢迎来到本博客 ❤️❤️💥💥 🏆博主优势: 🌞🌞🌞 博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️ 座右铭: 行百里者,半于九十。 📋📋📋 本文目录如下: 🎁🎁🎁 目录 💥1 概述 📚2 运行结果 🎉3 参考文献 🌈4 Matlab代码及文献 文献

    2024年02月15日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包