人工智能中噪声数据的产生与处理方法详解

这篇具有很好参考价值的文章主要介绍了人工智能中噪声数据的产生与处理方法详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

噪声是影响机器学习算法有效性的重要因素之一,由于实际数据集存在采集误差、主观标注以及被恶意投毒等许多因素,使得所构造的数据集中难免存在噪声

一、噪声的分类、产生原因与影响

在机器学习训练集中,存在两种噪声

属性噪声 样本中某个属性的值存在噪声

标签噪声 样本归属类别

关于噪声分布的假设:均匀分布、高斯分布、泊松分布等

一般认为,数据质量决定了分类效果的上限,而分类器算法只能决定多大程度上逼近这个上限

标签噪声的产生原因

(1)特定类别的影响,在给定的标注任务中,各个类别样本之间的区分度不同,有的类别与其他类别都比较相似,就会导致这类样本标注错误率高

(2)标注人为的因素

(3)少数类的标注更容易错误

(4)训练数据受到了恶意投毒,当在对抗环境下应用机器学习模型时,攻击者往往会通过一些途径向数据中注入恶意样本,扰乱分类器的性能

标签噪声比属性噪声更重要

数据利用率

分类性能下降: KNN、决策树和支持向量机、 Boosting 等

模型复杂度 决策树节点增多 为了降低噪声影响,需要增加正确样本数量 可能导致非平衡数据

正面影响:Bagging训练数据中的噪声有利于提升基分类器的多样性

与噪声类似的概念和研究

异常 离群点:outlier 少数类 小样本 对抗样本 恶意样本 脏数据

二、噪声处理的理论与方法

概率近似正确定理(probably approximately correct,PAC )

对于任意的学习算法而言,训练数据噪声率β,必须满足β≤ ε /(1+ ε) ,其中ε表示分类器的错误率

三、基于数据清洗的噪声过滤

在这类方法中,一般假设噪声标签样本是分类错误的样本,因此就把噪声样本的过滤问题转换为普通的分类问题,这种方法的基本思路是消除或者纠正数据中的错误标签,这个步骤可以在训练之前完成,也可以与模型训练同步进行,噪声去除方法具体包括直接删除法,基于最近邻的去噪方法和集成去噪法等

数据层 去除噪声样本 修正噪声样本 方法:采用噪声敏感方法检测噪声 KNN,K小 密度方法 决策树 集成学习:静态集成、动态集成;投票 主动学习:人工+分类器迭代

1:直接删除法

直接删除法是基于两种情况,把异常值影响较大或看起来比较可疑的实例删除,或者直接删除分类器中分类错误的训练实例

在具体实现方法上,如何判断异常值、可疑等特征,可以使用边界点发现之类的方法

2:基于最近邻的去噪方法

从KNN本身原理来看,当k比较小的时候,分类结果与近邻的样本标签关系很大。因此,它是一种典型的噪声敏感模型,在噪声过滤中有一定优势

压缩最近邻CNN、缩减最近邻RNN、基于实例选择的Edited Nearest Neighbor等,也都可以用于噪声过滤

3:集成去噪

集成分类方法对若干个弱分类器进行组合,根据结果的一致性来判断是否为噪声,是目前一种较好的标签去噪方法。两种情况

使用具有相同分布的其他数据集,当然该数据集必须是一个干净、没有噪声的数据

不使用外部数据集,而是直接使用给定的标签数据集进行K折交叉分析

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

四、主动式过滤

 基于数据清洗的噪声过滤方法的隐含假设是噪声是错分样本,把噪声和错分样本等同起来

位于分类边界的噪声最难于处理,需要人工确认

主动学习框架和理论为人类专家与机器学习的写作提供了一种有效的途径,它通过迭代抽样的方式将某种特定的样本挑选出来,交由专家对标签进行人工判断和标注,从而构造有效训练集的一种方法

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

查询策略如何选择可能是噪声的样本,就成为主动学习的核心问题

查询策略主要可以分为以下两类:基于池的样例选择算法和基于流的样例选择算法

基于池的样本选择算法代表性的有:基于不确定性采样的查询方法、基于委员会的查询方法、基于密度权重的方法等

不确定采样

 不确定性采样的查询

将模型难于区分的样本提取出来,具体在衡量不确定性时可以采用的方法有最小置信度、边缘采样和熵

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

边缘采样是选择哪些类别概率相差不大的样本

其中,y1,y2是样本x的top 2归属概率的类别。 对于两个样本a,b的分类概率分别为(0.71,0.19,0.10)、(0.17,0.53,0.30) ,应当选择b,因为0.53-0.17<0.71-0.19。对于二分类问题,边缘采样和最小置信度是等价的

 基于熵采样

通过熵来度量,它衡量了在每个类别归属概率上的不确定。选择熵最大的样本作为需要人工判定的样本

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

基于委员会的采样 

当主动学习中采用集成学习模型时,这种选择策略考虑到每个基分类器的投票情况。相应地,通过基于投票熵和平均KL散度来选择样本

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

样本x的投票熵计算时,把x的每个类别的投票数当作随机变量,衡量该随机变量的不确定性

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习 

其中V(y)表示投票给y的分类器的个数,C表示分类器总数。投票熵越大,就越有可能被选择出来

当每个基分类器为每个样本输出分类概率时,可以使用平均KL散度来计算各个分类器的分类概率分布与平均分布的平均偏差。偏差越大的样本,其分类概率分布的一致性越差,应当越有可能被选择出来

五、噪声鲁棒模型

 在分类模型中嵌入噪声处理的学习机制,使得学习到的模型能抵抗一定的噪声样本

在机制设计上,可以从样本权重调整、损失函数设计、Bagging集成学习、深度学习等角度提升模型的噪声容忍度

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

AdaBoost串接的基分类器中,越往后面,错误标签的样本越会得到基分类器的关注

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习 

当样本x分类错误时,其权值以exp(beta_m)变化;而对于正确分类的样本以exp(-beta_m)。 从上述算法流程可以看出,0<=e_m<=0.5,相应地,beta_m>=0。因此,对于,错误的样本的权重>exp(0)=1,而分类正确的样本的权值<=exp(0)=1

经过t轮后得到的权重为exp(beta_m1) exp(beta_m2)…exp(beta_mt)。可见噪声样本的权重得到了快速增加而变得很大

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

AdaBoost 算法的噪声敏感性归因于其对数损失函数,当一个样本未被正确分类的时候,该样本的 权值会指数型增加

 随着迭代次数的增加,由于算法会更多地关注于错分类的样本, 必然会使得噪声样本的权值越来越大,进而增加了模型复杂度,降低了算法性能

删除权重过高的样本或调整异常样本的权重来降低标签噪声的影响

MadaBoost:针对噪声样本在后期的训练权重过大的问题,算法重新调整了AdaBoost中的权值更新公式,设置了一个权重的最大上限1,限制标签噪声造成的样本权值的过度增加

AdaBoost的损失函数改进

 各分类器稳健性差异的本质原因在于损失函数

不同损失函数对噪声的稳健性差异

0-1损失或最小二乘损失对均匀分布噪声稳健

指数、对数型损失函数对各类噪声大都不稳健

AdaBoost的损失函数

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

 nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

(1)噪声样本被正确分类,表示为xp

(2)非噪声样本被正确分类,表示为xq

(3)噪声样本被错误分类,表示为xk

(4)非噪声样本被错误分类,表示为xl 

预期目标

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

ndAdaBoost的损失函数

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习 

 nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习

在这样的损失函数下

(1)如果样本xn被错误分类 在误分的样本中,噪声数据比非噪声数据所占的比例更大。不正确分类的样本噪声越大,其损失函数值越小

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习 

(2)如果样本xn被正确分类

在正确分类的样本中,非噪声数据倾向于最小化损失函数,也就是说非噪声数据尽可能多地成为正确分类

nyt数据集中的噪声,人工智能安全,人工智能,算法,python,噪声数据处理,机器学习 

常见损失函数如下

 0-1损失函数

平均绝对误差MAE

均方误差MSE

均方根误差RMSE

交叉熵损失

指数损失

对数损失

Hinge损失函数文章来源地址https://www.toymoban.com/news/detail-767483.html

到了这里,关于人工智能中噪声数据的产生与处理方法详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】实验一:产生式系统实验与基础知识

    实验目的 熟悉一阶谓词逻辑和产生式表示法; 掌握产生式系统的运行机制,以及基于规则推理的基本方法。 实验内容 设计并编程实现一个飞行生物的小型产生式系统。 实验要求 具体应用领域自选,具体系统名称自定。 用一阶谓词逻辑和产生式规则作为知识表示,利用产生

    2024年02月02日
    浏览(170)
  • 【数据挖掘与人工智能自然语言处理】自然语言处理和人工智能:如何利用自然语言处理技术进行数据挖掘

    作者:禅与计算机程序设计艺术 随着互联网和大数据时代的到来,数据挖掘已成为各个行业的热门话题。数据挖掘的核心在于发现数据中的有价值信息,而自然语言处理(NLP)技术是实现这一目标的重要手段。本文旨在通过自然语言处理技术进行数据挖掘,为数据挖掘提供一

    2024年02月05日
    浏览(94)
  • 人工智能安全-2-非平衡数据处理

    现象与原因 非平衡数据处理方法概览 数据预处理层面 特征层 算法层面 非平衡数据分类问题 :在网络信息安全问题中,诸如 恶意软件检测、SQL注入、不良信息检测等 许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。 产生的

    2024年02月14日
    浏览(45)
  • 人工智能安全-2-非平衡数据处理(1)

    现象与原因 非平衡数据处理方法概览 数据预处理层面 特征层 算法层面 非平衡数据分类问题 :在网络信息安全问题中,诸如 恶意软件检测、SQL注入、不良信息检测等 许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。 产生的

    2024年02月06日
    浏览(57)
  • AI伦理问题探究:人工智能对我们的未来会产生什么样的影响?

    “人工智能(AI)已经成为当今世界的热点话题。它正在影响着我们的生活,改变着我们的世界。但是,AI的发展也带来了一系列的伦理问题和社会影响。本文将详细介绍AI的伦理问题和社会影响,并探讨这些问题可能对我们未来的生活产生的影响。” 1. 隐私问题😱 AI的发展

    2024年02月04日
    浏览(72)
  • 从数据处理到人工智能(常用库的介绍)

       ​​​​​​​​​​​​  可以这么理解pandas通过扩展了对一维数据和二维数据的一种表示,因而能够形成更高层对数据的操作,简化数据分析的运行  Matplotlib — Visualization with Python   seaborn: statistical data visualization — seaborn 0.12.2 documentation (pydata.org)   Mayavi: 3D scien

    2023年04月27日
    浏览(36)
  • 数据预处理与模型评估【机器学习、人工智能、实际事例】

    在机器学习领域,数据预处理和模型评估是两个至关重要的步骤。它们确保我们构建的机器学习模型能够从数据中有效地学习并做出准确的预测。本文将详细介绍数据预处理和模型评估的概念,并通过现实中的例子来阐述它们之间的密切关系。 什么是数据预处理? 数据预处

    2024年02月07日
    浏览(62)
  • 人工智能:数据分析之数据预处理、分析模型与可视化

    在人工智能和数据科学领域,数据分析是一种核心过程,它帮助我们从大量的数据中提取有价值的信息。数据分析的质量和结果直接影响到决策的效率和准确性。在这篇博客中,我们将详细探讨数据分析的关键步骤,包括数据预处理、分析模型和可视化,并通过实际应用案例

    2024年03月10日
    浏览(71)
  • 数据预处理的人工智能与深度学习:如何提高模型性能

    数据预处理是人工智能(AI)和深度学习(DL)领域中的一个关键环节,它涉及到数据清洗、数据转换、数据归一化、数据增强等多种操作,以提高模型性能。在过去的几年里,随着数据规模的增加和复杂性的提高,数据预处理的重要性得到了广泛认识。本文将从以下几个方面进行

    2024年02月19日
    浏览(73)
  • 人工智能与大数据面试指南——自然语言处理(NLP)

    分类目录:《人工智能与大数据面试指南》总目录 《人工智能与大数据面试指南》系列下的内容会 持续更新 ,有需要的读者可以 收藏 文章,以及时获取文章的最新内容。 自然语言处理(NLP)领域有哪些常见任务? 基础任务 中文分词:将一串连续的字符构成的句子分割成

    2024年02月11日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包