数据挖掘(2)数据预处理

这篇具有很好参考价值的文章主要介绍了数据挖掘(2)数据预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、数据预处理

1.1概述

  1. 数据预处理的重要性
    1. 杂乱性:如命名规则。
    2. 重复性:同一客观事再
    3. 不完整性:
    4. 噪声数据:数据中存在错误或异常的现象。
  2. 数据预处理的常见方法
    1. 数据清洗:去掉数据中的噪声,纠正不一致。
    2. 数据集成:将多个数据源合成一致的数据存储
    3. 数据变换(转换):对数据的格式进行转换,如数据的归一化处理。
    4. 数据归约(消减):通过聚集、删除冗余属性、局类等方法,来实现数据的压缩。数据挖掘(2)数据预处理,数据挖掘,人工智能

 1.2数据清洗

1.空缺值

  1. 忽略该元组:
    • 其中一条记录中有属性值被遗漏
    • 缺少类标号
    • 但是,当某一类属性的空缺值占百分比很大,若直接忽略,则会使挖掘性能变得非常差。
      • eg:Y:N=1:1,忽略后会变成Y:N=3:1
      • 人工填写空缺值
      • 使用属性的平均值来填充空缺值
      • 使用与给定元组属同一类的平均值来代替
      • 使用一个全局变量填充空缺值(不推荐)
      • 使用最可能的值填充空缺值
        • 回归、贝叶斯、判定树归纳确定

2.噪声数据的处理

数据挖掘(2)数据预处理,数据挖掘,人工智能

  1. 分箱方法(重点)

分箱的步骤:

  1. 先排 序排序,将其分到等深(等宽)的箱中
  2. 按箱的平 均 值(在出现极端数据的情况下,不能用均值处理)、中 值、边界(用左右边界进行替换)进行平滑

等深分箱(分块)

按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。

数据挖掘(2)数据预处理,数据挖掘,人工智能

等宽分箱

在整个属性值的区间上平均分布,即每个箱的区间范围设定为一一个常量,称为箱子的宽度。数据挖掘(2)数据预处理,数据挖掘,人工智能

聚类方法
  1. 相似、向邻近的数据集合在一起形成各个聚类集合。
  2. 特点:直接形成一簇,不需要先验知识。
  3. 查找孤立点,消除噪声
线性回归
  1. 通过回归方程获得拟合函数
人机结合共同检测

3.不一致数据

  1. 人工更正
  2. 利用知识工程工具
    • 属性之间的函数依赖关系
  3. 数据字典

1.3数据集成和变换

  1. 数据集成:将来自多个数据源的数据合并到一起
  2. 数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式。
1.数据集成
  1. 需要统一原始数据中的所有矛盾之处
    • 同名异义、异名同义、单位不不统一、字长不一致。
  2. 需要注意的问题:
    • 模式匹配
      • 整合不同数据源中的元数据。
      • 进行实 体 识 别
      • 借助于数据字典、元数据
    • 数据冗余   
      • 计算相关分析检测: 
      • 若有高的相关系数,则可以去除掉。
    • 数据值冲突
      • 产生原因:表示、比例、编码不同
      • 比如:单位不统一、成绩的百分之和五分值。
2.数据变换(重点)

常用方法:

  1. 平滑处理:消除噪声
    • 分箱
  2. 聚集操作:对数据进行综合
    • 函数:avg(),count(),min(),max()…
    • 数据规范化:将数据转换到一个较小的范围内,两个数据相差比较大。
    • 最小-最大规范化
      • 将原始属性映射到区间[new_min,new_max]
      • 公式:数据挖掘(2)数据预处理,数据挖掘,人工智能数据挖掘(2)数据预处理,数据挖掘,人工智能
    • z-score规范化
      • 根据均值、标准差进行计算
      • 常用于:最大值、最小值未知
      • 不保证取值区间一致,但新的取值满足01分布
      • 数据挖掘(2)数据预处理,数据挖掘,人工智能
    • 小数定标规范化数据挖掘(2)数据预处理,数据挖掘,人工智能

数据挖掘(2)数据预处理,数据挖掘,人工智能

1.4数据规约

1. 数据规约的标准:
  1. 时间:原始数据集挖掘时间:t,数据规约时间:t0,挖掘后时间t’,满足: t_0+t'≤t 
  2. 性能:归约后得到的数据比原数据小的多,并可以产生相同或差不多的结果。
2. 策略:
  1. 数据立方体聚集:数据挖掘(2)数据预处理,数据挖掘,人工智能数据挖掘(2)数据预处理,数据挖掘,人工智能
  2. 维 归 约 ( 重 点 ) 
    1.  主要检测并删除不相关、弱相关或冗余的属性维
    2. .方法:属性子集选择
      1.  目标:寻找出最小的属性子集,并确保新数据子集的概率分布尽可能接近原来的数据集的概率分布。
      2. 启发式算法找出"好的’子集
        1.  逐步向前选择:选择原属性集中最好的属性,并将它添加到该集合中。
        2. 逐步向后删除:由整个属性集开始,每一步都删除现在属性集中最坏的属性。
        3. 向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
        4. 判定树归纳:出现在判定树中的属性形成规约后的属性子集。

数据挖掘(2)数据预处理,数据挖掘,人工智能

1.5数据离散化(重点)

1.三种类型的属性值
  1. 标称型(名称、名义):数值来自于无序集合,不需要离散化,如性别、地名、人名。
    • 不可比、不可加
  2. 序数型:来自于有序集合,不需要离散化,如等级
    • 可比、不可加
  3. 连续型:实数值,需要离散化,如温度、体重、考试成绩。
    • 可比、可加
2.离散化技术
  1. 分箱
  2. 基于熵的离散化
  3. 通过自然划分分段数据挖掘(2)数据预处理,数据挖掘,人工智能数据挖掘(2)数据预处理,数据挖掘,人工智能
  4. 聚类(不推荐)

数据挖掘(2)数据预处理,数据挖掘,人工智能

 文章来源地址https://www.toymoban.com/news/detail-728342.html

到了这里,关于数据挖掘(2)数据预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据挖掘 | 实验一 数据的清洗与预处理

    1)了解数据质量问题、掌握常用解决方法; 2)熟练掌握数据预处理方法,并使用Python语言实现; PC机 + Python3.7环境(pycharm、anaconda或其它都可以) 清洗与预处理的必要性 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值、重复值、异常值或者错误值,通常这

    2023年04月08日
    浏览(45)
  • 【数据挖掘 | 数据预处理】缺失值处理 & 重复值处理 & 文本处理 确定不来看看?

    🤵‍♂️ 个人主页: @AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍 🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能硬件(虽然硬件还没开始玩,但一直

    2024年02月07日
    浏览(64)
  • 数据挖掘学习——数据预处理方法代码汇总(python)

    目录 一、归一化处理方法 (1)min-max方法(离散归一化) (2)零-均值规范化方法 (3)小数定标规范化 二、插值法 (1)拉格朗日插值法 三、相关性分析 (1)pearson相关性系数 (2)spearman相关性系数 四、主成分分析(PCA) 归一化常用方法有: (1)min-max方法(离散归一化

    2024年02月08日
    浏览(66)
  • 数据预处理在数据挖掘中的重要性

    数据挖掘作为从大量数据中提取有用信息和知识的过程,其结果的准确性和可靠性直接受到数据质量的影响。因此,数据预处理在数据挖掘中扮演着至关重要的角色。让我们探讨数据质量对数据挖掘结果的影响,并介绍常见的数据预处理方法以及它们如何提高数据挖掘的效果

    2024年03月20日
    浏览(45)
  • Python数据挖掘 数据预处理案例(以航空公司数据为例)

    1、数据清洗 2、数据集成 3、数据可视化 根据航空公司系统内的客户基本信息、乘机信息以及积分信息等详细数据,依据末次飞行日期( LAST_FLIGHT_DATE),以2014年3月31日为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口2012年4月1日至2014年3月31日内有乘机记

    2024年02月04日
    浏览(40)
  • 数据挖掘实验(二)数据预处理【等深分箱与等宽分箱】

    在分箱前,一定要先排序数据,再将它们分到等深(等宽)的箱中。 常见的有两种分箱方法:等深分箱和等宽分箱。 等深分箱:按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称箱子的深度。 等宽分箱:在整个属性值的区间上平均分布,即每个

    2024年02月07日
    浏览(41)
  • GEO生信数据挖掘(六)实践案例——四分类结核病基因数据预处理分析

    前面五节,我们使用阿尔兹海默症数据做了一个数据预处理案例,包括如下内容: GEO生信数据挖掘(一)数据集下载和初步观察 GEO生信数据挖掘(二)下载基因芯片平台文件及注释 GEO生信数据挖掘(三)芯片探针ID与基因名映射处理 GEO生信数据挖掘(四)数据清洗(离群值

    2024年02月07日
    浏览(54)
  • GPT-4科研实践:数据可视化、统计分析、编程、机器学习数据挖掘、数据预处理、代码优化、科研方法论

    查看原文GPT4科研实践技术与AI绘图 GPT对于每个科研人员已经成为不可或缺的辅助工具,不同的研究领域和项目具有不同的需求。 例如在科研编程、绘图领域 : 1、编程建议和示例代码:  无论你使用的编程语言是Python、R、MATLAB还是其他语言,都可以为你提供相关的代码示例。

    2024年02月07日
    浏览(59)
  • 【数据挖掘与人工智能自然语言处理】自然语言处理和人工智能:如何利用自然语言处理技术进行数据挖掘

    作者:禅与计算机程序设计艺术 随着互联网和大数据时代的到来,数据挖掘已成为各个行业的热门话题。数据挖掘的核心在于发现数据中的有价值信息,而自然语言处理(NLP)技术是实现这一目标的重要手段。本文旨在通过自然语言处理技术进行数据挖掘,为数据挖掘提供一

    2024年02月05日
    浏览(96)
  • 数据预处理与模型评估【机器学习、人工智能、实际事例】

    在机器学习领域,数据预处理和模型评估是两个至关重要的步骤。它们确保我们构建的机器学习模型能够从数据中有效地学习并做出准确的预测。本文将详细介绍数据预处理和模型评估的概念,并通过现实中的例子来阐述它们之间的密切关系。 什么是数据预处理? 数据预处

    2024年02月07日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包