十七、数据预处理(一)

这篇具有很好参考价值的文章主要介绍了十七、数据预处理(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、缺失值处理

缺失值就是由某些原因导致部分数据为空,对于为空的这部分数据我们一般有两种处理方式,一种是删除,即把含有缺失值的数据删除,另一种是填充,即把确实的那部分数据用某个值代替。

1、缺失值查看

对缺失值进行处理,首先要把缺失值找出来,也就是看哪列有缺失值。

(1)Excel实现

在Excel中我们先选中一列没有缺失值的数据,看一下这一列数据共有多少个,然后把其他列的计数与这一列进行对比,小于这一列数据个数的就代表数据个数的就代表有缺失值,差值就是缺失个数。

如果想看整个数据表中每列数据的缺失情况,则要挨个选中每一列去判断该列是否有缺失值。

如果数据不是特别多,可利用定位调教查找,在定位条件对话框中选择空值,单击确定就会把所有的空值选中。

(2)Python实现

在Python中直接调用info()方法就会返回每一列的缺失情况。

Python中缺失值一般用NaN表示,还可以用isnull()方法来判断哪个值是缺失值,如果是缺失值则返回True,如果不是缺失值则返回False。

2、缺失值删除

缺失值分为两种,一种是一行中某个字段是缺失值;另一种是一行中的字段全部为缺失值,即为一个空白行。

(1)Excel实现

在Excel中,这两种缺失值都可以通过在定位条件对话框中选择空值找到。

这样含有缺失值的部分就会被选中,包括某个具体的单元格及一整行,然后单击鼠标右键在弹出的删除对话框中U型安泽删除郑航选项,并单击确定按钮即可实现整行的删除。

(2)Python实现

在Python中,利用dropna()方法,dropna()方法默认删除含有缺失值的行,也就是只要某一行有缺失值就把这一行删除。

运行dropna()方法以后,删除含有NaN值的行,返回删除后的数据。

如果想删除空白行,只要给dropna()方法传入一个参数how = "all"即可,这样就会只删除那些全为空值的行,不全为空值的行就不会被删除。

3、缺失值填充

(1)Excel实现

在Excel中,缺失值的填充和缺失值删除一样,利用的也是定位条件,先把缺失值找到,然后在第一个缺失值的单元格中输入要填充的值,最常用的就是用0填充,输入以后按Ctrl+enter 组合键就可以对所有缺失值进行填充。

除了用0填充、平均值填充、众数填充们还有向前填充、向后填充等方式。

(2)Python实现

在Python中,利用fillna()方法对数据表中华的所有缺失值进行填充,在fillna后面的括号中输入要填充的值即可。

在Python中也可以按不同列填充,只要在fillna()方法的括号中指明列明即可。

二、重复值处理

重复数据就是同样的记录有多条,对于这样的数据我们一般做删除处理。

1、Excel实现

在Excel中依次单击菜单栏中的数据>数据工具>删除重复值,就可以删除重复数据了。

Excel的删除重复值默认针对所有值进行重复值判断。

2、Python实现

在Python中利用drop——duplicates()方法,该方法默认对所有值进行重复值判断,且默认保留第一个(行)值。也可以只针对某一列或某几列进行重复值删除的判断,只需要在drop_duplicates()方法中指明要判断的列名即可。

也可以利用多列去重,只需要把多个列名以列表的形式传给参数subset()即可。

还可以自定义删除重复项时保留哪个,默认保留第一个,也可以设置保留最后一个,或者全部不保留。通过传入参数keep进行设置,参数keep默认值是first,即保留第一个值,也可以是last,保留最后一个值,还可以是FALSE,即把重复值全部删除。

三、异常值的检测与处理

异常值就是相比正常数据而言过高或过低的数据。

1、异常值检测

要处理异常值首先要检测,也就是发现异常值,发现异常值的方式主要有以下三种。

(1)根据业务经验划定不同指标的正常范围,超过该范围的值算作异常值。

(2)通过绘制箱形图,把大于(小于)箱形图上边缘(下边缘)的点成为异常值。

(3)如果数据服从正态分布,则可以利用3σ原则:如果一个数值与平均值之间的偏差超过3倍标准差,那么我们就认为这个值是异常值。

2、异常值处理

对于异常值一般有以下几种处理方式。

(1)最常用的处理方式就是删除。

(2)把异常值当作缺失值来填充。

(3)把异常值当作特殊情况,研究异常值出现的原因。

1、Excel实现

在Excel中,删除异常值只要通过筛选把异常值对应的行找出来,然后单击鼠标右键选择删除行即可。

对异常值进行填充,其实就是对异常值进行替换,同样通过筛选功能吧异常值先找出来,然后把这些异常值替换成要填充的值即可。

2、Python实现

在Python中,删除异常值用到的方法和Excel中的原理类似,Python中是通过过滤的方法对异常值进行删除。对异常值进行填充,就是对异常值进行替换,利用replace()方法可以对特定的值进行替换。文章来源地址https://www.toymoban.com/news/detail-500472.html

到了这里,关于十七、数据预处理(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(54)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(47)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(58)
  • python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(43)
  • 数据预处理matlab

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    浏览(55)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(53)
  • 头歌:数据预处理之数据清洗

    本关任务:完成泰坦尼克号遇难数据的清洗。   案例背景 泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。 编程要求 根据提示,你需要完成: 缺失值填充 离群点检测

    2024年02月11日
    浏览(44)
  • 数据挖掘(2)数据预处理

    数据预处理的重要性 杂乱性:如命名规则。 重复性:同一客观事再 不完整性: 噪声数据:数据中存在错误或异常的现象。 数据预处理的常见方法 数据清洗:去掉数据中的噪声,纠正不一致。 数据集成:将多个数据源合成一致的数据存储 数据变换(转换):对数据的格式

    2024年02月07日
    浏览(44)
  • 数学建模——数据预处理

    在数学建模时,经常遇到数据的预处理,那么会有一些什么情况呢,跟着北海老师总结了他的内容~希望对大家有所帮助! 缺失值 比赛提供的数据,发现有些单元格是null或空的 缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除 最简单处理

    2024年02月01日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包