数据分析、数据挖掘常用的数据清洗方法

这篇具有很好参考价值的文章主要介绍了数据分析、数据挖掘常用的数据清洗方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据清洗目的:一是为了解决数据质量问题;二是为了使数据更适合模型分析挖掘。

数据的完整性—例如:人的属性中缺少性别

数据的唯一性—例如:不同来源的数据出现重复

数据的权威性—例如:同一个指标出现多个来源的数据且数值不同

数据的合法性—例如:获取的数据与常识不符,年龄大于200岁

数据的一致性—例如:不同来源的不同指标,实际内涵是一样的,或同一指标内涵不一致

一、数据质量问题

数据清洗的结果是对各种脏数据进行对应方式处理,得到标准的、干净的、连续的数据提供给模型训练。

1、解决数据完整性

数据缺失,填补数据就好了。
(1)通过其他数据信息补全,例如使用身份证号码推算性别、出生日期、年龄等
(2)通过前后数据补全,例如时间序列缺数据,可以使用前后的均值,缺的多了,可以使用平滑等处理
(3)实在补不全,虽然可惜,但是必须要剔除,但是不要删除,也许以后可以用的上

2、解决数据唯一性

去除重复值,保留一条
(1)按主键去重
(2)按规则去重,如:保留第一次出现,或保留最后一次出现的

3、解决数据权威性

用最权威的渠道数据
对不同渠道设定权威级别

4、解决数据合法性

(1)设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除
(2)离群值人工特殊处理,使用分箱、聚类、回归等方式发现离群值

5、解决数据一致性

建立数据体系

二、数据更适合分析挖掘

1、高维度 --不适合------降维(主成分、随机森林)
2、维度太低–不适合 —(各种汇总、平均、加总、最大、最小等;各种离散化,聚类、自定义分组)
3、无关信息–减少存储—(删除字段)
4、字段冗余 – 相关系数很高 --(删除)
5、多指标数值、单位不同 ----(归一化)文章来源地址https://www.toymoban.com/news/detail-721192.html

到了这里,关于数据分析、数据挖掘常用的数据清洗方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包