头歌:数据预处理之数据清洗

这篇具有很好参考价值的文章主要介绍了头歌:数据预处理之数据清洗。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本关任务:完成泰坦尼克号遇难数据的清洗。

 

案例背景

泰坦尼克号遭遇的灾难震惊世界,如何避免灾难甚至预测灾难呢? 要实现首先要做好泰坦尼克号的损失数据统计,才能为数据分析打下基础。

编程要求

根据提示,你需要完成:文章来源地址https://www.toymoban.com/news/detail-509371.html

  • 缺失值填充
  • 离群点检测
import numpy as np  
import pandas as pd  
#读取数据  
df=pd.read_csv('/data/workspace/myshixun/step1/train.csv')
##### begin #####  
#查看列中是否存在空值  
temp=df.isnull().any()   
print(temp)
#使用SimpleImputer取出缺失值所在列的数值,sklearn当中特征矩阵必须是二维才能传入 使用reshape(-1,1)升维  
age=df['Age'].values.reshape(-1,1)    
#导入模块  
from sklearn.impute import SimpleImputer   
#实例化,均值填充,可改变strategy参数,实现其他填充方式  
imp_mean=SimpleImputer(missing_values=np.nan,strategy='mean')    
#fit_transform一步完成调取结果  
imp_mean=imp_mean.fit_transform(age)   
#填充好的数据传回到 data['Age']列  
df_fillna=df  
df_fillna['Age']=imp_mean  
#检验是否还有空值,为0即说明空值均已被填充  
print(df_fillna['Age'].isnull().sum())  
##### end #####    
imp_mean=SimpleImputer(missing_values=np.nan,strategy='mean')    
imp_mean=imp_mean.fit_transform(age)       
df_fillna=df  
df_fillna['Age']=imp_mean  
#正太分布离群点检测  
##### begin #####  
#计算均值  
u=df['Age'].mean()   
#计算标准差  
std=df['Age'].std()   
#识别异常值  
error = df[np.abs(df['Age'] - u) > 3 * std ]   
##### end #####  
print(error)  

到了这里,关于头歌:数据预处理之数据清洗的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • R语言 | GEO表达矩阵的数据清洗与预处理

    目录 1.去除/// 2.去除重复的基因名 3.表达矩阵自动log2化 4.矫正差异 表达量矩阵的数据清洗应该在 注释完成之后 进行,并且下列操作最好按顺序进行 如下图的表格所示,同一个探针ID对应的gene有多个,用///分隔着,而我们想获得一个探针ID只对应一个基因symbol的表格。 表达

    2024年02月13日
    浏览(41)
  • 云计算与大数据分析:如何实现高效的数据清洗与预处理

    随着互联网的普及和数据的快速增长,数据分析和处理成为了企业和组织中的重要组成部分。大数据分析是指利用大量数据来发现新的信息和洞察,从而为企业和组织提供决策支持。云计算是一种基于互联网的计算资源共享和分配模式,它可以让企业和组织更加高效地利用计

    2024年04月11日
    浏览(49)
  • 【数据预处理】基于Kettle的字符串数据清洗、Kettle的字段清洗、Kettle的使用参照表集成数据

    🚀 本文选自专栏:AI领域专栏 从基础到实践,深入了解算法、案例和最新趋势。无论你是初学者还是经验丰富的数据科学家,通过案例和项目实践,掌握核心概念和实用技能。每篇案例都包含代码实例,详细讲解供大家学习。 📌📌📌本专栏

    2024年02月03日
    浏览(55)
  • 利用Python进行数据清洗与预处理:Pandas的高级用法【第147篇—Pandas的高级用法】

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在数据科学和机器学习领域,数据清洗和预处理是至关重要的步骤。Pandas库作为Python中最受欢迎的数据处理工具之一,提供了强大的功能来处

    2024年04月09日
    浏览(107)
  • 【大厂AI课学习笔记】【2.2机器学习开发任务实例】(3)数据准备和数据预处理

    项目开始,首先要进行数据准备和数据预处理。 数据准备的核心是找到这些数据,观察数据的问题。 数据预处理就是去掉脏数据。 缺失值的处理,格式转换等。 延伸学习: 在人工智能(AI)的众多工作流程中,数据准备与预处理占据着举足轻重的地位。这两个步骤不仅影响

    2024年02月19日
    浏览(47)
  • Apifox使用外部文件完成接口预处理

    pm.executeAsync(filePath, args, options) filePath string 外部程序路径 args string[] 参数。调用 jar 包中的指定方法时,会使用 JSON.stringify 进行转换。除此之外非 string 类型会进行隐式类型转换自动转换为 string 类型。 options Object command string 外部程序的执行命令,“命令前缀”中的前面部分

    2024年01月23日
    浏览(55)
  • 【古诗生成AI实战】之三——任务加载器与预处理器

      本章内容属于 数据处理阶段 ,将分别介绍任务加载器 task 和预处理器 processor 。   在深入探讨数据处理的具体步骤之前,让我们先了解一下我们将要使用的数据集的形式。   本项目采用的是七绝数据集,总计83072条古诗,其形式如下:   实际上我们只需要古诗的

    2024年02月02日
    浏览(35)
  • 计算机视觉任务图像预处理之去除图像中的背景区域-------使用连通域分析算法(包含完整代码)

    通过连通域分析算法能够找到最大的连通域,即图片的主体部分,然后保存该连通域的最小外接矩阵,即可去除掉无关的背景区域 更多图像预处理操作工具集包含在这个github仓库中

    2024年02月06日
    浏览(56)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(65)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包