第五章Pandas数据载入与预处理

这篇具有很好参考价值的文章主要介绍了第五章Pandas数据载入与预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1:选择题

1:利用下面哪个可视化绘图可以发现数据的异常点

A.密度图
B.直方图
C.盒图

D.概率图
知识点解析:
密度图:表现与数据值对应的边界或域对象的一种理论图形表示方法
直方图:直方图是数值数据分布的精确图形表示
盒图:是结构化编程中的一种可视化建模
概率图:用图来表示变量概率依赖关系的理论


2:以下关于缺失值检测的说法中,正确的是
A.null和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,还可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.Pandas库中的interpolate模块包含了多种插值方法
**知识点解析:
处理缺失值的三种方法:isnull(),notnull(),isna()


3:在现实世界的数据中,缺失值是常有的,一般的处理方法有

A.忽略
B.删除
C.平均值填充
D.最大值填充


2:判断题

1:Pandas中利用merge函数合并数据表时默认的是内连接方式  正确


2:Pandas中的描述性统计一般会包括缺失数据  错误


3:语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列  错误
知识点解析:
格式:DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
用途:删除缺失的值。
thresh : int,可选需要许多非NA值。
axis : 0或’index’,1或’columns’,默认0确定是否删除包含缺失值的行或列。
0或’index’:删除包含缺失值的行。 1或“列”:删除包含缺失值的列。
可得此题应为:如果某列的缺失值不到90%则删除该列


4:利用merge方法合并数据时允许合并的DataFrame之间没有连接键  错误


5:哑变量(Dummy Variables)又称虚拟变量,是用以反映质的属性的一个人工变量  正确


6:Pandas中使用isnull().sum()可以统计缺失值  正确


7:Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留   错误
8:DataFrame的duplicates方法可以用来删除重复数据   错误
9:网络关联关系在大数据中是一种常见的关系   正确

3:填空题

1:Pandas中drop方法中的参数how取值为 ___时表示只要某行有缺失值就将改行丢弃  any


2:Pandas中drop方法中的参数how取值为 ___时表示某行全部为缺失值就将改行丢弃  all


3:Pandas通过read_json函数读取___数据  JSON


4:Pandas要读取Mysql中的数据,首先要安装 ___包,然后进行数据文件读取  Mysqldb


5:Pandas要读取SQL sever中的数据,首先要安装 ___包,然后进行数据文件读取  pymssql


4:简答题

1:简述Pandas删除空缺值方法dropna中参数thresh的使用方法
  dropna中的参数thresh当传入thresh = N时,表示要求一行至少具有N个非NaN才能存活


2:简述Python中利用数据统计方法检测异常值的常用方法及其原理
  方法:a.散点图方法观察 b. 箱线图分析 c. 3σ法则
  原理:标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据


3:简述数据分析中要进行数据标准化的主要原因
  不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。


4:简述Pandas中利用cut方法进行数据离散化的用法
  将数据的值域划分成具有相同宽度的区间,区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数,可以进行连续型数据的等宽离散化。cut函数的基础语法格式为:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)
文章来源地址https://www.toymoban.com/news/detail-451215.html


到了这里,关于第五章Pandas数据载入与预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python数据分析之特征处理笔记三——特征预处理(特征选择)

    书接上文,进行数据清洗过程后,我们得到了没有空值、异常值、错误值的数据,但想要用海量的数据来建立我们所需要的算法模型,仅仅是数据清洗的过程是不够的,因为有的数据类型是数值,有的是字符,怎样将不同类型的数据联系起来?以及在保证最大化信息量的前提

    2024年02月02日
    浏览(35)
  • 机器学习基础 数据集、特征工程、特征预处理、特征选择 7.27

    无量纲化 1.标准化 2.归一化 信息数据化 1.特征二值化 2. Ont-hot编码 3.缺失数据补全 1.方差选择法 2.相关系数法

    2024年02月14日
    浏览(36)
  • 第五篇【传奇开心果系列】Python文本和语音相互转换库技术点案例示例:详细解读pyttsx3的`preprocess_text`函数文本预处理。

    pyttsx3在文本转换语音之前,首先要开展系列步骤的文本预处理工作。 这些预处理步骤可以在使用 pyttsx3 之前应用于文本,以提高转换结果的质量和可读性。预处理后的文本更干净、准确,可以更好地用于语音转换。pyttsx3主要使用 preprocess_text 函数开展文本预处理。 下面是一

    2024年02月22日
    浏览(34)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(45)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(42)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(40)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(30)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(46)
  • 数据预处理matlab

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    浏览(41)
  • python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包