第五章Pandas数据载入与预处理

这篇具有很好参考价值的文章主要介绍了第五章Pandas数据载入与预处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1:选择题

1:利用下面哪个可视化绘图可以发现数据的异常点

A.密度图
B.直方图
C.盒图

D.概率图
知识点解析:
密度图:表现与数据值对应的边界或域对象的一种理论图形表示方法
直方图:直方图是数值数据分布的精确图形表示
盒图:是结构化编程中的一种可视化建模
概率图:用图来表示变量概率依赖关系的理论


2:以下关于缺失值检测的说法中,正确的是
A.null和notnull可以对缺失值进行处理
B.dropna方法既可以删除观测记录,还可以删除特征
C.fillna方法中用来替换缺失值的值只能是数据框
D.Pandas库中的interpolate模块包含了多种插值方法
**知识点解析:
处理缺失值的三种方法:isnull(),notnull(),isna()


3:在现实世界的数据中,缺失值是常有的,一般的处理方法有

A.忽略
B.删除
C.平均值填充
D.最大值填充


2:判断题

1:Pandas中利用merge函数合并数据表时默认的是内连接方式  正确


2:Pandas中的描述性统计一般会包括缺失数据  错误


3:语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列  错误
知识点解析:
格式:DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
用途:删除缺失的值。
thresh : int,可选需要许多非NA值。
axis : 0或’index’,1或’columns’,默认0确定是否删除包含缺失值的行或列。
0或’index’:删除包含缺失值的行。 1或“列”:删除包含缺失值的列。
可得此题应为:如果某列的缺失值不到90%则删除该列


4:利用merge方法合并数据时允许合并的DataFrame之间没有连接键  错误


5:哑变量(Dummy Variables)又称虚拟变量,是用以反映质的属性的一个人工变量  正确


6:Pandas中使用isnull().sum()可以统计缺失值  正确


7:Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留   错误
8:DataFrame的duplicates方法可以用来删除重复数据   错误
9:网络关联关系在大数据中是一种常见的关系   正确

3:填空题

1:Pandas中drop方法中的参数how取值为 ___时表示只要某行有缺失值就将改行丢弃  any


2:Pandas中drop方法中的参数how取值为 ___时表示某行全部为缺失值就将改行丢弃  all


3:Pandas通过read_json函数读取___数据  JSON


4:Pandas要读取Mysql中的数据,首先要安装 ___包,然后进行数据文件读取  Mysqldb


5:Pandas要读取SQL sever中的数据,首先要安装 ___包,然后进行数据文件读取  pymssql


4:简答题

1:简述Pandas删除空缺值方法dropna中参数thresh的使用方法
  dropna中的参数thresh当传入thresh = N时,表示要求一行至少具有N个非NaN才能存活


2:简述Python中利用数据统计方法检测异常值的常用方法及其原理
  方法:a.散点图方法观察 b. 箱线图分析 c. 3σ法则
  原理:标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据


3:简述数据分析中要进行数据标准化的主要原因
  不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。


4:简述Pandas中利用cut方法进行数据离散化的用法
  将数据的值域划分成具有相同宽度的区间,区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数,可以进行连续型数据的等宽离散化。cut函数的基础语法格式为:
pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)
文章来源地址https://www.toymoban.com/news/detail-451215.html


到了这里,关于第五章Pandas数据载入与预处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Python数据分析之特征处理笔记三——特征预处理(特征选择)

    Python数据分析之特征处理笔记三——特征预处理(特征选择)

    书接上文,进行数据清洗过程后,我们得到了没有空值、异常值、错误值的数据,但想要用海量的数据来建立我们所需要的算法模型,仅仅是数据清洗的过程是不够的,因为有的数据类型是数值,有的是字符,怎样将不同类型的数据联系起来?以及在保证最大化信息量的前提

    2024年02月02日
    浏览(17)
  • 机器学习基础 数据集、特征工程、特征预处理、特征选择 7.27

    无量纲化 1.标准化 2.归一化 信息数据化 1.特征二值化 2. Ont-hot编码 3.缺失数据补全 1.方差选择法 2.相关系数法

    2024年02月14日
    浏览(17)
  • 第五篇【传奇开心果系列】Python文本和语音相互转换库技术点案例示例:详细解读pyttsx3的`preprocess_text`函数文本预处理。

    第五篇【传奇开心果系列】Python文本和语音相互转换库技术点案例示例:详细解读pyttsx3的`preprocess_text`函数文本预处理。

    pyttsx3在文本转换语音之前,首先要开展系列步骤的文本预处理工作。 这些预处理步骤可以在使用 pyttsx3 之前应用于文本,以提高转换结果的质量和可读性。预处理后的文本更干净、准确,可以更好地用于语音转换。pyttsx3主要使用 preprocess_text 函数开展文本预处理。 下面是一

    2024年02月22日
    浏览(8)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(15)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(26)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(12)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(14)
  • 数据预处理之数据规约

    数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(13)
  • python数据预处理

    python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(12)
  • 数据清洗和预处理

    预计更新 一、 爬虫技术概述 1.1 什么是爬虫技术 1.2 爬虫技术的应用领域 1.3 爬虫技术的工作原理 二、 网络协议和HTTP协议 2.1 网络协议概述 2.2 HTTP协议介绍 2.3 HTTP请求和响应 三、 Python基础 3.1 Python语言概述 3.2 Python的基本数据类型 3.3 Python的流程控制语句 3.4 Python的函数和模

    2024年02月07日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包