数据探索与数据预处理
提示
参考书:张良均《Python数据分析与挖掘实战》等。
数据文件:课本自带数据。
使用软件:Pycharm。
类别:实验。
温馨提示:该实验是跟张良均这本书配合使用的,代码运行于Pycharm。
一、 实验目的
1、了解数据探索基本方法。
2、了解数据预处理基本方法。
二、 实验环境
1、操作系统:Windows 10。
2、代码运行环境:Jupyter notebook或Pycharm。
三、 实验原理
1、使用数据挖掘的定义及流程。
2、使用数据挖掘基本方法,应用。
3、使用Python数据分析工具。
4、使用数据对象,属性类型,基本统计描述,可视化,相似性与相异性度量。
5、运用数据预处理基本思想,数据离散化,清洗,特征提取与特征选择。
四、 实验步骤与实验结果
4.1 实验步骤:
1、 数据探索(数据:某餐饮企业的餐饮日销售额数据表catering_sale.xls)
(1.1)对给定数据,首先查看数据基本情况,使用describe方法。
(1.2)分析集中趋势,包括均值,中位数,众数指标。
(1.3)分析离散趋势,包括极差,四分位间距等,并给出五数概况。
(1.4)以月份为单位,绘制月度销售额直方图(bar),以及按月份时间递增的销售额变化折线图(plot)。
2、 绘制词云,使用数据为《XX大学防控疫情确保开学安全工作方案》。(注意先要将文档转化为可处理的txt)
3、 数据预处理
(3.1)数据清洗-缺失值处理。给定catering_sale.xls,其中2015年2月14日数据缺失。采用合适方法进行数据增补。
(3.2)连续属性离散化。针对医学中的中医证型数据,discretization_data.xls,分别用等宽和等频进行离散化。
(3.3)主成分分析法降维。利用主成分分析法PCA,对数据principal_component.xls进行降维,要求降维后数据保留95%原数据信息即可。
4.2 实验结果:
4.2.1 数据探索
【1】温馨提示:
文章来源:https://www.toymoban.com/news/detail-433598.html
【2】代码:文章来源地址https://www.toymoban.com/news/detail-433598.html
# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt
# excel文件自行修改
xls_file = pd.read_excel("./catering_sale.xls")
df = pd.DataFrame(xls_file)
# print(df)
data1 = df['销量']
# print(data1)
des = data1.describe()
# print(des)
print("日销售额数据均值为:" + str(des['mean']))
print("日销售额数据中位数为:" + str(des['50%']))
print("日销售额数据的众位数为:" + str(data1.mode()[0]))
print("日销售额数据的极差为:" + str(des['max'] - des['min']))
print("日销售额数据的四分位间距为:" + str(des['75%']-des['25%']))
print("五数概况为:" + str(des['min'])+", " + str(des['25%'])
到了这里,关于数据探索与数据预处理的实验报告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!