数据探索与数据预处理的实验报告

这篇具有很好参考价值的文章主要介绍了数据探索与数据预处理的实验报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

数据探索与数据预处理

提示

参考书：张良均《Python数据分析与挖掘实战》等。

数据文件：课本自带数据。

使用软件：Pycharm。

类别：实验。

温馨提示：该实验是跟张良均这本书配合使用的，代码运行于Pycharm。

一、实验目的

1、了解数据探索基本方法。

2、了解数据预处理基本方法。

二、实验环境

1、操作系统：Windows 10。

2、代码运行环境：Jupyter notebook或Pycharm。

三、实验原理

1、使用数据挖掘的定义及流程。

2、使用数据挖掘基本方法，应用。

3、使用Python数据分析工具。

4、使用数据对象，属性类型，基本统计描述，可视化，相似性与相异性度量。

5、运用数据预处理基本思想，数据离散化，清洗，特征提取与特征选择。

四、实验步骤与实验结果

4.1 实验步骤：

1、数据探索（数据：某餐饮企业的餐饮日销售额数据表catering_sale.xls）

（1.1）对给定数据，首先查看数据基本情况，使用describe方法。

（1.2）分析集中趋势，包括均值，中位数，众数指标。

（1.3）分析离散趋势，包括极差，四分位间距等，并给出五数概况。

（1.4）以月份为单位，绘制月度销售额直方图（bar），以及按月份时间递增的销售额变化折线图(plot)。

2、绘制词云，使用数据为《XX大学防控疫情确保开学安全工作方案》。（注意先要将文档转化为可处理的txt）

3、数据预处理

（3.1）数据清洗-缺失值处理。给定catering_sale.xls，其中2015年2月14日数据缺失。采用合适方法进行数据增补。

（3.2）连续属性离散化。针对医学中的中医证型数据，discretization_data.xls，分别用等宽和等频进行离散化。

（3.3）主成分分析法降维。利用主成分分析法PCA，对数据principal_component.xls进行降维，要求降维后数据保留95%原数据信息即可。

4.2 实验结果：

4.2.1 数据探索

【1】温馨提示：
数据探索与数据预处理的实验报告

【2】代码：文章来源地址https://www.toymoban.com/news/detail-433598.html

# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt
# excel文件自行修改
xls_file = pd.read_excel("./catering_sale.xls")
df = pd.DataFrame(xls_file)
# print(df)
data1 = df['销量']
# print(data1)
des = data1.describe()
# print(des)
print("日销售额数据均值为：" + str(des['mean']))
print("日销售额数据中位数为：" + str(des['50%']))
print("日销售额数据的众位数为：" + str(data1.mode()[0]))
print("日销售额数据的极差为：" + str(des['max'] - des['min']))
print("日销售额数据的四分位间距为：" + str(des['75%']-des['25%']))
print("五数概况为：" + str(des['min'])+", " + str(des['25%'])