数据探索与数据预处理的实验报告

这篇具有很好参考价值的文章主要介绍了数据探索与数据预处理的实验报告。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据探索与数据预处理

提示

参考书:张良均《Python数据分析与挖掘实战》等。

数据文件:课本自带数据。

使用软件:Pycharm。

类别:实验。

温馨提示:该实验是跟张良均这本书配合使用的,代码运行于Pycharm。

一、 实验目的

1、了解数据探索基本方法。

2、了解数据预处理基本方法。

二、 实验环境

1、操作系统:Windows 10。

2、代码运行环境:Jupyter notebook或Pycharm。

三、 实验原理

1、使用数据挖掘的定义及流程。

2、使用数据挖掘基本方法,应用。

3、使用Python数据分析工具。

4、使用数据对象,属性类型,基本统计描述,可视化,相似性与相异性度量。

5、运用数据预处理基本思想,数据离散化,清洗,特征提取与特征选择。

四、 实验步骤与实验结果

4.1 实验步骤:

1、 数据探索(数据:某餐饮企业的餐饮日销售额数据表catering_sale.xls)

(1.1)对给定数据,首先查看数据基本情况,使用describe方法。

(1.2)分析集中趋势,包括均值,中位数,众数指标。

(1.3)分析离散趋势,包括极差,四分位间距等,并给出五数概况。

(1.4)以月份为单位,绘制月度销售额直方图(bar),以及按月份时间递增的销售额变化折线图(plot)。

2、 绘制词云,使用数据为《XX大学防控疫情确保开学安全工作方案》。(注意先要将文档转化为可处理的txt)

3、 数据预处理

(3.1)数据清洗-缺失值处理。给定catering_sale.xls,其中2015年2月14日数据缺失。采用合适方法进行数据增补。

(3.2)连续属性离散化。针对医学中的中医证型数据,discretization_data.xls,分别用等宽和等频进行离散化。

(3.3)主成分分析法降维。利用主成分分析法PCA,对数据principal_component.xls进行降维,要求降维后数据保留95%原数据信息即可。

4.2 实验结果:
4.2.1 数据探索

【1】温馨提示:
数据探索与数据预处理的实验报告

【2】代码:文章来源地址https://www.toymoban.com/news/detail-433598.html

# coding: utf-8
import pandas as pd
import matplotlib.pyplot as plt
# excel文件自行修改
xls_file = pd.read_excel("./catering_sale.xls")
df = pd.DataFrame(xls_file)
# print(df)
data1 = df['销量']
# print(data1)
des = data1.describe()
# print(des)
print("日销售额数据均值为:" + str(des['mean']))
print("日销售额数据中位数为:" + str(des['50%']))
print("日销售额数据的众位数为:" + str(data1.mode()[0]))
print("日销售额数据的极差为:" + str(des['max'] - des['min']))
print("日销售额数据的四分位间距为:" + str(des['75%']-des['25%']))
print("五数概况为:" + str(des['min'])+", " + str(des['25%']) 

到了这里,关于数据探索与数据预处理的实验报告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 探索CSS预处理器:Sass、Less与Stylus

    🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_ CSDN 博客专家、23年度博客之星前端领域TOP1 🕠 牛客 高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课 签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你

    2024年03月11日
    浏览(52)
  • 探索音频预处理的艺术:Audio-Preprocessing-Scripts

    项目地址:https://gitcode.com/innnky/audio-preprocessing-scripts 在数据科学和人工智能领域,尤其是语音识别和音乐分析中,高质量的音频预处理是成功的关键步骤。今天,我们要介绍的是一个名为 Audio-Preprocessing-Scripts 的开源项目,它提供了丰富的工具和脚本,旨在帮助开发者和研究人

    2024年04月27日
    浏览(35)
  • 拥抱简洁:探索Stylus的简洁语法与CSS预处理器之美

    Stylus 是一种 CSS 预处理器,具有以下十大特点: Stylus 使用类似于 Python 的缩进风格的语法,可以省略大括号和分号,使代码更加简洁易读。 当涉及到Stylus的简洁语法时,以下是一个实际的代码案例来展示其特点: 在这个例子中,我们可以看到 Stylus 的简洁语法。它省略了大

    2024年02月12日
    浏览(81)
  • 数据采集与预处理01: 项目1 数据采集与预处理准备

    数据采集:足够的数据量是企业大数据战略建设的基础,因此数据采集成为大数据分析的前站。数据采集是大数据价值挖掘中重要的一环,其后的分析挖掘都建立在数据采集的基础上。大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,

    2024年01月25日
    浏览(65)
  • 数据预处理matlab matlab数据的获取、预处理、统计、可视化、降维

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    浏览(56)
  • 大数据采集技术与预处理学习一:大数据概念、数据预处理、网络数据采集

    目录 大数据概念: 1.数据采集过程中会采集哪些类型的数据? 2.非结构化数据采集的特点是什么? 3.请阐述传统的数据采集与大数据采集的区别? ​​​​​​​ ​​​​​​​4.大数据采集的数据源有哪些?针对不同的数据源,我们可以采用哪些不同的方法和工具? 数据

    2024年01月25日
    浏览(54)
  • 数据预处理之数据规约

    目录 一、前言 二、PCA的主要参数: 三、数据归约任务1 四、数据规约任务2 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构

    2024年02月12日
    浏览(47)
  • 数据分析--数据预处理

    本文主要是个人的学习笔记总结,数据预处理的基本思路和方法,包括一些方法的使用示例和参数解释,具体的数据预处理案例case详见其他文章。如有错误之处还请指正! 目录 数据的质量评定 数据处理步骤 缺失值的处理 标记缺失值 删除 缺失值 填充 缺失值 重复值处理 异

    2024年02月04日
    浏览(58)
  • python数据预处理

    输出结果如下: 观察可知,【销量】存在一个缺失值,本例将缺失值所在行进行删除处理 输出结果如下: 输出结果如下: 观察可知,箱线图上下边缘存在异常值,本例通过四分位法对异常值进行处理,即:超出上边缘的异常值让其落在上边缘,低于下边缘的异常值让其落在

    2024年02月13日
    浏览(43)
  • 数据预处理matlab

    1.1 从Excel中获取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步确定导入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 对象, 再用 opts.Name=Value 的格式逐个添加。 例3: 将导入信息存到变量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包