使用Python进行数据分析——描述性统计分析

这篇具有很好参考价值的文章主要介绍了使用Python进行数据分析——描述性统计分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好,描述性统计分析主要是指求一组数据的平均值、中位数、众数、极差、方差和标准差等指标,通过这些指标来发现这组数据的分布状态、数字特征等内在规律。在Python中进行描述性统计分析,可以借助Numpy、Pandas、SciPy等科学计算模块计算出指标,然后用绘图模块Matplotlib绘制出数据的分布状态和频率及频数直方图,以更直观的方式展示数据分析的结果。

一、描述性统计指标计算

用describe()函数可以计算出以下值,代码如下:

import pandas as pd
data= pd.read_excel('D:/shujufenxi/jjj.xlsx',index_col='序号')
data1=data.describe()
print(data1)
使用Python进行数据分析——描述性统计分析

除了此函数计算范围此外,还可以计算以下值,代码演示如下:

import pandas as pd
from numpy import mean,median,ptp,var,std
from scipy.stats import mode
data= pd.read_excel('D:/shujufenxi/jjj.xlsx',index_col='序号')
median=median(data['月薪(元)'])# 计算中位数
mode= mode(data['月薪(元)'])[0][0]#计算众数
ptp=ptp(data['月薪(元)'])#极差
var=var(data['月薪(元)'])#方差
std=std(data['月薪(元)'])#标准差
print('中位数:'+str(median))
print('众数:'+str(mode))
print('极差:'+str(ptp))
print('方差:'+str(var))
print('标准差:'+str(std))
使用Python进行数据分析——描述性统计分析

二、数据的分布

根据数据的分布是否对称,数据的分布状态可分为正态分布与偏态分布。偏态分布又分为正偏态分布与负偏态分布;若众数<中位数<均值则为正偏态分布;若均值<中位数<众数,则为负偏态分布;由此可见,根据上面我们所得出的结果,属于正偏态分布。接下来引申两个概念:

  • 偏度--是指数据分布的偏斜方向和程度的度量,常用于衡量随机分布的不均衡性。如果数据对称分布,如标准正态分布,则偏度为0;如数据偏左分布,则偏度<0;如果数据右偏分布,则偏度>0

  • 峰度--是用来描述数据分布陡峭情况或平滑的情况,可以理解为数据分布的高矮程度。我们来绘制标准正态分布图和月薪分布图,我们将Matolotlib模块和Seaborn模块结合使用,代码如下:

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
standard_normal=pd.Series(np.random.normal(0,1,size=1000000))
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.kdeplot(standard_normal,fill=True,label='标准正态分布')
sns.kdeplot(data['月薪(元)'],label='月薪分布')
plt.show()
使用Python进行数据分析——描述性统计分析

三、数据的频数与频率分析

频数是指数据中的类别变量的每种取值出现的次数。频率是指每个类别变量的频数与总次数的比值,通常用百分比表示。

演示如下:

import pandas as pd
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
frequency=data['月薪(元)'].value_counts()#value_counts()函数用来计算数据的频数
percentage=frequency/len(data['月薪(元)'])# len()函数用来计算所选数据列的长度
print(frequency.head())
print(percentage.head())
使用Python进行数据分析——描述性统计分析

接下来,使用Matplotlib模块中的hist()函数绘制频数分布直方图,演示代码如下:

import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
plt.hist(data['月薪(元)'],bins=8,density=False,color='g',edgecolor='k',alpha=0.75)#bins参数用于指定绘制直方图柱子的个数,density参数为False时表示绘制频数直方图,反之则为频率直方图,alph用于设置柱子透明度
plt.xlabel('月薪')
plt.ylabel('频数')
plt.title('月薪频数分布直方图')
plt.show()
使用Python进行数据分析——描述性统计分析

从直方图中可以很清晰地看出所实验数据中,月薪在6000-7000元区间内的人数最多,从之前的分析中也可以看出月薪均值、中位数、众数分别约为7564、6340、4646。大家亦可找实例进行练习。文章来源地址https://www.toymoban.com/news/detail-470849.html

到了这里,关于使用Python进行数据分析——描述性统计分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 第3章-指标体系与数据可视化-3.2-描述性统计分析与绘图

    目录 变量的度量类型 变量的分布类型 正态分布 对数正态分布  伽马分布

    2024年02月07日
    浏览(41)
  • 使用Python进行数据分析——方差分析

    大家好,方差分析可以用来判断几组观察到的数据或者处理的结果是否存在显著差异。本文介绍的方差分析(Analysis of Variance,简称ANOVA)就是用于检验两组或者两组以上样本的均值是否具备显著性差异的一种数理统计方法。 根据影响试验条件的因素个数可以将方差分析分为

    2024年02月15日
    浏览(72)
  • 使用Python进行数据分析——线性回归分析

    大家好,线性回归是确定两种或两种以上变量之间互相依赖的定量关系的一种统计分析方法。根据自变量的个数,可以将线性回归分为一元线性回归和多元线性回归分析。 一元线性回归:就是只包含一个自变量,且该自变量与因变量之间的关系是线性关系。例如通过广告费这

    2023年04月10日
    浏览(97)
  • 使用Python批量进行数据分析

    知识延伸 1、sort_value()是pandas模块中DataFrame对象的函数,用于将数据区域按照某个字段的数据进行排序,这个字段可以是行字段,也可以是列字段。 语法格式: sort_value(by=\\\'##\\\',axis=0,ascending=True,inplace=False,na_position=\\\'last\\\') 参数 说明 by 要排序的列名或索引值 axis 如果省略或者为

    2024年02月10日
    浏览(42)
  • 如何使用Python进行数据分析?

    要使用Python进行数据分析,可以按照以下步骤进行: 安装Python:首先,你需要安装Python解释器。可以从Python官方网站下载并安装适合你操作系统的Python版本。 安装数据分析库:Python有许多强大的数据分析库,如NumPy、Pandas和Matplotlib。使用pip命令或包管理工具安装这些库。 导

    2024年02月10日
    浏览(58)
  • PART 4 描述性统计分析

    · 分布剖析 有两条法则可以告诉你: 大部分数据落在概率分布中的哪个区域。 经验法则 ——适用于 符合 正态分布 的任何数据 集。表明:几乎所有的数据都位于距离均值3个标准差的范围内。具体: 大约68%的数值位于距离均值1个标准差的范围内; 大约95%的数值位于距离均

    2024年02月08日
    浏览(38)
  • Python小知识 - 使用Python进行数据分析

    使用Python进行数据分析 数据分析简介 数据分析,又称为信息分析,是指对数据进行综合处理、归纳提炼、概括总结的过程,是数据处理的第一步。 数据分析的目的是了解数据的内在规律,为数据挖掘,并应用于商业决策、科学研究等提供决策依据。 数据分析的基本方法 数

    2024年02月10日
    浏览(34)
  • 使用Python进行健身手表数据分析

    健身手表(Fitness Watch)数据分析涉及分析健身可穿戴设备或智能手表收集的数据,以深入了解用户的健康和活动模式。这些设备可以跟踪所走的步数、消耗的能量、步行速度等指标。本文将带您完成使用Python进行Fitness Watch数据分析的任务。 Fitness Watch数据分析是健康和保健领域

    2024年02月10日
    浏览(52)
  • 使用Python对物流行业数据进行数据分析

    Excel适合处理低量级数据,当数据量过高,Excel只能展现部分数据,不利于后续的数据分析,此时使用Python进行数据分析更加方便,有效。 先使用info()函数查看数据信息 从图中可以看出该物流数据共有1160条数据,每条数据有10列,其中 订单号 、 货品交货状况 和 数量 列存在

    2024年02月10日
    浏览(44)
  • Python 2.x 中如何使用pandas模块进行数据分析

    Python 2.x 中如何使用pandas模块进行数据分析 概述: 在数据分析和数据处理过程中,pandas是一个非常强大且常用的Python库。它提供了数据结构和数据分析工具,可以实现快速高效的数据处理和分析。本文将介绍如何在Python 2.x中使用pandas进行数据分析,并为读者提供一些代码示例

    2024年02月13日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包