用Python做数据分析之数据统计

这篇具有很好参考价值的文章主要介绍了用Python做数据分析之数据统计。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

接下来说说数据统计部分,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。

1、数据采样
Excel 的数据分析功能中提供了数据抽样的功能,如下图所示。Python 通过 sample 函数完成数据采样。

2、数据抽样
Sample 是进行数据采样的函数,设置 n 的数量就可以了。函数自动返回参与的结果。
1#简单的数据采样
2df_inner.sample(n=3)

3、简单随机采样
Weights 参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。这里手动设置 6 条数据的权重值。将前面 4 个设置为 0,后面两个分别设置为 0.5。
1 #手动设置采样权重
2 weights = [0, 0, 0, 0, 0.5, 0.5]
3 df_inner.sample(n=2, weights=weights)
手动设置采样权重1:从采样结果中可以看出,后两条权重高的数据被选中。
手动设置采样权重2:Sample 函数中还有一个参数 replace,用来设置采样后是否放回。
1 #采样后不放回
2 df_inner.sample(n=6, replace=False)

4、描述统计
Excel 中的数据分析中提供了描述统计的功能。Python 中可以通过 Describe 对数据进行描述统计。
Describe 函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据。下面的代码中对数据表进行描述统计,并使用 round 函数设置结果显示的小数位。并对结果数据进行转置。
1#数据表描述性统计
2df_inner.describe().round(2).T

5、标准差
Python 中的 Std 函数用来接算特定数据列的标准差。
1 #标准差
2 df_inner[‘price’].std()
3 1523.3516556155596

6、协方差
Excel 中的数据分析功能中提供协方差的计算,python 中通过 cov 函数计算两个字段或数据表中各字段间的协方差。
Cov 函数用来计算两个字段间的协方差,可以只对特定字段进行计算,也可以对整个数据表中各个列之间进行计算。
1#两个字段间的协方差
2df_inner[‘price’].cov(df_inner[‘m-point’])
317263.200000000001

7、相关分析
Excel 的数据分析功能中提供了相关系数的计算功能,python 中则通过 corr 函数完成相关分析的操作,并返回相关系数。

1)相关系数
Corr 函数用来计算数据间的相关系数,可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。相关系数在-1 到 1 之间,接近 1 为正相关,接近-1 为负相关,0 为不相关。
1 #相关性分析
2 df_inner[‘price’].corr(df_inner[‘m-point’])
3 0.77466555617085264

8、数据输出
第九部分是数据输出,处理和分析完的数据可以输出为 xlsx 格式和 csv 格式。

1)写入 excel
1#输出到 excel 格式
2df_inner.to_excel(‘excel_to_python.xlsx’, sheet_name=‘bluewhale_cc’)

2)写入CVS
1 #输出到 CSV 格式
2 df_inner.to_csv(‘excel_to_python.csv’)
在数据处理的过程中,大部分基础工作是重复和机械的,对于这部分基础工作,我们可以使用自定义函数进行自动化。以下简单介绍对数据表信息获取自动化处理。
1 #创建数据表
2 df = pd.DataFrame({‘id’:[1001,1002,1003,1004,1005,1006],
3’date’:pd.date_range(‘20130102’, periods=6),
4’city’:['Beijing ', ‘SH’, ’ guangzhou ', ‘Shenzhen’, ‘shanghai’, 'BEIJING '],
5 ‘age’:[23,44,54,32,34,32],
6 ‘category’:[‘100-A’,‘100-B’,‘110-A’,‘110-C’,‘210-A’,‘130-F’],
7 ‘price’:[1200,np.nan,2133,5433,np.nan,4432]},
8 columns =[‘id’,‘date’,‘city’,‘category’,‘age’,‘price’])
9
10 #创建自定义函数
11 def table_info(x):
12 shape=x.shape
13 types=x.dtypes
14 colums=x.columns
15 print(‘数据维度(行,列):\n’,shape)
16 print(‘数据格式:\n’,types)
17 print(‘列名称:\n’,colums)
18
19 #调用自定义函数获取 df 数据表信息并输出结果
20 table_info(df)
21
22 数据维度(行,列):
23 (6, 6)
24 数据格式:
25 id int64
26 date datetime64[ns]
27 city object
28 category object
29 age int64
30 price float64
31 dtype: object
32 列名称:
33 Index([‘id’, ‘date’, ‘city’, ‘category’, ‘age’, ‘price’], dtype=‘object’)

以上就是如何用Python做数据统计的全部内容了。

文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理文章来源地址https://www.toymoban.com/news/detail-725147.html

到了这里,关于用Python做数据分析之数据统计的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【SAS应用统计分析】数据的描述性统计分析

    声明:本文知识参考内容来自网络,如有侵权请联系删除。本文还参照了B站up主庄7的课程内容【公开课】数据分析与SAS【15课】 目录 实验原理 描述性统计量 1.反映数据集中趋势的特征量 2.反映数据离散程度的特征量 3.反映数据分布形状的特征量 数据的图形描述 直方图 箱线

    2024年02月01日
    浏览(50)
  • 【数据分析】统计量

    1. 均值、众数描述数据的集中趋势度量,四分位差、极差描述数据的离散程度。 2. 标准差、四分位差、异众比率度量离散程度,协方差是度量相关性。  期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: 从直观上来看,协方差表示的是两个变量总体误

    2024年02月11日
    浏览(44)
  • PythonStock(37)股票系统:Python股票系统发布V2.0版本,改个名字吧,叫Python全栈股票系统2.0,可以实现数据的抓取(akshare),统计分析,数据报表展示。

    使用Python开发一个web股票项目。 【github项目地址】: https://github.com/pythonstock/stock 【知乎专栏地址】: https://zhuanlan.zhihu.com/pythonstock 【docker hub地址下载】: https://hub.docker.com/r/pythonstock/pythonstock 【相关stock资料分类】: http://blog.csdn.net/freewebsys/article/category/7076584 主要使用开发

    2023年04月08日
    浏览(45)
  • 数据挖掘与数据分析之统计知识篇

    统计学上, 自由度 是指当以样本的 统计量 估计 总体 的参数时, 样本中独立或能自由变化的数据个数叫自由度 。一般来说,自由度等于独立变量减掉其衍生量数。举例来说,变异数的定义是样本减平均值(一个由样本决定的衍生量),因此对N个随机样本而言,其自由度为N

    2024年02月11日
    浏览(51)
  • R语言 | 数据分析——统计绘图

    目录 一、分类数据的图形描述 1.1 条形图barplot()函数 1.2 饼图pie()函数  二、量化数据的图形描述 2.1 点图与dotchart()函数 2.2 绘图函数plot()  2.2.1 绘制时间数列对象 ​2.2.2 向量数据与plot()函数 2.2.3 数据框数据与plot()函数 2.2.4  因子型数据与plot()函数 ​2.2.5 使用lines()函数绘制回

    2024年02月04日
    浏览(49)
  • 数据科学、统计学、商业分析

    数据科学、统计学、商业分析是在各方面有着不同的侧重和方向的领域。  1.专业技能 数据科学(Data Science):数据科学涉及从大量数据中提取有价值的信息、模式和洞察力的领域。它使用多种技术和领域知识,如统计学、机器学习、数据库管理、数据可视化等,进行数据清

    2024年02月15日
    浏览(52)
  • 【大数据学习篇6】 Spark操作统计分析数据操作

    通过前面的文章安装好环境下面我们就可以开始来操作 使用MySQL的root用户对数据库进行修改以下设置

    2024年02月05日
    浏览(45)
  • 数据的统计描述和分析——假设检验

    对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1. 参数检验 :如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验

    2024年02月14日
    浏览(44)
  • 【postgresql 基础入门】聚合函数,通用型,统计分析型,多种多样的聚合函数满足数据的大数据的统计分析

    ​ 专栏内容 : postgresql内核源码分析 手写数据库toadb 并发编程 个人主页 :我的主页 管理社区 :开源数据库 座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物. 在数据库管理系统中,SQL(结构化查询语言)的聚集函数扮演着至关重要的角色。它们能够对一组值执

    2024年04月10日
    浏览(66)
  • 商业智能系统的主要功能包括数据仓库、数据ETL、数据统计输出、分析功能

    ETL服务内容包含: 数据迁移 数据合并 数据同步 数据交换 数据联邦 数据仓库

    2024年02月07日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包