不会数学统计没关系——5分钟教你轻松掌握箱线图

这篇具有很好参考价值的文章主要介绍了不会数学统计没关系——5分钟教你轻松掌握箱线图。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

箱线图也称箱须图、箱形图、盒图,用于反映一组或多组连续型定量数据分布的中心位置和散布范围。箱形图包含数学统计量,不仅能够分析不同类别数据各层次水平差异,还能揭示数据间离散程度、异常值、分布差异等等。

小小箱子,大大信息量

箱线图(Box plot)也称箱须图(Box-whisker Plot)、箱线图、盒图,可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围,因形状如箱子而得名。1977年,美国著名数学家John W. Tukey首先在他的著作《Exploratory Data Analysis》中介绍了箱形图。

如何看箱型图,大数据,数据分析

图片来源:CHAPTER 1. EXPLORATORY DATA ANALYSIS

注:

连续型数据:在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的。例如,生产零件的规格尺寸,人体测量的身高、体重等,其数值只能用测量或计量的方法取得。可视化这类数据的图表主要有箱形图和直方图。

离散型数据:数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,数值一般用计数方法取得。大多数图表可视化的都是这类数据,比如柱状图、折线图等。

如何看箱型图,大数据,数据分析

在箱线图中,箱子的中间有一条线,代表了数据的中位数。箱子的上下底,分别是数据的上四分位数(Q3)和下四分位数(Q1),这意味着箱体包含了50%的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。上下边缘则代表了该组数据的最大值和最小值。有时候箱子外部会有一些点,可以理解为数据中的“异常值”。

由于箱线图不像柱状图、折线图那样简单常见,许多人都对它敬而远之。但只要我们搞清楚了以下几个统计学的基本概念,箱线图也可以变得“平易近人”。

01 四分位数

一组数据按照从小到大顺序排列后,把该组数据四等分的数,称为四分位数。第一四分位数 (Q1)、第二四分位数 (Q2,也叫“中位数”)和第三四分位数 (Q3)分别等于该样本中所有数值由小到大排列后第25%、第50%和第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(interquartile range, IQR)。

02 偏态

与正态分布相对,指的是非对称分布的偏斜状态。在统计学上,众数和平均数之差可作为分配偏态的指标之一:如平均数大于众数,称为正偏态(或右偏态);相反,则称为负偏态(或左偏态)。

魔法箱子,会用才是王道

箱线图包含的元素虽然有点复杂,但也正因为如此,它拥有许多独特的功能:

01 直观明了地识别数据批中的异常值

箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。

02 判断数据的偏态和尾重

对于标准正态分布的大样本,中位数位于上下四分位数的中央,箱形图的方盒关于中位线对称。中位数越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。

03 比较多批数据的形状

箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线(也就是“须”)越短也说明数据集中。

凭借着这些“独门绝技”,箱线图在使用场景上也很不一般,最常见的是用于质量管理、人事测评、探索性数据分析等统计分析活动。

案例1:职员薪酬分布

下图是不同地区数据分析师的薪酬统计情况。

如何看箱型图,大数据,数据分析

图中的红线显然是各个城市中游水平的数据分析师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的数据分析师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于数据分析师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制。

案例2:学生成绩分布

分析不同学年、不同科目的学生成绩也是箱线图的常见应用场景。下图中我们可以看到学生的英语成绩相对其它科目普遍较好,而数学则大部分都出于80分以下。

如何看箱型图,大数据,数据分析

有时候我们会发现箱形图的某一部分仿佛被隐藏了,比如下图的第一个箱子。

制图工具:镝数图表-在线动态图表工具-零代码数据大屏可视化 (dycharts.com)

除此之外还有一些极端情况,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多异常值。这些情况的出现,有两个常见的原因。第一,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二,样本数据特别少,因此箱体受单个数据的影响被放大了。

案例3:运动员水平分析

下面是一个箱线图演变过来的案例。从图中我们可以看到,在速度、敏捷、爆发、力量和身体指标五个方面近十年NBA选秀体侧数据的最值、正常水平(盒身)和中值(中位数),其中黄色标注的是周琦的个人数据。

如何看箱型图,大数据,数据分析

如何看箱型图,大数据,数据分析

综合来看,周琦的体测数据基本达到了NBA中锋的正常水准。在绕桩变向和禁区折返跑这两项敏捷度测试中,周琦表现不俗,有着超越常规NBA中锋的水准。中锋最重要的垂直纵跳一项,周琦也超出了联盟中锋的正常范围。身体素质上,周琦的身高臂展以及体脂水平都可以算得上顶尖。然而从体重这一项我们可以推测,周琦最大的问题在于他的力量。他必须尽快增重,增强自己的身体对抗能力以适应NBA的对抗强度。

案例4:科学研究分析

箱形图最初的诞生无疑是为科研工作量身打造的,在诸多论文中都可以看到箱形图的使用。下图显示了世界各地地表水中29种不同个人护理产品的浓度分布情况。针对所测量的个人护理产品,中位数浓度通常在0.01和0.1 μg / L之间。

如何看箱型图,大数据,数据分析

图片来源:著名科学传播网站AtlasfScience

箱子虽好,别傻傻分不清楚

1. 误差线

一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。

如何看箱型图,大数据,数据分析

2. K线图

K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。具体含义如下:

如何看箱型图,大数据,数据分析

如何看箱型图,大数据,数据分析

值得注意的是,箱形图更多用于多组数据的比较,相对直方图不仅节省了空间,还可以展示出许多直方图不能展示的信息。单组数据则更适合采用直方图,使可视化效果更加直观。文章来源地址https://www.toymoban.com/news/detail-824247.html

到了这里,关于不会数学统计没关系——5分钟教你轻松掌握箱线图的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Nginx + Spring Boot 轻松实现负载均衡,还有谁不会??

    来源:虚无境的博客 地址:www.cnblogs.com/xuwujing/p/11953697.html 在介绍Nginx的负载均衡实现之前,先简单的说下负载均衡的分类,主要分为 硬件负载均衡和软件负载均衡 ,硬件负载均衡是使用专门的软件和硬件相结合的设备,设备商会提供完整成熟的解决方案,比如F5,在数据的

    2024年02月08日
    浏览(40)
  • 他们在学校里不会教你的编程原则

    在大学的时候,学校一般只会教你你写编程语言,比如C、C++、JAVA等编程语言。但是当你离开大学进入这个行业开始工作时,才知道编程不只是知道编程语言、语法等,要想写好代码,必须还要了解一些编程原则才行。本文主要讨论 KISS 、 DRY 和 SOLID 这些常见的编程原则,而

    2024年02月06日
    浏览(42)
  • 如何保证三个线程按顺序执行?不会我教你

    👨‍🎓作者:bug菌 ✏️博客:CSDN、掘金、infoQ、51CTO等 🎉简介:CSDN|阿里云|华为云|51CTO等社区博客专家,历届博客之星Top30,掘金年度人气作者Top40,51CTO年度博主Top12,掘金 | InfoQ | 51CTO等社区优质创作者,全网粉丝合计 15w+   ;硬核微信公众号「猿圈奇妙屋」,欢迎你的

    2024年02月07日
    浏览(47)
  • Jmeter书中不会教你的(67)——JDBC连接

    之前讲过入参数据可以通过引用csv data set config中的变量进行参数化,csv中的文件其实就是数据源,今天再讲一种获取数据方式,可以通过jdbc request直接连接mysql数据库来获取。 在jdbc request之前需要做准备工作:.        数据库连接需要一个驱动,MySQL :: Download MySQL Connector/

    2024年02月06日
    浏览(59)
  • 遇到Websocket就不会测了?别慌,学会这个Jmeter插件轻松解决....

    websocket 是一种双向通信协议,在建立连接后,websocket服务端和客户端都能主动向对方发送或者接收数据,而在http协议中,一个request只能有一个response,而且这个response也是被动的,不能主动发起。 websocket优势: 当服务器完成协议升级后(HTTP-Websocket),服务端就可以主动推

    2024年03月14日
    浏览(36)
  • 测试用例是什么?怎么写?不会测试用例的三分钟教会你

    今天笔者想和大家来聊聊测试用例,这篇文章主要是想要写给测试小伙伴们的,因为我发现还是有很多小伙伴在遇到写测试用例的时候无从下手,我就想和大家简单的聊聊,这篇文章主要是针对功能测试的哟。  在这篇文章的后面笔者给大家准备一份惊喜哟~     ↓ 测试用例

    2024年02月03日
    浏览(36)
  • 不会接口测试?用Postman轻松入门(四)——Post请求url格式请求体

    对HTTP协议报文有了充分了解之后,上一节我们对get请求进行了详尽的测试,由于get请求没有请求体,相对来说比较简单,接下来我们加上请求体,看看使用post接口如何完成各种不同类型请求体的请求操作。 需要注意的是,post请求也并不一定都有请求体,遇到没有请求体的

    2024年02月02日
    浏览(50)
  • 1分钟解决IntelliJ IDEA 控制台中文乱码,统一设置 utf-8,再也不会乱码了

    首发地址 https://it1314.top/article/776/ IntelliJ IDEA 如果不进行相关设置,可能会导致控制台中文乱码、配置文件中文乱码等问题,非常影响编码过程中进行问题追踪。本文总结了 IDEA 中常见的中文乱码解决方法,希望能够帮助到大家。 IDEA 中文乱码 一、设置字体为支持中文的字体

    2024年02月06日
    浏览(54)
  • SpringBoot系列(四十三):如何集成ElasticSearch,不会我教你|超级详细,建议收藏

            ElasticSearch是一款基于Lucene的开源搜索引擎,具有高效、可扩展、分布式的特点,可用于全文搜索、日志分析、数据挖掘等场景。Spring Boot作为目前最流行的微服务框架之一,也提供了对ElasticSearch的支持。本篇文章将介绍如何在Spring Boot项目中整合ElasticSearch,并展

    2023年04月09日
    浏览(54)
  • Helm Chart三分钟轻松掌握

    ​ 我们的日常工作中需创建、修改和部署Helm Chart,以管理应用程序的部署。Helm是Kubernetes的应用程序包管理器,它负责协调应用程序的下载、安装和部署。 chart就是一个描述Kubernetes相关资源的文件集合。 ​ 那么为什么会有人使用 Helm 呢? Helm 通过模板化方法在 Kubernetes 中更

    2023年04月09日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包