数据分析概述

这篇具有很好参考价值的文章主要介绍了数据分析概述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据的性质

数据的概念

数据:就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。
在计算机系统中:各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。
在现实世界中:天气预报、居民身份证号码、快递单号和火车时刻表中都包含了大量的数据。

数据与信息的区别和联系

  • 数据是信息的表现形式和载体,信息则是数据的内涵
  • 数据与信息不可分离,信息依赖数据来表达,数据则生动具体表达信息
  • 数据是符号的,物理的;信息是用来决策、预测等对数据有意义的表示;

数据的类型

按照度量尺度分

定性数据(也称为计数数据,quantitative data)
a.度量事物进行分类的结果,数据表现为类别
b.用文字来表述。如性别、区域、产品分类等等
定量数据(也称为计量数据, data)
a.度量事物的精确测度,结果表现为具体的数值
b.用数字来表述。如身高、体重、家庭收入、成绩等
数据分析概述

按时间状况分

动态数据(也称为时间序列数据,time series data)
a.是按照一定的时间间隔对某一变量在不同时间的取值进行观测得到一组数据
b.反映在不同时间收集到的数据描述现象随时间变化的情况
例如,收集2001-2015年各季度我国各地区国内生产总值(GDP,单位:万亿元)的数据,这些数据变形成时间序列数据。
数据分析概述

什么是数据分析

数据分析的重要性

数据分析概述
数据分析概述

数据分析的内容

  • 数据分析是指根据分析目的,利用数学、统计学、计算机科学等相结合的科学统计分析方法,对业务系
    统、互联网上的结构化、半结构化和非结构化的数据进行分析,提取有价值的信息,并形成结论进行展 示的过程。
  • 数据分析的本质,是通过总结数据的规律,解决业务问题,以帮助在实际工作中的管理者做出判断和决 策。
  • 主要包括以下三个内容:
    • 现状分析:分析已经发生了什么
    • 原因分析:分析为什么会出现这种情况
    • 预测分析:分析未来可能发生什么

数据分析作用

(1)通过数据分析,可及时纠正不当的生产和营销措施。
(2)通过数据分析,可以对计划进度做到实时跟踪。
(3)通过数据分析,可以及时了解成本管制情况,掌握员工思想动态。
(4)完善的数据管理和分析,可以对生产流程进行科学管理,最大限度地降低生产管理风险。

数据分析的基本流程

典型的数据分析的流程

数据分析概述
业务理解:数据分析中的业务理解,也是明确需求,是数据分析环节的第一步和最重要的步骤之一,决定 了后续的分析的方向、方法。

数据获取:数据是数据分析工作的基础,是指根据需求分析的结果提取,收集数据。

数据处理:也叫数据预处理是指对数据进行规约、清洗、加工,使得整体数据变为干净整齐,可以直接用 于分析这一过程的总称。
数据分析:分析是指通过选择合适的分析方法和工具对数据进行分析建模,发现数据中的有价值信息,并得出结论的过程。
验证结果:数据分析的结果是数据主观结果的体现,需要通过真实场景或评测指标进行验证。
结果展示:以图表方式清晰、直观地呈现数据分析结果,便于理解

数据应用:也叫部署,是指将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。

数据分析方法

对比分析法

对比分析法也称为比较分析法,是把客观事物加以比较,以达到认识事物的本质和规律并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模有大小、水平和高低、速度的快慢,以及各种关系是否协调。
对比分析可以选择不同的维度进行分析,常用的有以下维度。
(1)时间维度
(2)空间维度
(3)计划目标标准维度
(4)经验与理论标准维度

分组分析法

分组分析法是根据数据分析对象的特征,按照一定的指标,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。分组的目的是为了便于对比,因此分组法要和对比法结合运用。分组分析法的关键在于确定组数与组距。
组距分组步骤:
1.确定组数,根据数据的本身特点来确定,组数不能太多也不能太少
2.确定各组的组距。 组距=(最大值-最小值)/组数
3.根据组距的大小,对数据进行分组整理,划归至相应组内。

定量数据分布分析——具体事例

下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
数据分析概述
第一步:求极差
极差 = 最大值 - 最小值 = 3960-45=3915
第二步:分组
这里根据业务数据的含义,可取组距为500。
组数 = 极差/组距 = 3915/500=7.83=8
第三步:决定分点,如下表:
数据分析概述
第四步:绘制频率分布直方图
根据分组区间得到如下表的频率分布表,见下表。其中,第1列把数据所在的范围分成的若干组段,第1个组段要包括最小值,最后一个组段要包括最大值,习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列是累计频率,是否需要该列,视情况而定。
数据分析概述
第五步:绘制频率分布直方图
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表3‑3的数据可绘制成频率分布直方图,见图:
数据分析概述

结构分析法

结构分析法是指分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
结构相对指标(比例)的计算公式:
结构相对指标(比例)=(总体某部分的数值/总体总量)×100%
市场占有率=(某种商品销售量/该种商品市场销售总量)×100%

平均分析法

平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象的不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
算术平均数的计算公式:
算术平均数=总体各单位数值的总和/总体单位个数
特点:
算术平均数是非常重要的基础性指标。平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。

矩阵关联分析法

根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也成为矩阵关联分析方法。
数据分析概述
(1)第一象限(高度关注区):属于重要性高、满意度也高的象限。
(2)第二象限(优先改进区):属于重要性高、但满意度低的象限。
(3)第三象限(无关紧要区):属于重要性低、满意度也低的象限。
(4)第四象限(维持优势区):属于重要性低、满意度高的象限。

高级数据分析法

  • 聚类分析
  • 相关分析
  • 回归分析

数据分析的常用工具

目前主流的数据分析语言有R, Python, MATLAB三种程序语言。
数据分析概述
Python 数据分析主要包含以下 5 个方面优势
语法简单精练。对于初学者来说,比起其他编程语言, Python更容易上手。

有很强大的库。可以只使用Python这一种语言去构建以数据为中心的应用程序。

功能强大。 Python是一个混合体,丰富的工具集使它介于传统的脚本语言和系统语言之间。 Python不仅具 备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
➢ 不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
Python是一门胶水语言。 Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。

数据分析的开发环境

数据分析概述文章来源地址https://www.toymoban.com/news/detail-469182.html

到了这里,关于数据分析概述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • R语言实验1 :数据的描述性分析

    实验 1     数据的描述性分析 一、实验目的 1. 掌握理解均值、方差等一系列统计相关概念。 2. 加深对散点图、直方图、相关系数等概念的理解。 3. 熟悉R语言等语言的集成开发环境。 二、实验分析与内容 完成教材P37第6题。 题目如下: ( 1 )(1)分别计算数学成绩和统计学成

    2024年01月18日
    浏览(49)
  • 数据分析讲课笔记01:数据分析概述

    理解数据分析背景 :学生将能够阐述大数据时代对数据分析的影响,以及数据分析在商业决策、科研发现、产品优化等方面的重要作用。 掌握数据分析基本概念与分类 :学生应能清晰定义数据分析的概念,并能区分描述性数据分析(用于总结和解释数据集的特征)、探索性

    2024年02月01日
    浏览(53)
  • 【100天精通Python】Day57:Python 数据分析_Pandas数据描述性统计,分组聚合,数据透视表和相关性分析

    目录 1 描述性统计(Descriptive Statistics) 2 数据分组和聚合 3 数据透视表 4 相关性分析

    2024年02月07日
    浏览(60)
  • 完整数据分析体系概述

    满足业务需求,是建设数据分析体系的出发点,也是最终目的和最高要求。要注意的是,“业务需求”并没有统一的标准。不同部门,不同身份的人,需求是不一样的。从大的方面看,可以分作三个层级: 1、战略级:能决定公司整体方向的高级管理层 2、战术级:决定一个具

    2024年02月01日
    浏览(35)
  • 数据分析概述

    数据 :就是描述事物的符号,是对客观事物的性质、 状态和相互关系等进行记载的物理符号或者是这些物理符号的组合。 在计算机系统中 :各种文字、字母、数字符号的组合,图形、图像、视频、音频等统称为数据,数据经过加工后就成为了信息。 在现实世界中 :天气预

    2024年02月07日
    浏览(35)
  • 讲课笔记01:数据分析概述

    2023年06月20日
    浏览(46)
  • 第3章-指标体系与数据可视化-3.2-描述性统计分析与绘图

    目录 变量的度量类型 变量的分布类型 正态分布 对数正态分布  伽马分布

    2024年02月07日
    浏览(41)
  • 大数据---聚类分析概述及聚类评估

    是把数据对象集合按照相似性划分成多个子集的过程。 每个子集是一个簇(cluster),分类的最终效果:使得簇中的对象彼此相似,但与其他簇中的对象相异。 聚类是无监督学习,因为给的数据没有类标号信息。 分类 有监督学习; 通过带标签的样本进行学习,生成分类模型

    2024年02月03日
    浏览(43)
  • Python数据分析 — 数据分析概念、重要性、流程和常用工具

    前言: Hello大家好,我是小哥谈。 Python数据分析是利用Python编程语言进行数据处理、转换、清洗、可视化和建模的过程。Python在数据科学领域非常流行,有许多强大的库和工具可供使用,例如NumPy、Pandas、Matplotlib和Scikit-learn等。这些库提供了丰富的功能和方法,使得处理和分

    2024年02月09日
    浏览(45)
  • Python爬虫数据分析的基本概念

    Python爬虫数据分析是一种利用Python编程语言和相关的库来获取互联网上的数据,并对数据进行处理、分析和可视化的技术。Python爬虫数据分析技术在数据挖掘、商业智能、市场调研、舆情分析等领域都有广泛的应用。本文将介绍Python爬虫数据分析的基本概念、常用库和实战案

    2024年02月06日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包