【数据挖掘】属性及其类型和数据的统计描述四分位数等详解（图文解释超详细）-Toy模板网

这篇具有很好参考价值的文章主要介绍了【数据挖掘】属性及其类型和数据的统计描述四分位数等详解（图文解释超详细）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

觉得有帮助请点赞关注收藏~~~

一、属性及其类型

属性：（Attribute）是一个数据字段，表示数据对象的一个特征。在文献中，属性、维（Dimension）、特征（Feature）和变量（Variable）表示相同的含义，可以在不同场合互换使用。

属性类型：属性的取值范围决定了属性的类型一类是定性描述的属性一类是定量描述的属性

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

1. 标称属性

标称属性（Nominal Attribute）的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又可称为是分类的（Categorical）。

标称属性的值是枚举的，可以用数字表示这些符号或名称。常见的标称属性如姓名、籍贯、邮政编码或婚姻状态等。标称属性的值不仅仅是不同的名字，它提供了足够的信息用于区分对象

2. 二元属性

二元属性（Binary Attribute）是标称属性的特例，也是一种布尔属性，对应0和1两个状态。

二元属性分为对称的和非对称的。如果属性的状态结果是同等重要的，如抛硬币的结果状态，则该属性是对称的二元属性。一个非对称的二元属性其状态的结果不是同样重要的，如病毒检测的阳性和阴性结果。为了方便，用1对重要结果（通常是稀有的）编码，另一个用0编码。

3. 序数属性

序数属性（Ordinal Attribute）的可能值之间存在有意义的序或秩评定，但是相继值之间的差是未知的。

常见的序数属性如上衣的尺寸有S、M、L、XL，可以用数字如1、2、3、4分别对应属性的取值。由于序数属性是有序的，它的中位数是有意义的，因此序数属性的中心趋势度量可以是众数和中位数。

4. 数值属性

数值属性（Numeric Attribute）是可以度量的量，用整数或实数值表示，常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。

区分区间标度和比率标度的原则是该属性是否有固有的零点，如摄氏温度没有固定的零点，其比值没有意义。所以是区间标度属性，而开式温度有固有的零点，比值有意义，是比率标度属性。

二、数据的基本统计描述

把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质，并凸显哪些数据应被视为噪声或离群点。

中心趋势度量：在统计学中是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。中心趋势度量就是寻找数据水平的代表值或中心值。中心趋势度量包括均值、中位数、众数和中列数。

1.均值：数据集“中心”的最常用的数值度量是（算术）均值。

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

均值是描述数据集的最常用统计量，但它并非度量数据中心的最佳方法，主要原因是均值对噪声数据很敏感。

2. 中位数：中位数（Median）又称中点数或中值

在概率论与统计学中，中位数一般用于数值型数据。在数据挖掘中可以把中位数推广到序数型数据中。

当数据量很大时，中位数的计算开销会很大，此时可以采用近似估计的方法。假定数据可以根据数值划分为区间，并且知道每个区间的数据个数，可以使用如下公式计算中位数：

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

例：某企业50名工人加工零件的数据如表3-1所示，计算加工零件数值的中位数。

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

可以算出中位数的位置是25 在120-125这一组由上面公式可以近似计算得到中位数为123.31

3. 众数：众数（Mode）是一组数据中出现次数最多的数值。具有一个、两个或三个众数的数据集分别称为单峰（Unimodal）、双峰（Bimodal）和三峰（Trimodal）。一般具有两个或以上众数的数据集是多峰的（Multimodal）。在极端情况下，如果每个数值只出现一次则它没有众数。

对于非对称的单峰型数据集，一般有下面的经验关系：

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

4. 中列数：中列数（Midrange）是数据集中的最大值和最小值的平均值，也可以度量数值数据的中心趋势。

利用pandas统计中位数、均值和众数

import pandas as pd
df=pd.DataFrame([[1,2],[7.-4],[3,9],[4,-4],[1,3]].columns=['one','two']
print(df.median())
print(df.max(axis=1))
print(df.mode())

数据散布度量用于评估数值数据散布或发散的程度。散布度量的测定是对统计资料分散状况的测定，即找出各个变量值与集中趋势的偏离程度通过度量散布趋势。

数据散布度量包括极差、分位数、四分位数、百分位数和四分位数极差。方差和标准差也可以描述数据分布的散布。

极差、四分位数和四分位数极差

极差（Range）又称范围误差或全距，是一组观测值的最大值与最小值之间的差距。极差是标志值变动的最大范围，它是测定标志变动的最简单的指标。

四分位数是将一组数据由小到大（或由大到小）排序后，用3个点将全部数据分为4等份，与这3个点位置上相对应的数值称为四分位数，分别记为Q1（第一四分位数），说明数据中有25%的数据小于或等于Q1，Q2（第二四分位数，即中位数）说明数据中有50%的数据小于或等于Q2、Q3（第三四分位数）说明数据中有75%的数据小于或等于Q3。其中，Q3到Q1之间的距离的差的一半又称为分半四分位差，记为（Q3-Q1）/2。

第1个和第3个分位数之间的距离为四分位数极差

统计数据的分位数等统计量调用describe函数即可

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析