【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)

这篇具有很好参考价值的文章主要介绍了【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

觉得有帮助请点赞关注收藏~~~

一、属性及其类型

属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。

属性类型:属性的取值范围决定了属性的类型 一类是定性描述的属性 一类是定量描述的属性

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

 1. 标称属性

标称属性(Nominal Attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又可称为是分类的(Categorical)。

标称属性的值是枚举的,可以用数字表示这些符号或名称。常见的标称属性如姓名、籍贯、邮政编码或婚姻状态等。标称属性的值不仅仅是不同的名字,它提供了足够的信息用于区分对象

2. 二元属性

二元属性(Binary Attribute)是标称属性的特例,也是一种布尔属性,对应0和1两个状态。

二元属性分为对称的和非对称的。如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性。一个非对称的二元属性其状态的结果不是同样重要的,如病毒检测的阳性和阴性结果。为了方便,用1对重要结果(通常是稀有的)编码,另一个用0编码。

3. 序数属性

序数属性(Ordinal Attribute)的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的。

常见的序数属性如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应属性的取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。

4. 数值属性

数值属性(Numeric Attribute)是可以度量的量,用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。

区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。

二、数据的基本统计描述

把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。

把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。

中心趋势度量:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。中心趋势度量就是寻找数据水平的代表值或中心值。中心趋势度量包括均值、中位数、众数和中列数。

1.均值:数据集“中心”的最常用的数值度量是(算术)均值。

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

均值是描述数据集的最常用统计量,但它并非度量数据中心的最佳方法,主要原因是均值对噪声数据很敏感。

2. 中位数:中位数(Median)又称中点数或中值

在概率论与统计学中,中位数一般用于数值型数据。在数据挖掘中可以把中位数推广到序数型数据中。

当数据量很大时,中位数的计算开销会很大,此时可以采用近似估计的方法。假定数据可以根据数值划分为区间,并且知道每个区间的数据个数,可以使用如下公式计算中位数:

 二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析 

 例:某企业50名工人加工零件的数据如表3-1所示,计算加工零件数值的中位数。

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

可以算出中位数的位置是25 在120-125这一组 由上面公式可以近似计算得到中位数为123.31

 3. 众数:众数(Mode)是一组数据中出现次数最多的数值。 具有一个、两个或三个众数的数据集分别称为单峰(Unimodal)、双峰(Bimodal)和三峰(Trimodal)。一般具有两个或以上众数的数据集是多峰的(Multimodal)。在极端情况下,如果每个数值只出现一次则它没有众数。

对于非对称的单峰型数据集,一般有下面的经验关系:

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

4. 中列数:中列数(Midrange)是数据集中的最大值和最小值的平均值,也可以度量数值数据的中心趋势。

利用pandas统计中位数、均值和众数

import pandas as pd
df=pd.DataFrame([[1,2],[7.-4],[3,9],[4,-4],[1,3]].columns=['one','two']
print(df.median())
print(df.max(axis=1))
print(df.mode())

 数据散布度量用于评估数值数据散布或发散的程度。散布度量的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度通过度量散布趋势。

数据散布度量包括极差、分位数、四分位数、百分位数和四分位数极差。方差和标准差也可以描述数据分布的散布。

极差、四分位数和四分位数极差

极差(Range)又称范围误差或全距,是一组观测值的最大值与最小值之间的差距。极差是标志值变动的最大范围,它是测定标志变动的最简单的指标。

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

第1个和第3个分位数之间的距离为四分位数极差

统计数据的分位数等统计量 调用describe函数即可

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

 五数概括、盒图与离群点

五数概括法即用下面的五个数来概括数据,分别是最小值、第1 四分位数(Q1)、中位数(Q2)、第3 四分位数(Q3)和最大值

二元属性,数据挖掘,人工智能,python,数据挖掘,数据分析

盒图的边界分别为第一四分位数和第三四分位数

在箱体上中位数即第二四分数处画垂线

虚线被称为触须线,触须线的端点为最小值和最大值

利用四分位数间距IQR = Q3-Q1,找到界限,超出即为异常值

IQR左 = Q1 - 1.5×IQR IQR右 = Q3 + 1.5×IQR 

创作不易 觉得有帮助请点赞关注收藏~~~文章来源地址https://www.toymoban.com/news/detail-763411.html

到了这里,关于【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-4科研实践:数据可视化、统计分析、编程、机器学习数据挖掘、数据预处理、代码优化、科研方法论

    查看原文GPT4科研实践技术与AI绘图 GPT对于每个科研人员已经成为不可或缺的辅助工具,不同的研究领域和项目具有不同的需求。 例如在科研编程、绘图领域 : 1、编程建议和示例代码:  无论你使用的编程语言是Python、R、MATLAB还是其他语言,都可以为你提供相关的代码示例。

    2024年02月07日
    浏览(63)
  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(63)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(56)
  • 【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

    目录 一、导入数据  二、数据查看 可视化缺失值占比  绘制所有变量的柱形图,查看数据 查看各特征与目标变量price的相关性 三、数据处理  处理异常值 查看seller,offerType的取值 查看特征 notRepairedDamage   异常值截断  填充缺失值   删除取值无变化的特征 查看目标变量p

    2023年04月27日
    浏览(61)
  • 数据挖掘(3.1)--频繁项集挖掘方法

    目录 1.Apriori算法 Apriori性质 伪代码 apriori算法 apriori-gen(Lk-1)【候选集产生】 has_infrequent_subset(c,Lx-1)【判断候选集元素】 例题 求频繁项集: 对于频繁项集L={B,C,E},可以得到哪些关联规则: 2.FP-growth算法 FP-tree构造算法【自顶向下建树】 insert_tree([plP],T) 利用FP-tree挖掘频繁项集

    2023年04月09日
    浏览(55)
  • 数据仓库与数据挖掘

    数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、

    2024年02月06日
    浏览(49)
  • 数据挖掘与图像挖掘:计算机视觉的创新

    计算机视觉是人工智能领域的一个重要分支,它涉及到计算机对图像和视频数据进行分析和理解。数据挖掘则是数据科学领域的一个核心技术,它涉及到从大量数据中发现隐藏的模式和规律。随着数据量的增加,数据挖掘技术在计算机视觉领域得到了广泛应用,以提高计算机

    2024年04月17日
    浏览(50)
  • 《数据挖掘基础》实验:Weka平台实现关联规则挖掘

    进一步理解关联规则算法(Apriori算法、FP-tree算法),利用weka实现数据集的挖掘处理,学会调整模型参数,读懂挖掘规则,解释规则的含义 (1)随机选取数据集为对象,完成以下内容:(用两种方法:Apriori算法、FP-tree算法) 文件导入与编辑; 参数设置说明; 结果截图;

    2024年02月02日
    浏览(58)
  • 数据仓库与数据挖掘小结

    更加详细的只找得到pdf版本  填空10分 判断并改错10分 计算8分 综合20分 客观题 填空10分 判断并改错10分--错的要改 mooc中的--尤其考试题   名词解释12分 4个,每个3分 经常碰到的专业术语 简答题40分 5个,每道8分 综合 画 roc 曲线 类似于和计算相关的题目 C1 什么是数据挖掘?

    2024年01月22日
    浏览(50)
  • 数据挖掘(7.1)--数据仓库

    目录 引言 一、数据库 1.简介 2.数据库管理系统(DBMS) 二、数据仓库 数据仓库特征 数据仓库作用 数据仓库和DBMS对比 分离数据仓库和数据库 数据仓库的历史可以追溯到20世纪60年代,当时计算机领域的主要工作是创建运行在主文件上的单个应用,这些应用以报表处理和程序为特

    2024年02月08日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包