数据挖掘(4.1)--分类和预测

这篇具有很好参考价值的文章主要介绍了数据挖掘(4.1)--分类和预测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

一、分类和预测

分类

预测

二、关于分类和预测的问题

准备分类和预测的数据

评价分类和预测方法

混淆矩阵

评估准确率

参考资料


前言

分类:离散型、分类新数据

预测:连续型、预测未知值

描述属性:连续、离散

类别属性:离散

有监督学习:

分类

训练样本有标签

对未知数据分类

无监督学习:

聚类

无标签

划分存在的聚类

一、分类和预测

分类

分类过程是一个两步的过程。第一步是模型建立阶段,或者称为训练阶段,这一步的目的是描述预先定义的数据类或概念集的分类器。在这一步会使用分类算法分析已有数据(训练集)来构造分类器。训练数据集由一组数据元组构成,每个数据元组假定已经属于一个事先指定的类别(由类别标记属性确定)。

数据挖掘(4.1)--分类和预测

在分类的第二步,需要使用第一步得到的分类器进行分类,从而评估分类器的预测准确。具体来说,由一组检验元组和相关联的类别标记所组成的测试数据集。

数据挖掘(4.1)--分类和预测

在机器学习中,分类也往往称为有监督学习,“有监督”指的是用于训练的数据元组的类别标记是已知的,新的数据基于训练数据集进行分类。与之对应的是聚类,在机器学习中称为无监督学习,“无监督"指的是用于训练的数据元组的类别标记是未知的,这种学习旨在识别隐含在数据中的类或簇。

预测

数据预测也是一个两步过程。与数据分类不同的是,对于所需要预测的属性值是连续值,而且是有序的;分类所需要预测的属性值是离散的、无序的。预测器与分类器类似,也可以看作一个映射或者函数y= f(x),其中x是输人元组,输出y是连续的或有序的值。与分类相同,测试数据集与训练数据集在预测任务中也应该是独立的。预测的准确率通过对每个检验元组r,利用y的预测值与实际已知值的差来评估。

二、关于分类和预测的问题

准备分类和预测的数据

对分类和预测所使用的数据进行预处理,预处理一般可以分为以下三个步骤:
(1)数据清理。主要目的是减少数据噪声和处理缺失值。

尽管大部分分类算法都有某种处理噪声和缺失值的机制,但是该步骤有助于减少学习时的混乱。
(2)相关分析。目的是移除数据中不相关或冗余的属性。

这样可以加快分类器训练速度,提高分类器准确率。
(3)数据转换。目的是泛化或规范化数据。

这种距离度量方法可以避免受不同属性不同初始值范围对度量结果的影响。

评价分类和预测方法

(1)准确率。

分类准确率指分类器预测新的或先前未出现过的数据元组的类别标记的能力。预测器的准确率指预测器猜测新的或先前未出现过的数据元组的预测属性值的准确程度。
(2)速度。

指建立模型(训练)和使用模型(分类/预测)的时间开销。
(3)鲁棒性。

指分类器或预测器处理噪声值或缺失值数据的能力。
(4)可伸缩性。

指针对大规模数据、分类器或预测器的处理能力。
(5)可解释性。

指分类器或预测器所提供的可理解和洞察的程度。

分类器或预测器在检测集上的准确率和错误率是两个常用的度量准则。检测集上的准确率指的是检测集中被正确分类或预测的元组所占的比例。相反,检测集上的错误率指的是检测集中被错误分类或预测的元组所占的比例。

混淆矩阵

数据挖掘(4.1)--分类和预测

 一个分析分类器识别不同元组情况的有用工具。

真正(TruePositives)指分类器正确标记的正元组.TP

真负(TrueNegatives)是指分类器正确标记的负元组。TN

假正(FalsePositives)是错误标记的负元组,FP

假负(FalseNegatives)是错误标记的正元组。FN

正确率:

数据挖掘(4.1)--分类和预测

准确率:

数据挖掘(4.1)--分类和预测

评估准确率

保持、随机子抽样、交叉验证是常用的基于给定数据的随机抽样划分,评估准确率的常用技术。这些技术的使用会增加总体计算开销,但是会有利于模型选择。

保持方法是一般讨论准确率默认的方法。这种方法将给定数据分为两个独立的集合:训练数据集和测试数据集。一般2/3的数据作为训练数据集,1/3的数据作为测试数据集。训练数据集用来建立模型,而准确率通过测试数据集来评估。

随机子抽样方法是保持方法的简单变形,它将保持方法重复k次,总的准确率估计取每次迭代准确率的平均值。

在k-交叉检验中,初始数据随机划分为k个互不相交的子集S1,S2,..Sk,每个子集的大小大致相等。训练和测试进行k次。在第i次迭代,子集Si用作测试集,其余的子集用来训练模型。

参考资料

《数据挖掘:方法与应用》徐华著文章来源地址https://www.toymoban.com/news/detail-419837.html

到了这里,关于数据挖掘(4.1)--分类和预测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HNU-数据挖掘-实验4-链接预测

    计科210X 甘晴void 202108010XXX 节点分类(Node Classification)是图/图谱数据上常被采用的一个学习任务,既是用模型预测图中每个节点的类别。链接预测(Link Prediction)一般指的是,对存在多对象的总体中,每个对象之间的相互作用和相互依赖关系的推断过程。 利用已经掌握的深

    2024年01月22日
    浏览(54)
  • 数据分析与数据挖掘实战案例本地房价预测(716):

    2022 年首届钉钉杯大学生大数据挑战赛练习题目 练习题 A:二手房房价分析与预测 要点: 1、机器学习 2、数据挖掘 3、数据清洗、分析、pyeahcrs可视化 4、随机森林回归预测模型预测房价 1、读入数据、清洗数据: 2、解决相关问题: (一) 根据附件中的数据集,将二手房数据

    2024年02月07日
    浏览(55)
  • kaggle新赛:写作质量预测大赛【数据挖掘】

    赛题名称: Linking Writing Processes to Writing Quality 赛题链接: https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality 写作过程中存在复杂的行为动作和认知活动,不同作者可能采用不同的计划修订技术、展示不同的停顿模式或在全过程中策略性地分配时间,这些都可能影

    2024年02月07日
    浏览(44)
  • 数据挖掘(5.1)--贝叶斯分类

    目录 前言 正文 1.主观概率 2.贝叶斯定理 1.基础知识 2.贝叶斯决策准则 3.极大后验假设 4.例题 2.朴素贝叶斯分类模型 朴素贝叶斯分类器的算法描述: 朴素贝叶斯算法特点 3.贝叶斯信念网 贝叶斯网络的建模包括两个步骤  贝叶斯信念网特点 开往夏天的列车 贝叶斯分类方法是统

    2024年02月06日
    浏览(108)
  • 数据挖掘:心脏病预测(测评指标;EDA)

    目录 一、前期准备 二、实战演练 2.1分类指标评价计算示例  2.2数据探索性分析(EDA) 2.2.1 导入函数工具箱 2.2.2 查看数据信息等相关数据 判断数据缺失和异常 数字特征相互之间的关系可视化  类别特征分析(箱图,小提琴图,柱形图)  2.2.3特征与标签构建 2.3模型训练与预

    2024年02月03日
    浏览(45)
  • Python【二手车价格预测案例】数据挖掘

    随着代步工具的普及,“买卖车”需求激增。但对于部分预算有限的个体或家庭而言,购置一辆二手车更为明智。二手车的巨大供给需求催生了近年来日益壮大的二手车市场,但二手车的售卖面临着价格漂浮的问题。 因此,我们的目标是根据卖家或买家提供的参数信息计算价

    2023年04月09日
    浏览(56)
  • 用银行营销数据学习数据挖掘:探索预测客户购买行为的模型

    来源: UCI Machine Learning Repository (UCI Machine Learning Repository) 数据集信息: 这份数据与葡萄牙银行机构的直接营销活动有关。这些营销活动基于电话呼叫。通常需要多次联系同一客户,以确定是否会订阅产品(银行定期存款)。 属性信息: 输入变量: 1-age:年龄(数值型)

    2024年02月08日
    浏览(47)
  • 基于数据挖掘的共享单车骑行数据分析与预测

      完整代码下载: https://download.csdn.net/download/andrew_extra/88612623 共享单车系统在大城市越来越流行,通过提供价格合理的自行车租赁,让人们可以享受在城市里骑自行车的乐趣,而无需为自己购买自行车。本项目利用 Nice Ride MN 在双子城(明尼苏达州明尼阿波利斯市/圣保罗市)

    2024年02月11日
    浏览(42)
  • Python深度数据挖掘之电力系统负荷预测

      本案例将根据已收集到的电力数据,深度挖掘各电力设备的电流、电压和功率等情况,分析各电力设备的实际用电量,进而为电力公司制定电能能源策略提供一定的参考依据。更多详细内容请参考《Python数据挖掘:入门进阶与实用案例分析》一书。   为了更好地监测用

    2024年02月08日
    浏览(45)
  • 数据挖掘:汽车车交易价格预测(测评指标;EDA)

    目录 一、前期工作 1.赛题介绍  赛题分析: 分类和回归问题的评价指标有如下一些形式: (下文2.1和2.2会用到) 2.数据简介 3.探索性分析-EDA介绍 二、实战演练 2.1分类指标评价计算示例  2.2回归指标评价计算示例 2.3数据探索性分析(EDA) 2.3.1 导入函数工具箱 2.3.2 数据信息

    2024年02月04日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包