2023广工数据挖掘复习重点精讲

这篇具有很好参考价值的文章主要介绍了2023广工数据挖掘复习重点精讲。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

重点

image.png

第一章

数据挖掘定义

image.png

数据挖掘任务

分类、聚类、回归、关联、离群点检测、演化、序列模式挖掘

  • 分类:通过分析示例数据库中的数据为每个类别做出准确的描述和建立分析模型或挖掘出分类规则,然后用此规则对其他数据库的记录进行分类
  • 聚类:试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中
  • 回归:确定两种或两种以上变量间相互依赖的定量关系的一种分析方法
  • 关联: 发现特征之间的相互依赖关系 通常是从给定的数据集中发现频繁出现的模式知识(又称为 关联规则)。

image.png

知识发现过程:

①数据清洗:清除数据噪声和与挖掘主题明显无关的数据
②数据集成:将来自多个数据源中的相关数据组合到一起
③数据选择:根据数据挖掘的目标选取待处理的数据
④数据转换:将数据转换为易于进行数据挖掘的数据存储形式
⑤数据挖掘:利用智能方法挖掘数据模式或规律知识
⑥模式评估:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
⑦知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识
数据挖掘过程【商业角度】

  1. 数据收集和预处理
  2. 知识提取
  3. 知识辅助决策

image.png

(1)
在数据挖掘中,与谚语“蜜蜂归窠迟,来日好天气”和“蚯蚓爬上路,雨水乱如麻”中的人类思维过程最相关的任务是序列模式挖掘。
序列模式挖掘是一种数据挖掘任务,旨在从有序数据序列中发现频繁出现的模式或规则。它适用于时间序列、文本数据、日志记录等场景,其中数据具有固定的顺序关系。
谚语中所描述的情景涉及到某种顺序和时间上的关联,即蜜蜂归巢和好天气之间的关系,以及蚯蚓爬行和雨水乱如麻之间的关系。这种思维过程涉及到对事件之间的顺序和时序关系的感知和理解。
序列模式挖掘的目标就是从序列数据中提取出这种顺序关系,发现频繁出现的模式或规则。通过分析序列数据中的模式,我们可以了解事件之间的顺序关系和可能的因果关系,类似于人类思维中观察事件的顺序和推断可能的结果。
因此,序列模式挖掘任务与谚语中的人类思维过程具有一定的相似性,可以帮助我们揭示事件之间的顺序关系,并从中推断可能的结果或趋势。
(3)分类与回归的区别
分类和回归是两种常见的有监督学习任务,它们的主要区别在于输出结果的性质。
分类任务是一种有监督学习任务,旨在将实例分到预定义的类别中。其输出是离散的类别标签。分类任务的目标是根据已知的输入特征来建立一个模型,使其能够将新的实例正确分类到预定义的类别中。分类问题的例子包括垃圾邮件分类、图像识别(将图像分为不同的物体类别)、疾病预测(将患者分为不同的疾病类别)等。
回归任务也是一种有监督学习任务,其目标是预测一个连续的数值输出。回归任务通过建立输入特征和对应的输出之间的关系来进行预测。回归问题的例子包括房价预测(根据房屋的各种特征预测价格)、销售量预测(根据市场因素预测产品的销售量)等。
区别总结如下:

  • 分类任务的输出是离散的类别标签,而回归任务的输出是连续的数值。
  • 分类任务的目标是将实例分到预定义的类别中,而回归任务的目标是预测数值输出。

至于分类算法属于有监督算法还是无监督算法,分类算法属于有监督算法。有监督学习是一种利用已标记的训练数据进行模型训练的方法,其中训练数据包括输入特征和对应的输出标签(类别标签)。分类算法通过使用有标签的训练数据来构建模型,以便对未标记的数据进行分类预测。

image.png
image.png
image.png
image.png

(1)数据挖掘的过程:
知识发现过程的1-7
(2)为了对银行的储蓄客户进行细分,以下是一个基本的数据挖掘方法的工作步骤:

  1. 数据清洗:
    • 清除数据中的噪声和异常值。
    • 处理缺失值,可以使用填充方法进行处理。
    • 剔除与储蓄客户细分明显无关的数据。
  2. 数据集成:
    • 从不同的数据源中收集与储蓄客户相关的数据,如个人信息、交易记录、储蓄账户信息等。
    • 将这些数据集成到一个统一的数据集中。
  3. 数据选择:
    • 根据银行储蓄客户细分的目标,选择与细分任务相关的数据。
    • 例如,可以选择与客户年龄、收入、存款金额、交易频率等相关的数据。
  4. 数据转换:
    • 对选定的数据进行转换,以便于进行数据挖掘。
    • 可以进行特征工程,提取客户的关键特征,如平均存款金额、交易频率等。
    • 标准化数据,使得不同特征具有相同的尺度。
  5. 数据挖掘:
    • 使用适当的数据挖掘算法,如聚类、分类、关联规则挖掘等,来发现储蓄客户的细分模式或规律。
    • 可以尝试不同的算法和参数组合,进行实验和比较。
  6. 模式评估:
    • 根据预先设定的评估标准,对挖掘结果进行评估。
    • 筛选出有意义且与银行需求相关的细分模式或规律。
  7. 知识表示:
    • 使用可视化和知识表达技术,向银行提供所挖掘的相关知识。
    • 可以通过报表、图表、可视化图像等方式向银行展示不同储蓄客户细分的特征和结果。

这些步骤提供了一个基本的框架,银行可以根据实际情况和需求进行调整和扩展,以实现对储蓄客户的细分分析。
(3)离群点和噪声点的区别:

  1. 定义:
    • 离群点(Outliers):离群点是指与其他数据点明显不同的数据点,它们在数据集中远离其他数据点或者与大多数数据点具有明显不同的特征。
    • 噪声点(Noise):噪声点是指数据中的随机、无意义或不相关的异常值,它们可能是由于数据收集过程中的错误、测量误差、数据传输问题或其他不确定因素引起的。
  2. 影响程度:
    • 离群点:离群点对数据集的整体模式和结构具有较大的影响,可以对数据分析和挖掘结果产生较大的扰动。
    • 噪声点:噪声点通常是孤立的,对整体数据集的分析和挖掘影响较小。
  3. 处理方式:
    • 离群点:离群点可以被视为特殊情况或异常情况,可能包含有用的信息。在某些情况下,可以选择保留离群点或将其作为独立的类别进行处理。然而,在其他情况下,离群点可能会被视为异常值,并被删除或进行异常值处理。
    • 噪声点:噪声点通常被认为是无效的或不相关的数据,一般会被视为干扰信号。处理噪声点的常见方法是进行数据清洗,通过修正、删除或替换噪声数据来净化数据集。

总结而言,离群点是与其他数据点明显不同的数据点,对整体模式和结构有较大影响;而噪声点是随机或无意义的异常值,对整体数据集影响较小。在数据分析和挖掘中,离群点可能包含有用信息,而噪声点通常需要进行清洗和处理。

image.png

第二章

三种均值在反映数据时的特点:

  • 平均值:描述数据集中心最常用的,最有效的数值度量,但对极端值敏感
  • 中位数:对于倾斜(非对称)数据,中位数是数据中心的较好度量
  • 截断均值:截断均值可以避免少量极端值影响均值

截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。

数据预处理:

  1. 数据清理:
    1. 目的就是试图填充缺失值、去除噪声并识别离群点、纠正数据中的不一致值。
    2. 缺失值处理:
      1. 忽略元组
      2. 忽略属性列(很多的缺失值才使用)
      3. 人工填充
      4. 自动填充(全局常数、均值和众数、可能值(回归、推理、决策树))
    3. 噪声数据处理:
      1. 分箱(通过考察周围的值来平滑有序数据的值,均值平滑,边界平滑)
      2. 聚类(聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常值)
      3. 回归(通过回归(线性回归、非线性回归)让数据适合一个函数来平滑数据)
  2. 数据集成:
    1. 数据一致性和冗余
  3. 数据变换:
    1. 平滑
    2. 聚集
    3. 数据泛化
    4. 规范化
      1. min-max规范化(x-min÷(maqx-min))
      2. Z-score规范化(x-avg/标准差)
      3. 小数定标规范化([999,88]->[0.999,0.088])
    5. 属性构造
    6. 数据离散化
  4. 数据规约(数据的抽样和特征选择)
  5. 数据离散化(具体的年龄使用老年、中年、青年来替代)

简答题:请列举5种数据预处理方法,并简要说明。

以下是五种常见的数据预处理方法及其简要说明:

  1. 数据清洗(Data Cleaning):数据清洗是指处理数据中的缺失值、异常值和重复值等问题。这包括填补缺失值、删除异常值或使用插补方法进行修复,以及识别和处理重复数据。
  2. 特征缩放(Feature Scaling):特征缩放是将不同特征的值范围映射到相似的尺度上,以消除特征之间的量纲差异。常见的特征缩放方法包括标准化(将特征转换为均值为0,方差为1的分布)和归一化(将特征缩放到0和1之间)。
  3. 特征编码(Feature Encoding):特征编码是将非数值型的特征转换为数值型的表示形式,以便机器学习算法能够处理。常见的特征编码方法包括独热编码(One-Hot Encoding)、标签编码(Label Encoding)和序数编码(Ordinal Encoding)。
  4. 特征选择(Feature Selection):特征选择是从原始特征集中选择最具有预测能力的特征子集。这可以减少特征空间的维度,提高模型的训练效率,并减少过拟合的风险。常见的特征选择方法包括过滤式方法(如方差阈值、相关系数)和包裹式方法(如递归特征消除)。
  5. 数据集划分(Data Splitting):数据集划分是将原始数据集划分为训练集、验证集和测试集等子集的过程。训练集用于模型训练,验证集用于模型调参和选择最佳模型,测试集用于评估模型在未见过数据上的性能。常见的划分方法包括随机划分和交叉验证。

这些数据预处理方法在机器学习和数据分析中起着重要的作用,可以提高模型的准确性、稳定性和可解释性。具体的预处理方法的选择取决于数据的特点和应用场景。

相似度度量

线性相关系数
image.png
余弦相似度
image.png
计算距离(闵可夫斯基距离)

  • 曼哈顿距离(绝对值和)
  • 欧几里得距离(平方求和开根号)
  • 切比雪夫距离(x的差值或者y的差值大的那一个)

image.png

image.png
image.png

第三章 分类

决策树
image.png

决策树基本概念

决策树(Decision Tree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。

  • 决策节点:代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。
  • 叶节点存放某个类标号值,表示一种可能的分类结果。
  • 分支表示某个决策节点的不同取值。

image.png

信息熵公式

image.png
image.png
image.png

信息增益

image.png
image.png
image.png
image.png

ID3算法

image.png
image.png

  1. 计算原数据集的熵Entropy(S)
  2. 计算所有属性的信息增益,选择增益最大的作为根节点
  3. 对每个分支递归使用这个方法

当划分到某个类的目标属性全是一个值时,就可以终止递归

缺点:

  • 只能处理分类属性数据,无法处理连续型数据
  • 对测试属性每个取值相应产生一个分支,会导致还分出很多小的子集,划分过程中可能会因为子集规模过小导致统计特征不充分而停止
  • 由于使用信息增益作为决策树结点属性选择的标准,导致决策树算法偏向选择具有较多分支的属性,可能会过度拟合

C4.5算法

https://www.bilibili.com/video/BV1VA411A7AQ/?p=3&spm_id_from=pageDriver
不仅考虑信息增益的大小程度,还兼顾考虑为获得信息增益所付出的“代 价”
分裂信息
image.png
信息增益率
image.png

  1. 计算原数据集的熵S
  2. 计算所有属性的信息增益和分裂信息求得信息增益率,选择增益率最大的作为分裂的结点

image.png

朴素贝叶斯分类方法

贝叶斯定理
image.png
为什么朴素?

假设样本特征彼此独立,没有相关性,而这在现实中不存在,但是用这个方法在文本分类等应用中效果良好

image.png
image.png
image.png
image.png
image.png

KNN算法

image.png
曼哈顿距离(如果属性不同距离+1)
image.png
image.png
例题2
image.png
image.png

不平衡数据分类

image.png
不平衡数据,是指在同一数据集中某些类的样本数远大于其它类的样本数,其中样本少的类为少数类(以下称为正类) ,样本多的类为多数类(以下称为负类)。
image.png
image.png
查准率(精度)
预测正确的正例占分类为正例的比例
image.png
查全率(召回率)
预测正确的正例占实际为正例的比例
image.png
F1 度量
表示精度和召回率的调和平均值 F1 = 2rp / (r + p)

一元线性回归 - 最小二乘法

image.png
image.png
image.png

第四章 聚类

K-means

image.png
image.png
划分后取均值作为中心再划分直到不变化
image.png

K-summary

image.png
计算点与簇之间的距离
image.png
计算簇与簇之间的距离
image.png
image.png
image.png
image.png
例题
image.png
第一次先计算所有点到每个簇中心的距离,将他划分到距离进的簇
image.png
这样可以得到新簇的CSI信息
然后对所有点再计算一次距离
直到不变为止
image.png

DBSCAN算法

基于密度的聚类算法
image.png
image.png

当Eps>=MinPts时,该点为核心对象

image.png
image.png
例子:
image.png
image.png
image.png

一趟聚类算法

image.png
image.png
这个聚类阈值不知道是怎么算的
image.png
image.png
如果对两个簇都同时小于,就放进距离更小的
image.png

第五章 关联

关联分析中为何要首先寻找频繁项集,在非频繁项集中可以发现规则吗

在关联分析中,首先寻找频繁项集是为了确定数据集中出现频率较高的项集。频繁项集是指在数据集中经常同时出现的一组项的集合。通过寻找频繁项集,我们可以确定哪些项集具有较高的关联性,即它们经常同时出现。
寻找频繁项集有两个主要目的:

  1. 简化搜索空间:在大规模的数据集中,项集的组合可能非常庞大。通过首先寻找频繁项集,我们可以缩小搜索空间,只关注那些频繁出现的项集,减少计算复杂度和时间开销。
  2. 建立关联规则的基础:频繁项集是生成关联规则的基础。关联规则是指项集之间的条件关系,例如"苹果"->“橙子”,表示购买了苹果的人也倾向于购买橙子。通过找到频繁项集,我们可以进一步挖掘其中的关联规则,确定哪些项集之间存在着显著的关联性。

非频繁项集一般表示出现频率较低的项集,它们的出现可能是偶然的或者不具有统计显著性。在非频繁项集中发现规则的可行性较低,因为它们的出现很少,可能没有足够的样本来支持或验证关联规则的有效性。
因此,通过首先寻找频繁项集,可以筛选出具有统计意义的项集,从而为后续的关联规则挖掘提供更可靠的基础。

image.png
支持度和置信度

  • 支持度分母是总数
  • 置信度分母是包含x项的总数

image.png
image.png
频繁项集与规则
image.png

Apriori算法

image.png
image.png
标准的解题步骤
image.pngimage.png
image.png

FP增长树

  1. 扫描事务表,对所有1项集进行计数并进行降序排序
  2. 利用L的排序来对事务表进行更新,根据事务表画出FP增长树
  3. FP-tree挖掘过程

image.png
image.png
image.png
image.png

关系规则生成

image.png
image.png
利用置信度和提前处理好的频繁项集来进行生成
image.png
筛选出符合置信度要求的关联规则

关系规则评价

假设评价规则{X}->{Y}

  • 支持度:![](null#card=math&code=support = P(X)/P(ALL)&id=yb7XV)普遍性
  • 置信度:2023广工数据挖掘复习重点精讲可靠性
  • 提升度:![](null#card=math&code=Lift = \frac{P(Y|X)}{P(Y)}&id=jp8xa) 提升度<1表示负相关

image.png
image.pngimage.png

第六章 离群点

离群点挖掘
基于统计的离群点检测
离群点对应于低概率的数据

基于距离的方法

image.png
image.png
计算K个最近邻的平均距离,可以得到离群点分数

基于相对密度的方法

image.png
image.png
感觉N(P5,k)有点问题,应该是2个才对
image.png文章来源地址https://www.toymoban.com/news/detail-479668.html

离群点与噪声点的区别

  • 噪声是测量变量的随机错误或误差。噪声是测量误差的随机部分,包括错误或或孤立点值。导致噪声产生的原因有多种,可能是数据收集的设备故障,也可能是数据录入过程中人的疏忽或数据传输过程中的错误等
  • 离群点是在数据集中偏离大部分数据的数据。可能对应稀有事件或异常行为。离群点可能是由于测量、输入错误或系统运行错误造成的,也可能是数据内在特性所决定的,或因客体的异常行为所导致的。离群点往往具有特殊的意义和很高的实用价值,需要对其认真审视和研究。在聚类,分类,关联分析等方法中,离群点通常被当成噪声, 但在安全,风险控制领域,离群点有比较高的研究价值

到了这里,关于2023广工数据挖掘复习重点精讲的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python数据分析与挖掘实战期末考复习(抱佛脚啦)

    期末三天赛高考我真的会谢,三天学完数据挖掘……真的很极限了的。 课本是那本 绿色的Python数据分析与挖掘实战(第2版), 作者张良均 … 图片来自老师给的ppt,以下内容是我自己总结的,自己复习用,覆盖了老师给画的重点考点,八九不离十,期末考抱佛脚的可以看看

    2024年02月08日
    浏览(42)
  • 时空数据挖掘精选23篇论文解析【AAAI 2023】

    今天和大家分享 时空数据挖掘 方向的资料。 时空数据挖掘是人工智能技术的重要分支,是一种采用人工智能和大数据技术对城市时空数据进行分析与挖掘的方法,旨在挖掘时空数据,理解城市本质,解决城市问题。 目前,时空数据挖掘广泛应用于交通运输、地质灾害监测与

    2024年02月11日
    浏览(38)
  • 山东大学软件学院2022-2023数据仓库数据挖掘期末考试(回忆版)

    前言 1、考试时间:2023/2/14 14:30-16:30 (因疫情推迟到开学考的期末考试) 2、考试科目:数据仓库数据挖掘(老师:PanPeng) 3、考试语言:中文 4、考试题型:简答、计算、画图(最好带个尺子,容易画图)。 5、考后感想:题量 比较大 ,需要对题目比较熟练,题目类型和ppt上差

    2024年02月08日
    浏览(40)
  • 2023年数据挖掘与知识发现国际会议(DMKD 2023) | IOP JPCS独立出版

    会议简介 Brief Introduction 2023年数据挖掘与知识发现国际会议(DMKD 2023) 会议时间:2023年6月24日-26日 召开地点:中国重庆 大会官网:DMKD 2023-2023 International Conference on Data Mining and Knowledge Discovery 由重庆邮电大学、重庆大学主办,重庆大学计算机学院、CoreShare科享学术交流中心协办

    2023年04月14日
    浏览(35)
  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(58)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(52)
  • 【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

    目录 一、导入数据  二、数据查看 可视化缺失值占比  绘制所有变量的柱形图,查看数据 查看各特征与目标变量price的相关性 三、数据处理  处理异常值 查看seller,offerType的取值 查看特征 notRepairedDamage   异常值截断  填充缺失值   删除取值无变化的特征 查看目标变量p

    2023年04月27日
    浏览(57)
  • 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    一、准备数据 1.查看数据 二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的关系 三、数据预处理 1.去掉唯一属性 2.处理缺失值 a)标记缺失值 b)删除缺失值行数  c

    2024年02月11日
    浏览(50)
  • 数据挖掘(3.1)--频繁项集挖掘方法

    目录 1.Apriori算法 Apriori性质 伪代码 apriori算法 apriori-gen(Lk-1)【候选集产生】 has_infrequent_subset(c,Lx-1)【判断候选集元素】 例题 求频繁项集: 对于频繁项集L={B,C,E},可以得到哪些关联规则: 2.FP-growth算法 FP-tree构造算法【自顶向下建树】 insert_tree([plP],T) 利用FP-tree挖掘频繁项集

    2023年04月09日
    浏览(50)
  • 数据仓库与数据挖掘

    数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、

    2024年02月06日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包