第四章 数据关联分析方法

这篇具有很好参考价值的文章主要介绍了第四章 数据关联分析方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基本概念和方法

关联规则和算法应用

基本概念和术语

关联规则算法应用:

一个关联规则分析的例子—————超市购物篮分析

第四章 数据关联分析方法

 第四章 数据关联分析方法

第四章 数据关联分析方法

 第四章 数据关联分析方法不要看

后面数字看不懂

 第四章 数据关联分析方法

第四章 数据关联分析方法

 第四章 数据关联分析方法

 项集:是指项的集合。包含k个项的项集称为k-项集

支持度:若A是一个项集,则A的支持度表示在所有事务T中同时出现A项集的概率

置信度:A出现的次数除以A和B同时出现的次数。

第四章 数据关联分析方法

 频繁项集:支持度满足最小支持度阈值的项集称为频繁项集。通常k-项集如果满足最小支持度阈值,称为频繁集,记作Lk。

关联规则(Association Rule):可以表示为一个蕴含式。

如:X=>Y,X和Y分别称为关联规则的前件和后件。

关联规则是否可用,需要考察他的支持度和置信度(可信度)两个指标。

第四章 数据关联分析方法

 可以通过以下实例来理解:

第四章 数据关联分析方法

 置信度等于两者出现的支持度和前者出现的支持度之比。

第四章 数据关联分析方法

  第四章 数据关联分析方法

 第四章 数据关联分析方法

 第四章 数据关联分析方法

第四章 数据关联分析方法

 经典的Apriori关联规则算法

第四章 数据关联分析方法

 Apriori关联规则算法基本思想

Apriori的基本思想:频繁项集的任何非空子集也一定是频繁的。

核心思想:扫描数据获得所有的频繁1项集L1,利用L1查找频繁2项集,如此循环直到不再有新的频繁集被找到为止。而获取不同长度的频繁项集之前,都需要先查找到候选集(支持度满足最小支持度阈值的项集)。

 如何生成候选集呢?
第四章 数据关联分析方法

 先自连接再进行修剪。

这个例子非常重要,比较容易理解。

第四章 数据关联分析方法

支持度(sup)就是数出在数据集D中itemset出现的次数

{1,2,3}.{1,2,3,5},{1,3,5},{2,3,5}再进行修剪,他们的子集都必须在L2里面。

去除{1,2,3},{1,2,3,5},{1,3,5}

得到C3{2,3,5}

Apriori算法的缺点:

多次扫描数据库,产生巨大数量的候选集,繁琐的支持度计算。

下面我们来讲解FP-Growth算法

FP-Growth算法不产生候选项集,而是采用分而治之的策略。

(1)构建FP树:压缩数据库,并将频繁项放入频繁模式树(FP树),他仍然保留项集的关联信息。

(2)从FP树中挖掘频繁项集:
1.从FP中获得条件模式基

2.利用条件模式基,构建一个条件FP树

3.根据条件FP树,进行排列组合,挖掘出频繁项。

以下示例较为简单:重点理解

第四章 数据关联分析方法

 设定最小支持度为2,得到频繁集,并按照大小重新排列。

第四章 数据关联分析方法

 第二次扫描排序后的数据库。并且构建FP树。

开始从FP树中进行挖掘——频繁项集

第四章 数据关联分析方法

 那什么是条件模式基呢?

第四章 数据关联分析方法

 为什么每个条件模式基的计数为1呢?
由于i5的计数为1,最终到达i5的重复次数也只能为1,所以条件模式基的计数是根据路径中的结点的最小计数来决定的。文章来源地址https://www.toymoban.com/news/detail-431691.html

到了这里,关于第四章 数据关联分析方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RuoYi模块功能分析:第四章 redis

    位于 package com.ruoyi.framework.config; 包下,主要用于自定义序列化解决乱码问题和写入lua限流脚本 位于 package com.ruoyi.framework.config; 包下,Redis使用FastJson序列化 位于 package com.ruoyi.common.core.redis; 包下,对redis内置的 基本 方法进行了二次封装 位于 package com.ruoyi.web.controller.monitor;

    2024年02月20日
    浏览(38)
  • Qt5开发及实例V2.0-第四章Qt基本对话框

    首先介绍标准文件对话框(QFileDialog)、标准颜色对话框(QColorDialog)、标准字体对话框(QFontDialog)、标准输入对话框(QInputDialog)及标准消息对话框(QMessageBox),运行效果如图4.1所示。 按如图4.1所示依次执行如下操作。 (1)单击“文件标准对话框实例”按钮,弹出“文

    2024年02月07日
    浏览(104)
  • 【云计算与虚拟化】第四章 实验二 vCenter Server网络部署及基本操作

    实验二    vCenter Server网络部署及基本操作 一、实验内容 通过vSphere client 客户端登陆vCenter服务器,为新建的虚拟机Windows7 激活,并修改计算机名为姓名拼音的首字母-学号 通过vSphere client 客户端登陆vCenter服务器,将虚拟机windows7的cpu和内存设置为可以热插拔 通过vSphere clie

    2024年04月22日
    浏览(34)
  • 408数据结构第四章

    小题形式考,比较简单,拿两个题来练手就会了 字符串简称串 由零个或多个字符组成的有限序列 S是串名n称为串的长度,n=0称为空串 串中多个连续的字符组成的子序列称为该串的子串 串的逻辑结构和线性表极为相似,区别仅在于串的数据结构对象限定为字符集 线性表的基

    2024年02月11日
    浏览(34)
  • 数据结构 第四章:串

    所谓串其实就是字符串,该小节我们会先学习串的定义和相关基本操作。也就是要探讨它的逻辑结构和基本运算(数据结构三要素:逻辑结构、存储结构、数据的运算) 1.1.1串的定义 串 ,即字符串(String)是由零个或多个 字符 组成的有序序列。 一般记为S=‘a1a2…an’(n=0)

    2024年02月06日
    浏览(40)
  • 数据结构 第四章 栈

    🚀 写在最前 :这篇文章将学习栈这种结构,以及该结构的一些基本操作的实现,包括顺序存储栈和链式存储栈的基本操作的实现。 🚀:点求个关注,让我们一起探索计算机的奥秘! 所谓的 栈就是一种特殊的线性表 ,对于栈这种逻辑结构来说他和线性表最大的区别就是 栈

    2024年04月15日
    浏览(38)
  • 第四章 基于概率论的分类方法:朴素贝叶斯

    朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题。 缺点:对于输⼊数据的准备⽅式较为敏感。 适⽤数据类型:标称型数据。 假设类别为 c 1 , c 2 c_1,c_2 c 1 ​ , c 2 ​ : 如果 p 1 ( x , y ) p 2 ( x , y ) p1(x,y) p2(x,y) p 1 ( x , y ) p 2 ( x , y ) ,那么类别为 c 1 c_1 c

    2024年02月13日
    浏览(42)
  • 第四章 应用SysML基本特性集的汽车示例 P1|系统建模语言SysML实用指南学习

    仅供个人学习记录 主要就是应用练习建模了 Automobile Domain包 将模型组织入包的包图 汽车规范中包含系统需求的需求图 汽车域块定义图 描述车辆主要功能的用例图

    2024年02月06日
    浏览(46)
  • 计算机网络——自顶向下方法(第四章学习记录)

    本章学习网络层:数据平面 前一章中我们学习了运输层依赖于网络层的主机到主机的通信服务,提供了各种形式的进程到进程的通信。在本章中我们将看到与运输层和应用层不同的是,在网络中的每一台主机和路由器中都有一个网络层部分。 网络层能够被分解为两个相互作

    2024年02月11日
    浏览(53)
  • 数据库第四章习题_完整版

    1.1 请考虑以下 SQL 查询,该查询旨在查找 2017 年春季讲授的所有课程的标题以及教师的姓名的列表。 请问这个查询有什么问题? 首先 section 中并没有我们需要使用到的属性,所以这里 “natural join setion” 是多余的。 其次,更重要的一点是:在 instructor 关系和 course 关系中都有

    2024年02月07日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包