第四章数据关联分析方法

10月前作者：Allenspringfestival 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了第四章数据关联分析方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

基本概念和方法

关联规则和算法应用

基本概念和术语

关联规则算法应用：

一个关联规则分析的例子—————超市购物篮分析

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法不要看

后面数字看不懂

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法

项集：是指项的集合。包含k个项的项集称为k-项集

支持度：若A是一个项集，则A的支持度表示在所有事务T中同时出现A项集的概率

置信度：A出现的次数除以A和B同时出现的次数。

第四章数据关联分析方法

频繁项集：支持度满足最小支持度阈值的项集称为频繁项集。通常k-项集如果满足最小支持度阈值，称为频繁集，记作Lk。

关联规则（Association Rule）:可以表示为一个蕴含式。

如：X=>Y,X和Y分别称为关联规则的前件和后件。

关联规则是否可用，需要考察他的支持度和置信度（可信度）两个指标。

第四章数据关联分析方法

可以通过以下实例来理解：

第四章数据关联分析方法

置信度等于两者出现的支持度和前者出现的支持度之比。

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法

第四章数据关联分析方法

经典的Apriori关联规则算法

第四章数据关联分析方法

Apriori关联规则算法基本思想

Apriori的基本思想：频繁项集的任何非空子集也一定是频繁的。

核心思想：扫描数据获得所有的频繁1项集L1，利用L1查找频繁2项集，如此循环直到不再有新的频繁集被找到为止。而获取不同长度的频繁项集之前，都需要先查找到候选集（支持度满足最小支持度阈值的项集）。

如何生成候选集呢？
第四章数据关联分析方法

先自连接再进行修剪。

这个例子非常重要，比较容易理解。

第四章数据关联分析方法

支持度（sup）就是数出在数据集D中itemset出现的次数

{1,2,3}.{1,2,3,5},{1,3,5},{2,3,5}再进行修剪，他们的子集都必须在L2里面。

去除{1，2，3}，{1，2，3，5}，{1，3，5}

得到C3{2,3,5}

Apriori算法的缺点：

多次扫描数据库，产生巨大数量的候选集，繁琐的支持度计算。

下面我们来讲解FP-Growth算法

FP-Growth算法不产生候选项集，而是采用分而治之的策略。

（1）构建FP树：压缩数据库，并将频繁项放入频繁模式树（FP树），他仍然保留项集的关联信息。

（2）从FP树中挖掘频繁项集：
1.从FP中获得条件模式基

2.利用条件模式基，构建一个条件FP树

3.根据条件FP树，进行排列组合，挖掘出频繁项。

以下示例较为简单：重点理解

第四章数据关联分析方法

设定最小支持度为2，得到频繁集，并按照大小重新排列。

第四章数据关联分析方法

第二次扫描排序后的数据库。并且构建FP树。

开始从FP树中进行挖掘——频繁项集

第四章数据关联分析方法

那什么是条件模式基呢？

第四章数据关联分析方法

为什么每个条件模式基的计数为1呢？
由于i5的计数为1，最终到达i5的重复次数也只能为1，所以条件模式基的计数是根据路径中的结点的最小计数来决定的。文章来源地址https://www.toymoban.com/news/detail-431691.html

到了这里，关于第四章数据关联分析方法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

RuoYi模块功能分析：第四章 redis

位于 package com.ruoyi.framework.config; 包下，主要用于自定义序列化解决乱码问题和写入lua限流脚本位于 package com.ruoyi.framework.config; 包下，Redis使用FastJson序列化位于 package com.ruoyi.common.core.redis; 包下，对redis内置的基本方法进行了二次封装位于 package com.ruoyi.web.controller.monitor;

2024年02月20日
浏览(39)
Qt5开发及实例V2.0-第四章Qt基本对话框

首先介绍标准文件对话框（QFileDialog）、标准颜色对话框（QColorDialog）、标准字体对话框（QFontDialog）、标准输入对话框（QInputDialog）及标准消息对话框（QMessageBox），运行效果如图4.1所示。按如图4.1所示依次执行如下操作。（1）单击“文件标准对话框实例”按钮，弹出“文

2024年02月07日
浏览(110)
【云计算与虚拟化】第四章实验二 vCenter Server网络部署及基本操作

实验二 vCenter Server网络部署及基本操作一、实验内容通过vSphere client 客户端登陆vCenter服务器，为新建的虚拟机Windows7 激活，并修改计算机名为姓名拼音的首字母-学号通过vSphere client 客户端登陆vCenter服务器，将虚拟机windows7的cpu和内存设置为可以热插拔通过vSphere clie

2024年04月22日
浏览(35)
408数据结构第四章

小题形式考，比较简单，拿两个题来练手就会了字符串简称串由零个或多个字符组成的有限序列 S是串名n称为串的长度，n=0称为空串串中多个连续的字符组成的子序列称为该串的子串串的逻辑结构和线性表极为相似，区别仅在于串的数据结构对象限定为字符集线性表的基

2024年02月11日
浏览(36)
数据结构第四章栈

🚀 写在最前：这篇文章将学习栈这种结构，以及该结构的一些基本操作的实现，包括顺序存储栈和链式存储栈的基本操作的实现。 🚀：点求个关注，让我们一起探索计算机的奥秘！所谓的栈就是一种特殊的线性表，对于栈这种逻辑结构来说他和线性表最大的区别就是栈

2024年04月15日
浏览(42)
数据结构第四章：串

所谓串其实就是字符串，该小节我们会先学习串的定义和相关基本操作。也就是要探讨它的逻辑结构和基本运算（数据结构三要素：逻辑结构、存储结构、数据的运算） 1.1.1串的定义串，即字符串（String）是由零个或多个字符组成的有序序列。一般记为S=‘a1a2…an’(n=0)

2024年02月06日
浏览(40)
第四章基于概率论的分类方法：朴素贝叶斯

朴素贝叶斯优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输⼊数据的准备⽅式较为敏感。适⽤数据类型：标称型数据。假设类别为 c 1 , c 2 c_1,c_2 c 1 , c 2 ：如果 p 1 ( x , y ) p 2 ( x , y ) p1(x,y) p2(x,y) p 1 ( x , y ) p 2 ( x , y ) ，那么类别为 c 1 c_1 c

2024年02月13日
浏览(45)
第四章应用SysML基本特性集的汽车示例 P1｜系统建模语言SysML实用指南学习

仅供个人学习记录主要就是应用练习建模了 Automobile Domain包将模型组织入包的包图汽车规范中包含系统需求的需求图汽车域块定义图描述车辆主要功能的用例图

2024年02月06日
浏览(47)
计算机网络——自顶向下方法（第四章学习记录）

本章学习网络层：数据平面前一章中我们学习了运输层依赖于网络层的主机到主机的通信服务，提供了各种形式的进程到进程的通信。在本章中我们将看到与运输层和应用层不同的是，在网络中的每一台主机和路由器中都有一个网络层部分。网络层能够被分解为两个相互作

2024年02月11日
浏览(57)
数据库第四章习题_完整版

1.1 请考虑以下 SQL 查询，该查询旨在查找 2017 年春季讲授的所有课程的标题以及教师的姓名的列表。请问这个查询有什么问题? 首先 section 中并没有我们需要使用到的属性，所以这里 “natural join setion” 是多余的。其次，更重要的一点是：在 instructor 关系和 course 关系中都有

2024年02月07日
浏览(38)