数据挖掘-频繁项集

这篇具有很好参考价值的文章主要介绍了数据挖掘-频繁项集。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

基本概念

支持度:两种商品同时被购买占事务总数的比例,反映发现该规则的有用性
置信度:购买一个商品的顾客中同时购买另一个商品的顾客所占比例,反映规则的确定性。
数据挖掘-频繁项集
支持度 =支持度({A ∪C}) = 50%
置信度= 支持度({A ∪C})/支持度({A}) = 66.6%

项集:项的集合,如集合{computer,antivirus_software}是一个2项集

频繁项集:同时满足最小支持度阈值和最小置信度阈值的规则
决策树:决策树算法采用树形结构,使用层层推理来实现最终的分类。决策树由下面几种元素构成:

  • 根节点:包含样本的全集
  • 内部节点:对应特征属性测试
  • 叶节点:代表决策的结果
    数据挖掘-频繁项集

··

单维挖掘方法

可以分为三类:Apriori算法,基于频繁模式增长的算法(如FP-growth算法),使用垂直数据格式的算法

1). Apriori算法

频繁项集先验性质: 频繁项集的所有非空子集也一定是频繁的。

基本思想:使用逐层搜索的迭代方法,其中k项集用于探索(k+1)项集,使用先验性质压缩搜索空间。

如何使用L(k-1)找到L(k): 通过连接步和剪枝步完成。连接步通过将L(k-1)与自身连接产生候选k项集集合。剪枝步从候选k项集确定L(k)。

例子:
数据挖掘-频繁项集
C 2 C_2 C2中的{1,2},{1,5}被剪枝, L 2 L_2 L2中第一项与2、3、4项不用再考虑

从事务数据库中构建FP-树

使用FP-树循环的产生频繁模式路径
对于每一个项,先构造它的条件模式基,然后构造它的条件FP-树,重复
—> 每一条子路径都是一个频繁模式

条件模式基:最能够成功条件者,是原支持度最高者

数据挖掘-频繁项集
FP树挖掘:

  • 从头表的最后一项p开始:

直接频繁集是(p:3)

p存在于2条路径当中:路径<f:4,c:3,a:3,m:2,p:2>和路径<c:1,b:1,p:1>。包含p的路径<f,c,a,m,p>出现了2次,同时也会有<f,c,a>出现了3次,出现了4次。但是我们只关注<f,c,a,m,p>(目的是找出包含p的所有频繁集合)。<c,b,p>出现了1次。
p就有2个前缀路径{(fcam:2),(cb:1)}。这两条前缀路径称之为p的子模式基(subpattern-base),也叫做p的条件模式基(因为这个子模式基是在p存在的前提条件下)。
再为这个条件子模式基构造一个FP树:
数据挖掘-频繁项集
由于频繁集的阈值是3,剪枝之后只剩下一个分支(c:3)

频繁项目集{cp:3}

  • 倒数第二项m

(m:3)

在FP树中存在的两条路径<f:4,c:3,a:3,m:2>和<f:4,c:3,a:3,b1,m:1>,频繁条件子模式基就是{ (fca:2),(fcab:1)},得到

{fcam:3}

  • 倒数第三项<b:3>

(b:3)

三条路径<f:4,c:3,a:3,b:1>,<f:4,b:1>,<c:1,b:1>,形成的频繁条件子模式基为{(fca:1),(f:1),(c:1)},构建成的FP树中的所有节点的频率均小于3,那么FP树为空,结束递归

  • 倒数第四位<a:3>

(a:3)

有一条路径<f:4,c:3>,频繁条件子模式基为{(fc:3)}

{(fa:3),(ca:3),(fca:3),(a:3)}

  • 倒数第五位<c:4>
    只有一条路径<f:4>,频繁条件子模式基为{(f:3)}

{(fc:3),(c:4)}

  • 最后一位<f:4>

{(f:4)}

流程表:
数据挖掘-频繁项集
此部分图片来源于monsion-FP树构造
`

提高Apriori算法效率:

基于散列的技术:将事务产生的k项集散列到散列表的不同桶中,并增加相应桶计数,对应桶计数小于支持度阈值不可能是频繁的,可以从候选集中删除。这一技术可以显著地压缩需要考察的k项集

事务压缩:不包含任何频繁k项集的事务不可能包含任何频繁(k+1)项集,因此在其后的考虑时,可以加上标记或删除。

划分:分两个阶段,阶段一把D划分成n个分区,找出每个分区的局部频繁项集,组合所有局部频繁项集形成候选项集; 阶段二评估每个候选的实际支持度,找出候选项集中的全局频繁项集。整个过程只需要两次数据库扫描。

抽样:基本思想是选取数据库D的随机样本S,然后再S中搜索频繁项集。这种方法牺牲了一些精度换取了有效性,可能会丢失一些全局频繁项集

动态项集计数: 基本思想是奖数据库划分为用开始点标记的块。不像Apriori算法仅在每次完整的数据库扫描前确定新的候选,这种变形中,可以再任何开始点添加新的候选集。该变形需要的数据库扫描笔Apriori算法少。

多层关联规则挖掘

统一支持度:对所有层使用相同的最小支持度

  • 优点:只有一个最小的支持度阈值

  • 缺点:较低层次抽象的项不大可能像较高层次抽象的项出现的那么频繁

    • 太高⇒会遗失低层的关联规则
    • 太低⇒会产生太多的高层关联规则

递减支持度:在较低层使用较小的最小支持度
有四种搜索策略:

  • 逐层独立
  • 层交叉k-项集过滤
  • 层交叉单项过滤
  • 受控的层交叉单项过滤

多层关联规则的冗余过滤:其父项是冗余的

··

高效挖掘:

  • 首先应用粗糙/廉价操作(超集覆盖)
  • 接着在一个充分递减的候选集上应用昂贵的算法

由关系数据库和数据仓库挖掘多维关联规则

多维规则: 涉及两个或两个以上的维或谓词
维间关联规则 (没有重复的谓词)
a g e ( X , ” 19 − 25 ” ) ∧ o c c u p a t i o n ( X , “ s t u d e n t ” ) ⇒ b u y s ( X , “ c o k e ” ) age(X,”19-25”) ∧ occupation(X,“student”) ⇒buys(X,“coke”) age(X,”1925”)occupation(X,student)buys(X,coke)
混合维关联规则 (有重复的谓词)
a g e ( X , ” 19 − 25 ” ) ∧ b u y s ( X , “ p o p c o r n ” ) ⇒ b u y s ( X , “ c o k e ” ) age(X,”19-25”) ∧ buys(X, “popcorn”) ⇒ buys(X, “coke”) age(X,”1925”)buys(X,popcorn)buys(X,coke)
··

模式评估

并非所有强关联规则都是有趣的,比如项集计算机游戏和录像可能满足强关联规则,但是它们是负相关的。

提升度:一种相关性的度量,结果值大于1是正相关,为1表示独立,小于1表示负相关。

相关性度量还有最大置信度和余弦。

··

由关联挖掘到相关分析

客观度量:支持度和置信度

主观度量:一个规则(模式)是有趣的

  • 是非预期的(令用户吃惊的)
  • 或可控制的 (用户可以用它来做一些事情)

缺点:
数据挖掘-频繁项集
数据挖掘-频繁项集
也就是条件概率P(A|B)
··
·
数据挖掘-频繁项集文章来源地址https://www.toymoban.com/news/detail-466637.html

到了这里,关于数据挖掘-频繁项集的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据挖掘】-支持向量机(SVM)+代码实现

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+   目录 1、从例子出发 2、算法原理

    2023年04月15日
    浏览(52)
  • 基本介绍——数据挖掘

    1.数据挖掘的定义 数据挖掘是采用数学的、统计的、人工智能和神经网络等领域的科学方法,如记忆推理、聚类分析、关联分析、决策树、神经网络、基因算法等技术,从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建

    2024年02月10日
    浏览(50)
  • AI概念之人工智能、机器学习和数据挖掘之间的联系与区别

    本文深入探讨人工智能、机器学习和数据挖掘之间的联系与区别,涵盖基础知识、工作流程、需求分析、设计方案、实现步骤、代码示例、技巧与实践、常见问题与解答等内容,旨在帮助读者全面了解这三者之间的异同,并学会如何在实际工作中运用它们。 阅读时长:约30分

    2024年03月12日
    浏览(81)
  • 【数据挖掘】基于粒子群算法优化支持向量机PSO-SVM对葡萄酒数据集进行分类

    PSO是粒子群优化算法(Particle Swarm Optimization)的英文缩写,是一种基于种群的随机优化技术,由Eberhart和Kennedy于1995年提出。粒子群算法是模仿昆虫、兽群、鸟群和鱼群等的群集行为,这些群体按照一种合作的方法寻找食物,群体中的每个成员通过学习它自身的经验和其他成员

    2024年02月02日
    浏览(56)
  • PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像...

    在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上 ( 点击文末“阅读原文”获取完整 代码数据 )。 “用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企业在不惜代价发展新用户的过程中,往往会忽视或无暇

    2024年02月10日
    浏览(51)
  • 频繁项集算法

    目录 ​编辑 前言 基础知识 正文 一、Apriori算法 二、FP-Tree算法 1)第一次扫描数据对1-项集进行计数: 2)建立FP-Tree 3)FP-Tree获取频繁项集 总结 频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供

    2024年02月01日
    浏览(81)
  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(63)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(56)
  • 【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测

    目录 一、导入数据  二、数据查看 可视化缺失值占比  绘制所有变量的柱形图,查看数据 查看各特征与目标变量price的相关性 三、数据处理  处理异常值 查看seller,offerType的取值 查看特征 notRepairedDamage   异常值截断  填充缺失值   删除取值无变化的特征 查看目标变量p

    2023年04月27日
    浏览(61)
  • 数据挖掘-实战记录(一)糖尿病python数据挖掘及其分析

    一、准备数据 1.查看数据 二、数据探索性分析 1.数据描述型分析 2.各特征值与结果的关系 a)研究各个特征值本身类别 b)研究怀孕次数特征值与结果的关系 c)其他特征值 3.研究各特征互相的关系 三、数据预处理 1.去掉唯一属性 2.处理缺失值 a)标记缺失值 b)删除缺失值行数  c

    2024年02月11日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包