频繁项集算法

这篇具有很好参考价值的文章主要介绍了频繁项集算法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

​编辑

前言

基础知识

正文

一、Apriori算法

二、FP-Tree算法

1)第一次扫描数据对1-项集进行计数:

2)建立FP-Tree

3)FP-Tree获取频繁项集

总结


频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

前言

频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。

基础知识

如超市中的物品支持表格:

用户 辣条(A) 可乐(B) 铅笔(C) 羽毛球(D) 洗衣液(E)
1
2
3
4
5

支持度:单个项占总项集的百分比,比如辣条的支持度=4/5*100%=80%,可乐的支持度=3/5*100%=60%。

置信度:辣条>=羽毛球的置信度=3/4*100%=75%,可乐>=羽毛球的置信度=3/3*100%=100%。

项集:最基本的模式是项集,它是指若干个项的集合。

频繁模式:指数据集中频繁出现的项集、序列或子结构。

频繁项集:指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。


正文

一、Apriori算法

假设minsupport=0.2,得出频繁项集:

1)1-项集C1={A,B,C,D,E},1-频繁项集L1={A,B,C,D};

2)1-频繁项集进行拼接得到2-项集C2={(A,B),(A,C),(A,D),(B,C),(B,D),(C,D)},2-频繁项集L2={(A,B),(A,C),(A,D),(B,D),(C,D)};

3)2-频繁项集拼接得到3-项集C3={(A,B,C),(A,B,D),(A,C,D),(B,C,D)},3-频繁项集L3={(A,B,D)};

4)最后得到所有的频繁项目集L={(A,B),(A,C),(A,D),(B,D),(C,D),(A,B,D)}。

假设 minconfidence =60%,得出关联规则:

我们这里仅仅对最大的频繁项集(B,C,D)进行计算,得出其中是否有强关联规则:

B>=CD,confidence=33%,不是强关联规则;BC>=D,confidence=100%,强关联规则;

C>=BD,confidence=33%,不是强关联规则;CD>=B,confidence=50%,不是强关联规则;

D>=BC,confidence=25%,不是强关联规则;BD>=C,confidence=33%,不是强关联规则。


二、FP-Tree算法

1)第一次扫描数据对1-项集进行计数:

我们仍然选用上面的例子,用户1:ABD,用户2:ACDE,用户3:ABD,用户4:BCD,用户5:AC

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

2)建立FP-Tree

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

至此,我们完成对FP-Tree的构建。

3)FP-Tree获取频繁项集

   由节点从下到上依次获取频繁项:

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

 其实上述中{(C,D)}的FP-Tree分别出现了2次,我们可得出其为频繁2-项集,则有C的到的频繁项2-项集:{(A,C),(C,D)};

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

 节点D

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

频繁项集怎么求,YF的算法世界,开发语言,算法,数据挖掘

综上可知,所有的频繁项为:{(A,B),(A,C),(A,D),(B,D),(C,D),(A,B,D)}。


总结

1.对频繁项集挖掘算法进行研究的方向大概可归纳为以下四个方面:

a、在遍历方向上采取自底向上、自顶向下以及混合遍历的方

b、在搜索策略上采取深度优先和宽度优先策

c、在项集的产生上着眼于是否会产生候选项集;

d、在数据库的布局上,从垂直和水平两个方向上考虑数据库的布局。

2.对于不同的遍历方式,数据库的搜索策略和布局方式将会产生不同的方法,研究表明,没有什么挖掘算法能同时对所有的定义域和数据类型都优于其他的挖掘算法,也就是说,对于每一种相对较为优秀的算法,它都有它具体的适用场景和环境。文章来源地址https://www.toymoban.com/news/detail-791293.html

到了这里,关于频繁项集算法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 路由器频繁掉线是怎么回事?

    最近小编的电脑总是一连上网络就掉线,因为小编是用路由器局域网来连接网络的,是不是路由器的问题啊。 路由器掉线是怎么回事? 小编在网上查找相关资料找到一下关于路由器掉线的解决方法。分享给大家哦。 造成路由器掉线的原因有很多,首先查看是否是硬件方面的

    2024年02月05日
    浏览(56)
  • 【数据挖掘与人工智能自然语言处理】自然语言处理和人工智能:如何利用自然语言处理技术进行数据挖掘

    作者:禅与计算机程序设计艺术 随着互联网和大数据时代的到来,数据挖掘已成为各个行业的热门话题。数据挖掘的核心在于发现数据中的有价值信息,而自然语言处理(NLP)技术是实现这一目标的重要手段。本文旨在通过自然语言处理技术进行数据挖掘,为数据挖掘提供一

    2024年02月05日
    浏览(102)
  • 数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘,关联挖掘,模式挖掘、图算法,搜索算法等

    【机器学习入门与实践】入门必看系列,含数据挖掘项目实战:模型融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战:数据融合、特征优化、特征降维、探索性分析

    2024年02月09日
    浏览(48)
  • 数据挖掘十大算法之Apriori算法

    国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法: C4.5 , k-Means , SVM , Apriori , EM , PageRank , AdaBoost , kNN , Naive Bayes , CART 这十个算法涵盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题

    2024年02月04日
    浏览(47)
  • 【数据挖掘算法与应用】——数据挖掘导论

    数据挖掘技术背景 大数据如何改变我们的生活 1.数据爆炸但知识贫乏   人们积累的数据越来越多。但是,目前这些数据还仅仅应用在数据的录入、查询、统计等功能,无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识

    2023年04月09日
    浏览(63)
  • 数据挖掘|决策树算法以及相关算法实现和例题讲解

    声明:本专栏的所有内容皆是本人接触到的系统学习的老师的讲解内容,仅做整理分享。 出处来源:分类问题:决策树+ID3算法+C4.5算法+考试例题讲解_哔哩哔哩_bilibili 资料整理:链接:https://pan.baidu.com/s/1q786VaYJ9-1G7ZdfC6KL7A  提取码:3k7m

    2024年01月16日
    浏览(41)
  • 数据挖掘领域十大经典算法

    数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要 基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术 等,高度

    2024年02月08日
    浏览(70)
  • 【数据挖掘】——常见算法对比和选择

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步! 😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 概述 一般认为,数据挖掘领域所使用的方法均属于 机器学习算法、深度学

    2024年02月11日
    浏览(56)
  • 数据挖掘实验——Apriori算法实现

    关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。本实验主要目的是培养学生能够运用Apriori算法数据挖掘方法进行数据挖掘。 学习掌握数据挖掘方法中的Apriori算法。 就餐饮企业而

    2024年02月06日
    浏览(65)
  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包