《数据挖掘基础》实验:Weka平台实现关联规则挖掘

这篇具有很好参考价值的文章主要介绍了《数据挖掘基础》实验:Weka平台实现关联规则挖掘。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

实验目的

进一步理解关联规则算法(Apriori算法、FP-tree算法),利用weka实现数据集的挖掘处理,学会调整模型参数,读懂挖掘规则,解释规则的含义

实验要求

(1)随机选取数据集为对象,完成以下内容:(用两种方法:Apriori算法、FP-tree算法)

  1. 文件导入与编辑;
  2. 参数设置说明;
  3. 结果截图;
  4. 结果分析与对比。

(2)以下表,做关联规则挖掘

TID Items
T1 {牛奶,面包}
T2 {面包,尿布,啤酒,鸡蛋}
T3 {牛奶,尿布,啤酒,可乐}
T4 {面包,牛奶,尿布,啤酒}
T5 {面包,牛奶,尿布,可乐}
T6 {牛奶,尿布,啤酒}
T7 {尿布,啤酒}
T8 {面包,牛奶,尿布}
  1. 文件生成与编辑;
  2. 参数设置说明;
  3. 结果截图;
  4. 结果分析。

supermarket数据实验过程

1. 文件导入与编辑

用“Explorer”打开“supermarket.arff”,如图1.1所示,打开的数据为离散型数据,可直接进行关联规则分析,切换到“Associate”选项卡进行分析。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图1.1 supermarket数据集

2. 参数设置说明

2.1 参数说明

  • car:如果设为真,则会挖掘类关联规则而不是全局关联规则。
  • classindex:类属性索引。如果设置为-1,最后的属性被当作类属性。
  • Delta:以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
  • lowerBounfMinSupport:最小支持度下界
  • merticType:度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。
  • MinMtric:度量的最小值
  • numRules:要发现的规则数
  • outputItemSets: 如果设置为真,会在结果中输出项集。
  • removeAllMissingCols: 移除全部为缺失值的列。
  • significanceLevel :重要程度。重要性测试(仅用于置信度)。
  • upperBoundMinSupport: 最小支持度上界。 从这个值开始迭代减小最小支持度。
  • verbose: 如果设置为真,则算法会以冗余模式运行。

2.2 参数设置

挖掘支持度在10%到100%之间,并且置信度超过0.9且置信度排在前10位的关联规则。

  • “lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1
  • “metricType”设为confidence
  • “minMetric”设为0.9
  • “numRules”设为10

Apriori方法参数设置如下图2.2.1所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图2.2.1 Apriori方法参数设置图

FP-tree方法参数设置如下图2.2.2所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图2.2.2 FP-tree方法参数设置图

3. 结果截图

参数设定完成后单击start按钮,weka开始进行关联规则分析,Apriori算法结果如图3.1所示,FP-tree算法结果如图3.2所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图3.1 Apriori方法结果

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图3.2 FP-tree方法结果

将Apriori方法中参数outputItemSets设置为TRUE,部分运行结果如图3.3所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图3.3 一频繁项目集

4. 结果分析

从图3.1,3.2中看出,挖掘出的前十条强关联规则中最大的置信度为0.92,其中一条是:biscuits=t frozen foods=t fruit=t total=high ==> bread and cake=t,图3.1显示一、二、三、四、五、六级频繁项目集在最小支持度为0.1的情况下分别有44,380,910,633,105,1个。
观察图3.3可以看到,相比较于图3.1,结果图中展示出了各级频繁项目集的详细信息。观察图3.1和3.2两种挖掘算法的结果图,可以看出两个算法在数据集以及设置参数一样的情况下,挖掘出的关联规则是相同的。
在运行过程中可以观察到在用Apriori算法挖掘关联规则时,程序右下方的小鸟动了3-4次,而FP-Tree算法挖掘时,小鸟只动了1次。小鸟动的次数直观的体现出程序的运行时间,由此可见在用Apriori做关联规则挖掘时要比FP-Tree算法多耗费2-3倍的时间。但又由图3.1,图3.3可以看出,Apriori挖掘出的结果信息可根据需求得到更详细的信息。

表格数据实验过程

1. 文件生成与编辑

将已给数据集进行处理,如图1.1所示,并将该数据集写入到csv文件中。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图1.1 处理后的数据集
用weka的open file导入处理后的数据集,如图1.2所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图1.2 打开处理后的数据集

看到数据集的文字部分是乱码的。打开weka安装目录,找到RunWeka.ini配置文件,找到fileEncoding=Cp1252,改成fileEncoding=Cp936(图1.3),点击保存关闭,再重新打开weka即可。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图1.3 修改配置文件

重新打开weka,并导入数据,如图1.4所示,可看到中文显示正常。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图1.4 重新的打开数据集

2. 参数设置说明

设置最小支持度下界为0.4,最小置信度为0.6,挖掘规则数为10。
Apriori方法参数设置如图2.1所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图2.1 Apriori方法参数设置

FP-tree方法参数设置如图2.2所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图2.2 FP-tree参数设置

3. 结果截图

参数设定完成后单击start按钮,weka开始进行关联规则分析,Apriori算法结果如图3.1所示,FP-tree算法结果如图3.2所示。

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图3.1 Apriori方法结果

《数据挖掘基础》实验:Weka平台实现关联规则挖掘

图3.2 FP-tree方法结果

4. 结果分析

观察图3.1,可以看到用Apriori算法挖掘出一、二、三级频繁项目集分别为4,5,2个,没有生成四级频繁项目集。挖掘出两条置信度最大为1的强关联规则,分别为:啤酒 -> 尿布;牛奶,啤酒 -> 尿布。
观察图3.2,可以看到用FP-tree算法挖掘出7条强关联规则,其中有一条置信度最大为1的强关联规则为:啤酒 -> 尿布。文章来源地址https://www.toymoban.com/news/detail-434068.html

到了这里,关于《数据挖掘基础》实验:Weka平台实现关联规则挖掘的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • HNU-数据挖掘-实验1-实验平台及环境安装

    计科210X 甘晴void 202108010XXX Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 是 FLOSS(自由/开放源码软件)之一。Python 的设计具有很强的可读性,相比其他语言经常使用英文,其他语言的一些标点符号,它具有比其他语言更有特色语法

    2024年01月22日
    浏览(60)
  • 〖数据挖掘〗weka3.8.6的安装与使用

    目录 背景 一、安装 二、使用explorer 1. 介绍 2.打开自带的数据集(Preprocess) 1.打开步骤 2.查看属性和数据编辑 3.classify 4.Cluster 5.Associate 6.Select attributes 7.Visualize 待补充 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费 的,非商业化软件,与之对

    2024年02月06日
    浏览(37)
  • 【数据挖掘大作业】基于决策树的评教指标筛选(weka+数据+报告+操作步骤)

    数据挖掘大作业 下载链接:【数据挖掘大作业】基于决策树的评教指标筛选(weka使用手册+数据+实验报告) 一、考核内容 现有某高校评教数据(pjsj.xls),共计842门课程,属性包括:课程名称、评价人数、总平均分以及10个评价指标Index1-Index10。指标内容详见表1。 表 1 学生评教

    2024年02月09日
    浏览(46)
  • 数据挖掘实验——Apriori算法实现

    关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。本实验主要目的是培养学生能够运用Apriori算法数据挖掘方法进行数据挖掘。 学习掌握数据挖掘方法中的Apriori算法。 就餐饮企业而

    2024年02月06日
    浏览(64)
  • 数据挖掘实验:使用 Hadoop 实现 WordCount 应用

    使用 Hadoop 实现WordCount 应用。 WordCount 是一个最简单的分布式应用实例,主要功能是统计输入目录中所有单词出现的总次数,如文本文件中有如下内容: Hello world 则统计结果应为: Hello 1 world 1 WordCount 可以使用多种方式实现,本次实验内容选择使用 Hadoop 实现 WordCount 程序,并

    2023年04月17日
    浏览(54)
  • 数据挖掘 实验一、数据预处理

    一、 实验目的: (1) 熟悉 VC++编程工具和完全数据立方体构建、联机分析处理算法。 (2) 浏览拟被处理的的数据,发现各维属性可能的噪声、缺失值、不一致性等,针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。 (3) 用VC++编程工具编写程序,实

    2024年02月08日
    浏览(47)
  • 【手写数字识别】数据挖掘实验二

    用PyTorch实现MNIST手写数字识别(最新,非常详细) 图像识别 (Image Recognition)是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。 图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。机器学习领域一般将此类

    2024年02月07日
    浏览(42)
  • 数据挖掘实验(Apriori,fpgrowth)

    Apriori:这里做了个小优化,比如 abcde 和 adcef 自连接出的新项集 abcdef ,可以用 abcde 的位置和 f 的位置取交集,这样第 n 项集的计算可以用 n-1 项集的信息和数字本身的位置信息计算出来,只需要保存第 n-1 项集的位置信息就可以提速 Fpgrowth的算法,我没有递归建树,只建了一

    2024年04月23日
    浏览(40)
  • 数据挖掘 | 实验一 数据的清洗与预处理

    1)了解数据质量问题、掌握常用解决方法; 2)熟练掌握数据预处理方法,并使用Python语言实现; PC机 + Python3.7环境(pycharm、anaconda或其它都可以) 清洗与预处理的必要性 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值、重复值、异常值或者错误值,通常这

    2023年04月08日
    浏览(47)
  • HNU-数据挖掘-实验4-链接预测

    计科210X 甘晴void 202108010XXX 节点分类(Node Classification)是图/图谱数据上常被采用的一个学习任务,既是用模型预测图中每个节点的类别。链接预测(Link Prediction)一般指的是,对存在多对象的总体中,每个对象之间的相互作用和相互依赖关系的推断过程。 利用已经掌握的深

    2024年01月22日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包