实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

这篇具有很好参考价值的文章主要介绍了实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、关联分析

1.构建过程

1.1导入数据

1.2检查缺失值,异常值

1.3 约减数据集中属性

2.对结果的评述

2.1 FP-Growth的支持度(Support)参数为0.95情况

2.2 不同min support对关联规则结果的影响

2.3 不同min confidence对结果的影响

3.促销政策

二、分类预测

1.对Titannic Unlabeld进行预测

1.1构建过程

1.2 预测结果

1.3 构建决策树过程的发现

2.五折交叉检验

2.1 引入Cross Validation算子

2.2 将number of folds改为5

2.3 进入子流程进行配置

2.4 结果

3.改变criterion参数


用到的算子有read csv,select attribute,fp-growth,create association rules;set role,decision tree,apply model,cross validation

Exteter是一家综合类百货公司。其销售的商品种类包括:服装、家具用品、健康相关产品、汽车、个人电子产品、电脑、花园相关产品、新奇礼品和珠宝等九大类。为了降低广告促销的成本,公司希望通过挖掘顾客购买记录数据,实现当顾客购买某一件产品时,将“诱饵”商品推荐给顾客,尽可能促使顾客的购买。

公司现有4998条用户购买历史记录(见“数据集-作业1-CatalogCrossSell.xls”),每条记录包含以下字段:

(1)Customer Number:编号,每个顾客有一个唯一的编号用以识别用户;

(2)Clothing Division:0/1, 顾客是否购买了服装。0为未购买,1为购买;

(3)Housewares Division:0/1,顾客是否购买了家具用品。0为未购买,1为购买;

(4)Health Products Division:0/1,顾客是否购买了与健康相关的商品。0为未购买,1为购买;

(5) Automotive Division:0/1,顾客是否购买了汽车。0为未购买,1为购买;

(6)Personal Electronics Division:0/1顾客是否购买了个人电子产品。0为未购买,1为购买;

(7)Computers Division:0/1,顾客是否购买了电脑。0为未购买,1为购买;

(8)Garden Division:0/1,顾客是否购买了有关花园的产品。0为未购买,1为购买;

(9)Novelty Gift Division:0/1,顾客是否购买了新奇礼品。0为未购买,1为购买;

(10)Jewelry Division:0/1, 顾客是否购买了珠宝商品。0为未购买,1为购买。

一、关联分析

1.构建过程

1.1导入数据

  选择方法1将数据导入,如图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

1.2检查缺失值,异常值

引入Numerical to Binominal算子

将除了Customer Number之外的变量放到右边,如图

  实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

这些变量都要0/1变为flase/true

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

1.3 约减数据集中属性

  引入Select Attributes算子,

将除了Customer Number之外的变量放到右边(保留了顾客对不同商品的购买情况),如图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

1.4 FP-Growth找到频繁项集

 引入FP-Growth算子

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

设置min support为0.95

如下图,我们可以看到在size2,3中有很多

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

例如,家具用品的购买就和个人电子产品、珠宝商品、花园产品、新奇产品可能存在关联

Size3表示一项的购买可能与其他两项有关,这里就不一一解释。

1.5 产生关联规则

引入Create Association Rules算子

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

FP-Growth的支持度(Support)参数为0.95情况下,如下图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

FP-Growth的支持度(Support)参数为0.85情况下,如下图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

FP-Growth的支持度(Support)参数为0.75情况下,如下图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

FP-Growth的支持度(Support)参数为0.5情况下,如下图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

2.对结果的评述

2.1 FP-Growth的支持度(Support)参数为0.95情况

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

购买了个人电子产品可以推出买了健康相关产品

购买了家具用品可以推出买了健康相关产品

购买了珠宝产品可以推出买了健康相关产品

购买了花园相关产品可以推出买了健康相关产品

购买了新奇产品产品可以推出买了健康相关产品

还有可能由购买了两样物品推出购买了另外的一项产品

购买了个人电子设备和家具可以推出购买了健康有关产品

购买了个人电子产品和珠宝可以推出购买了健康有关产品

2.2 不同min support对关联规则结果的影响

下图依次为min support为0.95,0.85,0.75

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

首先,随着支持度的下降,我们可以看到相关联的变量越来越多。但是到了后面的的置信度(support)越来越低,即两个购买行为之间不是太过关联。

  同时,我们可以看到,所有的购买行为都是预测会购买健康类的产品,但是由于健康类的产品可以认为是人们日常生活中必须的产品,所以参考意义不大。

2.3 不同min confidence对结果的影响

在之前min confidence为0.8的情况下都是预测健康类,现在我们将min confidence放宽到0.5

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

结果为

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

产生了更为多样的预测结果(家具类的购买推出电子产品的购买)

3.促销政策

由之前的关联规则结果,我们可以知道,健康类的产品和其他不同的产品购买相关性很多。可以认为健康类产品是一种必需品,因此可以在商场显眼的位置摆放健康类产品,或者是在顾客结账的地方摆放。还可以将健康类产品和其他的产品捆绑销售。

   根据修改min confidence之后的结果,我们知道家具类的购买和电子产品的购买相关联。我们可以在商场的家具购买区判别设置电子产品体验区。

二、分类预测

1.对Titannic Unlabeld进行预测

1.1构建过程

我们对训练数据进行观察,发现没有唯一ID的一列,我们通过Generate ID算子来构建id属性一列

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

加入Set Role算子

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

加入Decision Tree和Apply Model算子

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

1.2 预测结果

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

Yes表示存活

1.3 构建决策树过程的发现

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

票价大于35.562,且为女性的容易存活

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

有父母或者小孩的不容易存活

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

小于18岁的容易存活

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

票价小于26.144的男性不容易存活

2.五折交叉检验

2.1 引入Cross Validation算子

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

2.2 将number of folds改为5

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

2.3 进入子流程进行配置

如图

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

2.4 结果

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

如图,我们可以看到,对于Yes的预测,准确率有71.06%。

对于No的预测,准确率有85.89%。

accuracy: 80.24% +/- 3.41% (micro average: 80.24%)

3.改变criterion参数

将参数修改为gini_index

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

根据检验表,我们可以看到准确率相较于gini_ratio有下降

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

根据决策树,我们树的广度提高了,深度减少了

将参数改为accuracy

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

对于Yes的预测准确率下降

对于No的预测准确率上升

实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)

决策树层层递进,一目了然。文章来源地址https://www.toymoban.com/news/detail-445970.html

到了这里,关于实操-rapidminer进行关联分析、分类预测(使用相关算子,全流程讲解)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用python中的随机森林进行数据分类预测

    以下是使用Python中的随机森林进行数据分类预测的示例代码: 这个示例代码使用 sklearn 库中的 RandomForestClassifier 类来构建随机森林模型。首先,将数据集划分为训练集和测试集,然后创建一个随机森林模型,并使用训练集对其进行训练。最后,用测试集数据进行预测,并计算

    2024年02月16日
    浏览(39)
  • 使用python里的神经网络进行数据分类预测

    在Python中使用神经网络进行数据分类预测,可以使用深度学习库如TensorFlow、Keras或PyTorch来实现。以下是使用Keras库的示例代码: Step 1: 准备数据 首先,准备用于训练和测试神经网络的数据集。将数据集分为输入特征和相应的目标类别。确保对数据进行适当处理和归一化。 S

    2024年02月16日
    浏览(36)
  • 使用matlab里的神经网络进行数据分类预测

    在MATLAB中使用神经网络进行数据分类预测,你可以按照以下步骤进行: Step 1: 准备数据 首先,准备用于训练和测试神经网络的数据。将数据集分为输入特征和相应的目标类别。确保数据已经进行了适当的预处理和标准化。 Step 2: 创建并训练神经网络模型 使用MATLAB的Neural Net

    2024年02月16日
    浏览(45)
  • 数据挖掘(一)使用 Apriori 算法进行关联分析

    关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。 关联分析(关联规则学习): 从大规模数据集中寻找物品间的

    2024年02月09日
    浏览(53)
  • 利用python对b站某GPT-4解说视频的近万条弹幕进行爬取、数据挖掘、数据分析、弹幕数量预测及情绪分类

             目录 一、利用Python爬取弹幕  二、利用几行代码直接生成词云 三、将弹幕属性和内容放入mysql当中  四、分析弹幕在视频各节点的数量 1、分析视频各个片段出现的弹幕数量 2、分析视频各大章节出现的弹幕数量 3.分析视频各小节出现的弹幕数量 五、分析弹幕数

    2024年02月11日
    浏览(41)
  • 【数学建模-灰色关联分析与灰色预测】

    目录 一.灰色关联度简介 二.灰色关联度 ​灰色关联分析案例 三.灰色预测模型简介 四.灰色预测之灰色生成数列 累加生成 累减生成 加权邻值生成 五.灰色模型GM(1,1) GM(1,1)灰色预测的步骤 1.数据的检验与处理 2.建立GM(1,1)模型 3. 检验预测值  六.灰色预测案例 灰色

    2024年02月20日
    浏览(45)
  • 鲍鱼数据集案例分析-预测鲍鱼年龄(线性回归/梯度下降法实操)

    数据集来源UCI Machine Learning Repository: Abalone Data Set 目录 一、数据集探索性分析 二、鲍鱼数据预处理 1.对sex特征进行OneHot编码,便于后续模型纳入哑变量 2.添加取值为1的特征 3. 计算鲍鱼的真实年龄 4.筛选特征 5. 将鲍鱼数据集划分为训练集和测试集 三、实现线性回归和岭回归

    2024年02月08日
    浏览(87)
  • 余弦相似度算法进行客户流失分类预测

    余弦相似性是一种用于计算两个向量之间相似度的方法,常被用于文本分类和信息检索领域。具体来说,假设有两个向量A和B,它们的余弦相似度可以通过以下公式计算: 其中,dot_product(A, B)表示向量A和B的点积,norm(A)和norm(B)分别表示向量A和B的范数。如果A和B越相似,它们的

    2024年02月04日
    浏览(38)
  • 【iOS分类、关联对象】如何使用关联对象给分类实现一个weak的属性

    如何使用关联对象给分类实现一个weak的属性 通过关联对象objc_setAssociatedObject中的策略policy可知,并不支持使用weak修饰对象属性: 思考:能否用assign实现? weak和assign的区别如下: **assign:**对应的所有权类型为__unsafe_unretained,当修饰对象的时候,修饰的指针指向该对象,不

    2024年02月21日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包