数据分析实战 | 关联规则分析——购物车分析

这篇具有很好参考价值的文章主要介绍了数据分析实战 | 关联规则分析——购物车分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、数据及分析对象

二、目的及分析任务

三、方法及工具

四、数据读入

五、数据理解

六、数据预处理

七、生成频繁项集

八、计算关联度

九、可视化


一、数据及分析对象

数据集链接:Online Retail.xlsx

该数据集记录了2010年12月01日至2011年12月09日的541909条在线交际记录,包含以下8个属性:

(1)InvoiceNo:订单编号,由6位整数表示,退货单号由字母“C”开头;

(2)StockCode:产品编号,每个不同的产品由不重复的5位整数表示;

(3)Description:产品描述;

(4)Quantity:产品数量,每笔交易的每件产品的数量;

(5)InvoiceDate:订单日期和时间,表示生成每笔交易的日期和时间;

(6)UnitPrice:单价,每件产品的英镑价格;

(7)CustomerID:顾客编号,每位客户由唯一的5位整数表示;

(8)Country:国家名称,每位客户所在国家/地区的名称。

二、目的及分析任务

理解Apriori算法的具体应用

(1)计算最小支持度为0.07的德国客户购买产品的频繁项集。

(2)计算最小置信度为0.8且提升度不小于2的德国客户购买产品的关联关系。

三、方法及工具

能够实现Aprior算法的Python第三方工具包有mlxtend、kiwi-apriori、apyori、apriori_python、efficient-apriori等,比较常用的是mlxtend、apriori_python、efficient-apriori,本项目采用的是mlxtend包。

四、数据读入

import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
df_Retails=pd.read_excel("C:\\Users\\LEGION\\AppData\\Local\\Temp\\360zip$Temp\\360$0\\Online Retail.xlsx")
df_Retails.head()

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

五、数据理解

 调用shape属性查看数据框df_Retails的形状。

df_Retails.shape

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

 查看列名称

df_Retails.columns
Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

 对数据框df_Retails进行探索性分析。

df_Retails.describe()

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

其中,count、mean、std、min、25%、50%、75%和max的含义分别为个数、均值、标准差、最小值、上四分位数、中位数、下四分位数和最大值。

除了describe()方法,还可以调用info()方法查看样本数据的相关信息概览:

df_Retails.info()

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

从输出结果可以看出,数据框df_Retails的Description和CustomerID两列有缺失值。

看国家一列:

df_Retails.Country.unique()
array(['United Kingdom', 'France', 'Australia', 'Netherlands', 'Germany',
       'Norway', 'EIRE', 'Switzerland', 'Spain', 'Poland', 'Portugal',
       'Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland',
       'Channel Islands', 'Denmark', 'Cyprus', 'Sweden', 'Austria',
       'Israel', 'Finland', 'Bahrain', 'Greece', 'Hong Kong', 'Singapore',
       'Lebanon', 'United Arab Emirates', 'Saudi Arabia',
       'Czech Republic', 'Canada', 'Unspecified', 'Brazil', 'USA',
       'European Community', 'Malta', 'RSA'], dtype=object)
df_Retails["Country"].unique()
array(['United Kingdom', 'France', 'Australia', 'Netherlands', 'Germany',
       'Norway', 'EIRE', 'Switzerland', 'Spain', 'Poland', 'Portugal',
       'Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland',
       'Channel Islands', 'Denmark', 'Cyprus', 'Sweden', 'Austria',
       'Israel', 'Finland', 'Bahrain', 'Greece', 'Hong Kong', 'Singapore',
       'Lebanon', 'United Arab Emirates', 'Saudi Arabia',
       'Czech Republic', 'Canada', 'Unspecified', 'Brazil', 'USA',
       'European Community', 'Malta', 'RSA'], dtype=object)

 查看各国家的购物数量:

df_Retails["Country"].value_counts()
United Kingdom          495478
Germany                   9495
France                    8557
EIRE                      8196
Spain                     2533
Netherlands               2371
Belgium                   2069
Switzerland               2002
Portugal                  1519
Australia                 1259
Norway                    1086
Italy                      803
Channel Islands            758
Finland                    695
Cyprus                     622
Sweden                     462
Unspecified                446
Austria                    401
Denmark                    389
Japan                      358
Poland                     341
Israel                     297
USA                        291
Hong Kong                  288
Singapore                  229
Iceland                    182
Canada                     151
Greece                     146
Malta                      127
United Arab Emirates        68
European Community          61
RSA                         58
Lebanon                     45
Lithuania                   35
Brazil                      32
Czech Republic              30
Bahrain                     19
Saudi Arabia                10
Name: Country, dtype: int64

可以看出,英国的客户购买商品数量最多,为495478条记录,其次是德国的客户,为9495条记录。

查看订单编号(InvoiceNo)一列中是否有重复的值。

df_Retails.duplicated(subset=["InvoiceNo"]).any()
True

 订单编号有重复表示同一个订单中有多个同时购买的产品,符合Apriori算法的数据要求。

六、数据预处理

查看数据中是否有缺失值。

df_Retails.isna().sum()
InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

可以看出,Description的缺失值有1454条,CustomerID的缺失值有135080条。

将商品名称(Description)一列的字符串头尾的空白字符删除:

df_Retails['Description']=df_Retails['Description'].str.strip()

再次查看数据集形状;

df_Retails.shape
(541909, 8)

 查看商品名称(Description)一列的缺失值个数:

df_Retails['Description'].isna().sum()
1455

在对商品名称(Description)一列进行空白字符处理后,缺失值增加了一个。去除所有的缺失值:

df_Retails.dropna(axis=0,subset=['Description'],inplace=True)

再次查看数据集形状:

df_Retails.shape
(540454, 8)

 检查此时的数据集是否还有缺失值:

df_Retails['Description'].isna().sum()
0

可以看出,数据框df_Retails中商品名称(Description)一列的缺失值已全部删除。

由于退货的订单由字母“C”开头,删除含有C字母的已取消订单:

df_Retails['InvoiceNo']=df_Retails['InvoiceNo'].astype('str')
df_Retails=df_Retails[~df_Retails['InvoiceNo'].str.contains('C')]
df_Retails.shape
(531166, 8)

将数据改为每一行一条记录,并考虑到内存限制以及德国(Germany)的购物数量位居第二,因此在本项目中只计算德国客户购买的商品的频繁项集及关联规则,全部计算则计算量太大。

df_ShoppingCarts=(df_Retails[df_Retails['Country']=="Germany"].groupby(['InvoiceNo','Description'])['Quantity'].sum().unstack()
                 .reset_index().fillna(0).set_index('InvoiceNo'))
df_ShoppingCarts.shape
(457, 1695)
df_ShoppingCarts.head()

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

德国的购物记录共有457条,共包含1695件不同的商品。

查看订单编号(InvoiceNo)一列是否有重复的值:

df_Retails.duplicated(subset=["InvoiceNo"]).any()
True

订单编号有重复表示同一个订单中有多个同时购买的产品,符合Apriori算法的数据要求。由于apriori方法中df参数允许的值为0/1或True/False,在此将这些项在数据框中转换为0/1形式,即转换为模型可接受格式的数据即可进行频繁项集和关联度的计算。

def encode_units(x):
    if x<=0:
        return 0
    if x>=1:
        return 1

df_ShoppingCarts_sets=df_ShoppingCarts.applymap(encode_units)

七、生成频繁项集

mlxtend.frequnet_patterns的apriori()方法可进行频繁项集的计算,将最小支持度设定为0.07:

df_Frequent_Itemsets=apriori(df_ShoppingCarts_sets,min_support=0.07,use_colnames=True)
df_Frequent_Itemsets

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析 

 查看数据框df_Frequent_Itemsets的形状:

df_Frequent_Itemsets.shape
(39, 2)

 可以看出,满足最小支持度0.07的频繁项集有39个。

八、计算关联度

将提升度(lift)作为度量计算关联规则,并设置阈值为1,表示计算具有正相关关系的关联规则。该任务由mlxtend.frequent_patterns的association_rules()方法实现:

df_AssociationRules=association_rules(df_Frequent_Itemsets,metric="lift",min_threshold=1)
df_AssociationRules

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析 

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

从结果可以看出各项关联规则的详细信息。

以第一条关联规则为{6 RIBBONS RUSTIC CHARM}—>{POSTAGE}为例,{6 RIBBONS RUSTIC CHARM}的支持度为0.102845,{POSTAGE}的支持度为0.818381,项集{{6 RIBBONS RUSTIC CHARM,POSTAGE}的支持度为0.091904,客户购买6 RIBBONS RUSTIC CHARM的同时也购买POSTAGE的置信度为0.893617,提升度为1.091933,规则杠杆率(即当6 RIBBONS RUSTIC CHARM和POSTAGE一起出现的次数比预期多)为0.007738,规则确信度(与提升度类似,但用差值表示,确信度越大则6 RIBBONS RUSTIC CHARM和POSTAGE关联关系越强)为1.707221。

查看数据框df_AssocaitionRules的形状:

df_AssociationRules.shape
(34, 10)

 可以看出,总共输出了34条关联规则。接着筛选提升度不小于2且置信度不小于0.8的关联规则:

df_A=df_AssociationRules[(df_AssociationRules['lift']>2)&(df_AssociationRules['confidence']>=0.8)]
df_A

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析

由此可知,提升度不小于2且满足最小置信度0.8的强关联规则有两条,分别为:{ROUND SNACK BOXES SET OF 4 FRUITS}—>{ROUND SNACK BOXES SET OF4 WOODLAND}和{POSTAGE, ROUND SNACK BOXES SET OF 4 FRUITS}—>{ROUND SNACK BOXES SET OF4 WOODLAND}。

九、可视化

绘制出提升度不小于1的关联规则的散点图,横坐标设置为支持度,纵坐标为置信度,散点的大小表示提升度。该可视化任务由matplotlib.pyplot的scatter函数实现:

import matplotlib.pyplot as plt

#将点的大小放大20倍
plt.scatter(x=df_AssociationRules['support'],y=df_AssociationRules['confidence'],s=df_AssociationRules['lift']*20) 

plt.show()

数据分析实战 | 关联规则分析——购物车分析,python,数据分析,机器学习,数据分析,数据挖掘,关联规则分析,Apriori,python,购物车分析文章来源地址https://www.toymoban.com/news/detail-743999.html

到了这里,关于数据分析实战 | 关联规则分析——购物车分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(52)
  • 大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)

    在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据

    2024年02月09日
    浏览(62)
  • python数据分析与挖掘实战(商品零售购物篮分析)

            购物篮分析是商业领域最前沿、最具挑战性的问题之一,也是许多企业重点研究的问题。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。        本篇文章

    2024年02月06日
    浏览(55)
  • MySQL实战项目:淘宝母婴购物数据可视化分析

    文章目录 前言 一、数据获取 1.母婴信息表:tianchi_mum_baby.csv 2.购物行为表: tianchi_mum_baby_trade_history.csv 二、数据预处理:  1.修改数据类型 2.检查重复数据: 3.检查空格 4.去异常 三.数据分析 1.流量分析 2.类别分析 3.性别分析 总结 母婴用品是淘宝的热门购物类目,随着国家鼓

    2024年02月04日
    浏览(69)
  • php开发实战分析(2):cookie的动态使用(设置、获取、删除、猜你喜欢原理、购物车调用)

    在 PHP 中,cookie 是一种用于在客户端(浏览器)和服务器之间存储数据的一种机制。 它们通常用于跟踪和识别用户,并存储用户的偏好设置。下面是一些常见的用法和函数来操作 cookie。 可以使用 setcookie() 函数来设置 cookie。该函数有多个参数,其中最重要的是名称和值。下

    2024年02月15日
    浏览(56)
  • 【Redis从头学-6】Redis中的Hash数据类型实战场景之购物车

    🧑‍💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:Redis从头学 之前的篇章对Redis的String、List数据类型已经做出了具体分析,并举例说明了其具体的实战场景。本文就结合

    2024年02月11日
    浏览(41)
  • 【Vue实战】使用vue实现购物车案例

    1. 实现步骤 【备注】这里的接口地址目前(2022年6月)还是可以用的哦~ 2. 实现 2.1 代码结构 使用的样式是Boostrap,需要npm i bootstrap,然后在main.js中引入bootstrap。 2.2 Header头部的代码 2.3 Goods商品组件代码 代码: 2.4 Footer组件代码 2.5 Counter组件代码 2.6 App.vue根组件代码 2.7 event

    2024年02月08日
    浏览(50)
  • 数据分析案例-顾客购物数据可视化分析

      🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.数据集介绍 3.技术工具 4.导入数据 5.数据可视化 5.1分析性别比例 5.2年龄

    2024年02月07日
    浏览(53)
  • 【java】【项目实战】[外卖八]产品展示、购物车、下单开发

    目录 一、导入用户地址簿相关功能代码 1 需求分析 2 数据模型 3 导入功能代码  3.1 实体AddressBook  3.2 Mapper接口AddressBookMapper   3.3 业务接口层AddressBookService 3.4 业务接口实现类AddressBookServiceImpl 3.5 控制层AddressBookController 4 功能测试 二、菜品展示 1 需求分析 2 代码开发  2.1 m

    2024年02月11日
    浏览(59)
  • Android App开发实战项目之购物车(附源码 超详细必看)

    需要源码请点赞关注收藏后评论区留言~~~ 电商App的购物车可谓是司空见惯了,可以知道购物车除了底部有一个结算行,其余部分主要是已加入购物车的商品列表,然后每个商品左边是商品小图,右边是商品名称以及价格,第一次进入购物车页面应该是空的,随着加入东西的增

    2024年02月11日
    浏览(68)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包