数据挖掘-关联规则学习-Apriori算法原理-Toy模板网

这篇具有很好参考价值的文章主要介绍了数据挖掘-关联规则学习-Apriori算法原理。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言：

比如你女朋友，低头玩手指+沉默，那大概率生气了，那这就是你总结出来的规则。啤酒与尿布的例子相信很多人都听说过吧，故事是这样的：在一家超市中，人们发现了一个特别有趣的现象，尿布与啤酒这两种风马牛不相及的商品居然摆在一起，但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。为什么有这么奇怪现象呢？是因为美国妇女在丈夫回家前买尿布，然后丈夫顺手买了自己喜欢的啤酒，所以发生了这么有趣的事情。
很多人只记住了啤酒尿不湿，很少深入思考，我们稍微转换下，日常的事情，也存在非常多的关联规则？
此段引言来自这个链接

一、关联分析是什么？

关联分析亦称为关联规则学习。
关联分析就是从大规模数据中，发现对象之间隐含关系与规律的过程。
通常，关联关系表现为某些物品在一起出现的频率大小 。

二、基本概念

1. 项

项，指的是数据集中的一个对象。
苹果，可以称之为项。
汽车，可以称之为项。
1（数字一），可以称之为项。

2. 项集

项集就是若干项构成的集合。
{苹果}，可以称之为项集。{苹果，香蕉}，可以称之为项集。{1，2，3}，可以称之为项集。

关联规则有三个核心概念需要理解：支持度、置信度、提升度。

3. 支持度

支持度为某项集在数据集中出现的频率。即项集在数据集中出现的次数除以数据集中所有记录的数量.
$support(A)=\frac{count(A)}{count(DataBase)}=P(A)$
也就是说，支持度指某个 “ 物品 ” 集合在所有集合中出现的概率。
支持度体现的是某项集的频繁程度，只有某项集的支持度达到一定程度，我们才有研究分析该项集的必要。

4. 置信度

关联规则{ A -> B }中，置信度为A与B同时出现的次数，除以A出现的次数。
$)=\frac{count(AB)}{count(A)} =\frac{\frac{count(AB)}{count(DataBase)}}{\frac{count(A)}{count(DataBase)}}=\frac{P(AB)}{P(A)}=P(B|A)$
也就是说，“置信度指在包含某个物品集合的交易中，同时包含另一个物品集合的概率”。
置信度体现的是关联规则的可靠程度，如果关联规则的{ A -> B }的置信度较高，则说明当A发生时，B有很大概率也会发生，这样就有可能带来研究价值。

5. 提升度

关联规则{ A -> B }中，提升度为{ A -> B }的置信度除以B的支持度。
$)=\frac{Condidence( A->B )}{support(B)}=\frac{P(B|A)}{P(B)}=\frac{P(AB)}{P(A)P(B)}$
也就是说，“提升度是在知道 A 的条件下，同时包含 B 的概率与预期同时包含 B 的概率之比”
提升度体现的是组合（应用关联规则）相对于不组合（不应用关联规则）的比值。
如果提升度大于1，则说明应用该关联规则是有价值的。
如果提升度小于1，则说明应用该关联规则起到了反方向的影响。
考虑到大部分的应用场景，应该尽可能让关联规则的提升度大于1，提升度越大，则应用该关联规则的效果越好。

6. 频繁项集

通常情况下，我们只会对频繁出现的项集进行研究。
因此，我们会设置一个支持度阈值，如果一个项集的支持度达到（大于等于）该阈值，则该项集就成为频繁项集。
特别的，如果频繁项集中含有 k 个项，我们称之为频繁 k 项集。

三、关联分析过程

从数据集中寻找频繁项集
从频繁项集中生成关联规则

寻找频繁项集，我们当然可以利用暴力搜索的方式，逐个寻找不同种组合的是否为频繁项集。
我们可以计算一下暴力搜索的次数，一项集、二项集、三项集等等，直至N项集。
$C_{N}^{0}+C_{N}^{1}+C_{N}^{2}+ ... +C_{N}^{N}=2^{N}$
当然，0项集在分析中是没有意义的。
故， $C_{N}^{1}+C_{N}^{2}+ ... +C_{N}^{N}=2^{N}-1$
在大数据的背景下， $2^{N}-1$ 会消耗大量的计算资源。
因此，暴力搜索的方法，理论可行，实际不可用。
那么，是否存在一种方法能够减少计算，优化效率？

四、Apriori算法原理

为了降低运算量，使用Apriori算法进行优化。
算法有两个性质：

如果一个项集是频繁项集，则其所有子集（非空）也是频繁项集。
如果一个项集（非空）是非频繁项集，则其所有超集也是非频繁项集。

证明：
频繁项集的区分以支持度为标准，即频率（概率），记为 $P$ 。运算过程满足概率论的基本原理。
$P (A) \geq P (A B) \geq 支持度阈值$
频繁项集{ A，B}的支持度大于阈值，项集｛A｝的支持度当然大于阈值，因此项集｛A｝也为频繁项集。
同理，
项集｛C｝为非频繁项集，其支持度 $P (C)$ 小于阈值。
$P (C D) \leq P (C) \leq 支持度阈值$
非频繁项集{ C }的支持度小于阈值，项集｛CD｝的支持度当然小于阈值，因此项集｛CD｝也为非频繁项集。

算法流程：

扫描数据集，从数据集中生成候选k项集 $C_k$ (k从1开始)。
计算 $C_k$ 中，每一个项集的支持度，删除低于阈值的项集，构成频繁项集 $L_k$ 。
将频繁项集 $L_k$ 中的元素进行组合，生成候选k+1项集 $C_{k+1}$ 。
重复步骤②③，直到满足以下两个条件之一时，算法结束。
- 频繁k项集无法组合合成候选k+1项集。
- 所有候选k项集支持度都低于指定的阈值（最小支持度），无法生成频繁k+1项集。

五、程序实现

可以使用Python中的efficient-apriori库帮助我们快速实现上述算法。文章来源地址https://www.toymoban.com/news/detail-678810.html

apriori(transactions: typing.Iterable[typing.Union[set, tuple, list]], 
        min_support: float=0.5, 
        min_confidence: float=0.5, 
        max_length: int=8, 
        verbosity: int=0, 
        output_transaction_ids: bool=False)
上面就是这个函数的参数
min_support：最小支持度
min_confidence：最小置信度
max_length：项集长度


#包安装 我们使用efficient-apriori，python中也可以利用apyori库和mlxtend库
pip install efficient-apriori

#加载包
from efficient_apriori import apriori

# 构造数据集
data = [('牛奶','面包','尿不湿','啤酒','榴莲'),
        ('可乐','面包','尿不湿','啤酒','牛仔裤'),
        ('牛奶','尿不湿','啤酒','鸡蛋','咖啡'),
        ('面包','牛奶','尿不湿','啤酒','睡衣'),
        ('面包','牛奶','尿不湿','可乐','鸡翅')]
#挖掘频繁项集和频繁规则
itemsets, rules = apriori(data, min_support=0.6,  min_confidence=1)
#频繁项集
print(itemsets)

itemsets[1] #满足条件的一元组合

itemsets[2]#满足条件的二元组合

itemsets[3]#满足条件的三元组合

#频繁规则
print(rules)
#我们把max_length=2这个参数加进去看看
itemsets, rules = apriori(data, min_support=0.6,
min_confidence=0.5,
max_length=2)
#频繁项集
print(itemsets)