Data Mining数据挖掘—5. Association Analysis关联分析

这篇具有很好参考价值的文章主要介绍了Data Mining数据挖掘—5. Association Analysis关联分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

6. Association Analysis

Given a set of records each of which contains some number of items from a given collection.
Produce dependency rules that will predict the occurrence of an item based on occurrences of other items.
Application area: Marketing and Sales Promotion, Content-based recommendation, Customer loyalty programs

Initially used for Market Basket Analysis to find how items purchased by customers are related. Later extended to more complex data structures: sequential patterns and subgraph patterns

6.1 Simple Approach: Pearson’s correlation coefficient

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

correlation not equals to causality

6.2 Definitoin

6.2.1 Frequent Itemset

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.2.2 Association Rule

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.2.3 Evaluation Metrics

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.3 Associate Rule Mining Task

Given a set of transactions T, the goal of association rule mining is to find all rules having
– support ≥ minsup threshold
– confidence ≥ minconf threshold
minsup and minconf are provided by the user
Brute-force approach
Step1: List all possible association rules
Step2: Compute the support and confidence for each rule
Step3: Remove rules that fail the minsup and minconf thresholds

But Computationally prohibitive due to large number of candidates!

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.4 Apriori Algorithm

Two-step approach
Step1: Frequent Itemset Generation (Generate all itemsets whose support ≥ minsup)
Step2: Rule Generation (Generate high confidence rules from each frequent itemset; where each rule is a binary partitioning of a frequent itemset)

However, frequent itemset generation is still computationally expensive… Given d items, there are 2^d candidate itemsets!

Anti-Monotonicity of Support
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Steps

  1. Start at k=1
  2. Generate frequent itemsets of length k=1
  3. Repeat until no new frequent itemsets are identified
    1. Generate length (k+1) candidate itemsets from length k frequent itemsets; increase k
    2. Prune candidate itemsets that cannot be frequent because they contain subsets of length k that are infrequent (Apriori Principle)
    3. Count the support of each remaining candidate by scanning the DB
    4. Eliminate candidates that are infrequent, leaving only those that are frequent

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

From Frequent Itemsets to Rules
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Complexity of Apriori Algorithm
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.5 FP-growth Algorithm

usually faster than Apriori, requires at most two passes over the database
Use a compressed representation of the database using an FP-tree
Once an FP-tree has been constructed, it uses a recursive divide-and-conquer approach to mine the frequent itemsets
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.6 Interestingness Measures

Interestingness measures can be used to prune or rank the derived rules
In the original formulation of association rules, support & confidence are the only interest measures used
various other measures have been proposed

Drawback of Confidence
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.6.1 Correlation

Correlation takes into account all data at once.
In our scenario: corr(tea,coffee) = -0.25
i.e., the correlation is negative
Interpretation: people who drink tea are less likely to drink coffee

6.6.2 Lift

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

lift and correlation are symmetric [lift(tea → coffee) = lift(coffee → tea)]
confidence is asymmetric

6.6.3 Others

6.7 Handling Continuous and Categorical Attributes

6.7.1 Handling Categorical Attributes

Transform categorical attribute into asymmetric binary variables. Introduce a new “item” for each distinct attribute-value pair -> one-hot-encoding
Potential Issues
(1) Many attribute values
Many of the attribute values may have very low support
Potential solution: Aggregate the low-support attribute values -> bin for “other”
(2) Highly skewed attribute values
Example: 95% of the visitors have Buy = No
Most of the items will be associated with (Buy=No) item
Potential solution: drop the highly frequent items

6.7.2 Handling Continuous Attributes

Transform continuous attribute into binary variables using discretization:
Equal-width binning & Equal-frequency binning
Issue: Size of the intervals affects support & confidence - Too small intervals: not enough support but Too large intervals: not enough confidence

6.8 Effect of Support Distribution

Many real data sets have a skewed support distribution
How to set the appropriate minsup threshold?
If minsup is set too high, we could miss itemsets involving interesting rare items (e.g., expensive products)
If minsup is set too low, it is computationally expensive and the number of itemsets is very large
Using a single minimum support threshold may not be effective
Multiple Minimum Support
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.9 Association Rules with Temporal Components

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

6.10 Subgroup Discovery

Association Rule Mining: Find all patterns in the data
Classification: Identify the best patterns that can predict a target variable
Subgroup Discovery: Find all patterns that can explain a target variable.
从数据集中发现具有特定属性和特征的子群或子集。这个任务的目标是识别数据中与感兴趣的属性或行为相关的子群,以便更深入地理解数据、做出预测或采取相关行动。在某些情况下,子群发现可以用于生成新的特征,然后将这些特征用于分类任务。
子群发现旨在发现数据中的子群,而分类旨在将数据分为已知的类别。子群发现通常更加探索性,而分类通常更加预测性。
we have strong predictor variables. But we are also interested in the weaker ones

Algorithms
Early algorithms: Learn unpruned decision tree; Extract rule; Compute measures for rules, rate and rank
Newer algorithms: Based on association rule mining; Based on evolutionary algorithms

Rating Rules
Goals: rules should be covering many examples & Accurate
Rules of both high coverage and accuracy are interesting

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Subgroup Discovery – Metrics
Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能

Data Mining数据挖掘—5. Association Analysis关联分析,笔记,数据挖掘,人工智能文章来源地址https://www.toymoban.com/news/detail-753028.html

6.11 Summary

Association Analysis Apriori & FP-Growth Subgroup Discovery
discovering patterns in data; patterns are described by rules Finds rules with minimum support (i.e., number of transactions) and minimum confidence (i.e., strength of the implication) Learn rules for a particular target variable; Create a comprehensive model of a class

到了这里,关于Data Mining数据挖掘—5. Association Analysis关联分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 关联规则挖掘(上):数据分析 | 数据挖掘 | 十大算法之一

    ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者: 秋无之地 🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。 🐴欢迎小伙伴们 点赞👍🏻、收藏

    2024年02月07日
    浏览(47)
  • 【海量数据挖掘/数据分析】 之 关联规则挖掘 Apriori 算法 (数据集、事务、频繁项集、关联规则、支持度、置信度)

    目录 【海量数据挖掘/数据分析】 之 关联规则挖掘 Apriori 算法 (数据集、事务、频繁项集、关联规则、支持度、置信度) 一、 关联规则挖掘简介 二、 数据集 与 事务 ( Transaction ) 概念 三、项 ( Item ) 概念 四、项集 ( Item Set ) 概念 五、频繁项集 六、数据集、事物、项、项集

    2024年02月05日
    浏览(53)
  • 《数据挖掘基础》实验:Weka平台实现关联规则挖掘

    进一步理解关联规则算法(Apriori算法、FP-tree算法),利用weka实现数据集的挖掘处理,学会调整模型参数,读懂挖掘规则,解释规则的含义 (1)随机选取数据集为对象,完成以下内容:(用两种方法:Apriori算法、FP-tree算法) 文件导入与编辑; 参数设置说明; 结果截图;

    2024年02月02日
    浏览(39)
  • 利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例

    首先,如果不熟悉weka的使用的话,可以从我的git仓库里面拉取一下weka的相关教程,仓库里面还有包含此次实例的所有资源 我们可以在weka的官网上下载weka软件:weka官网 如果下载速度慢的话也可以直接从我的git仓库里面拉取这个软件,软件是win64位的weka-3-8-6 然后找到对应版

    2024年02月06日
    浏览(35)
  • 数据挖掘|关联分析与Apriori算法详解

    关联规则分析(Association-rules Analysis)是数据挖掘领域的一个重要方法,它是以某种方式分析数据源,从数据样本集中发现一些潜在有用的信息和不同数据样本之间关系的过程。 关联是指在两个或多个变量之间存在某种规律性,但关联并不一定意味着因果关系。 关联规则是寻

    2024年04月10日
    浏览(38)
  • 数据挖掘-关联规则学习-Apriori算法原理

    比如你女朋友,低头玩手指+沉默,那大概率生气了,那这就是你总结出来的规则。啤酒与尿布的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布

    2024年02月11日
    浏览(57)
  • 【数据挖掘】数据挖掘、关联分析、分类预测、决策树、聚类、类神经网络与罗吉斯回归

      数据挖掘是20世纪末兴起的数据智能分析技术,由于有广阔的应用前景而备受重视   广大从事 数据库应用与决策支持 ,以及 数据分析 等学科的科研工作者和工程技术人员迫切需要了解和掌握。 数据挖掘涉及的内容较为广泛,已成为信息社会中广泛应用的一门综合性

    2024年02月08日
    浏览(44)
  • 数据挖掘(一)使用 Apriori 算法进行关联分析

    关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出现在一块的物品的集合。 关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。 关联分析(关联规则学习): 从大规模数据集中寻找物品间的

    2024年02月09日
    浏览(37)
  • 基于图的数据关联论文《CLIPPER: A Graph-Theoretic Framework for Robust Data Association》学习

    基本思想是将数据关联问题转换为图,计算最稠密的全连接子图,具体描述有点拗口: 假设有两组数据setA和setB,setA有a,b,c,d,e这几个点,setB里面有i,j,k,l这个几个点。 如果认为setA中的某个点a和setB中的某个点j能匹配,setA中的另一个点c和setB中的另一个点l能匹配,那么a-c的相

    2024年02月12日
    浏览(32)
  • 数据挖掘18大算法实现以及其他相关经典DM算法:决策分类,聚类,链接挖掘,关联挖掘,模式挖掘、图算法,搜索算法等

    【机器学习入门与实践】入门必看系列,含数据挖掘项目实战:模型融合、特征优化、特征降维、探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战:数据融合、特征优化、特征降维、探索性分析

    2024年02月09日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包