【数据挖掘】数据挖掘总结 ( 模式挖掘 | Apriori 算法 | 支持度 | 置信度 | 关联规则 ) ★★
文章目录
一、 支持度 置信度
给定
两个项集 , 并且有
;
支持度 :
的支持度是
两个项集在数据库
中 同时出现的概率 , 即
置信度 :
的置信度度是
出现的前提下 ,
项集在数据库
中同时出现的概率 , 即
一般情况下 置信度 大于 支持度 ;
支持度用于找出 频繁项集 ;
置信度用于找出 关联规则 ;
二、 频繁项集
项集
的 支持度
, 大于等于 指定的 最小支持度阈值
,
则称该 项集
为 频繁项集 ,
又称为 频繁项目集 ;
三、 非频繁项集
项集
的 支持度
, 小于 指定的 最小支持度阈值
,
则称该 项集
为 非频繁项集 ,
又称为 非频繁项目集 ;
四、 Apriori 算法过程
原始数据集
,
项集
,
项集
,
,
项集
, 这些项集都是候选项集 ,
根据 原始数据集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
根据 频繁
项集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
根据 频繁
项集
, 创造
项集
, 然后对
执行 数据集扫描函数 , 找到其中的 频繁
项集
,
参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )
五、模式挖掘示例
如下事物数据库 , 最小支持度
, 最小置信度
;
TID | Item |
---|---|
T1 | { M , O , N , K , E , Y } \rm \{ M, O, N , K, E, Y \} {M,O,N,K,E,Y} |
T2 | { D , O , N , K , E , Y } \rm \{ D, O, N , K, E, Y \} {D,O,N,K,E,Y} |
T3 | { M , A , K , E } \rm \{ M, A , K, E \} {M,A,K,E} |
T4 | { M , U , C , K , Y } \rm \{ M, U, C , K, Y \} {M,U,C,K,Y} |
T5 | { C , O , O , K , I , E } \rm \{ C, O, O , K, I , E \} {C,O,O,K,I,E} |
T2
T3
T4
T5
( 1 ) 使用 Apriori 算法找出所有频繁项集 ;
( 2 ) 写出关联规则 ;
( 1 ) 使用 Apriori 算法找出所有频繁项集 :
根据原始数据集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ A } \rm \{ A \} {A} | 20 % \rm 20\% 20% |
{ C } \rm \{ C \} {C} | 40 % \rm 40\% 40% |
{ E } \rm \{ E \} {E} | 80 % \rm 80\% 80% |
{ I } \rm \{ I \} {I} | 20 % \rm 20\% 20% |
{ K } \rm \{ K \} {K} | 80 % \rm 80\% 80% |
{ M } \rm \{ M \} {M} | 60 % \rm 60\% 60% |
{ N } \rm \{ N \} {N} | 40 % \rm 40\% 40% |
{ O } \rm \{ O \} {O} | 60 % \rm 60\% 60% |
{ U } \rm \{ U \} {U} | 20 % \rm 20\% 20% |
{ Y } \rm \{ Y \} {Y} | 60 % \rm 60\% 60% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E } \rm \{ E \} {E} | 80 % \rm 80\% 80% |
{ K } \rm \{ K \} {K} | 80 % \rm 80\% 80% |
{ M } \rm \{ M \} {M} | 60 % \rm 60\% 60% |
{ O } \rm \{ O \} {O} | 60 % \rm 60\% 60% |
{ Y } \rm \{ Y \} {Y} | 60 % \rm 60\% 60% |
根据 频繁
项集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ E , K } \rm \{ E , K \} {E,K} | 80 % \rm 80\% 80% |
{ E , M } \rm \{ E, M \} {E,M} | 40 % \rm 40\% 40% |
{ E , O } \rm \{ E,O \} {E,O} | 60 % \rm 60\% 60% |
{ E , Y } \rm \{ E,Y \} {E,Y} | 40 % \rm 40\% 40% |
{ K , M } \rm \{ K,M \} {K,M} | 40 % \rm 40\% 40% |
{ K , O } \rm \{ K,O \} {K,O} | 60 % \rm 60\% 60% |
{ K , Y } \rm \{ K,Y \} {K,Y} | 60 % \rm 60\% 60% |
{ M , O } \rm \{ M,O \} {M,O} | 20 % \rm 20\% 20% |
{ M , Y } \rm \{ M,Y \} {M,Y} | 40 % \rm 40\% 40% |
{ O , Y } \rm \{ O,Y \} {O,Y} | 40 % \rm 40\% 40% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E , K } \rm \{ E , K \} {E,K} | 80 % \rm 80\% 80% |
{ E , O } \rm \{ E,O \} {E,O} | 60 % \rm 60\% 60% |
{ K , O } \rm \{ K,O \} {K,O} | 60 % \rm 60\% 60% |
{ K , Y } \rm \{ K,Y \} {K,Y} | 60 % \rm 60\% 60% |
根据 频繁
项集
创造
项集
, 如下 :
Item | 支持度 |
---|---|
{ E , K , O } \rm \{ E , K, O \} {E,K,O} | 60 % \rm 60\% 60% |
{ E , O , Y } \rm \{ E,O , Y\} {E,O,Y} | 40 % \rm 40\% 40% |
{ K , O , Y } \rm \{ K,O , Y\} {K,O,Y} | 40 % \rm 40\% 40% |
对
项集
执行数据集扫描函数 , 找到频繁
项集
, 即筛选出支持度大于等于
的
项集 :
Item | 支持度 |
---|---|
{ E , K , O } \rm \{ E , K, O \} {E,K,O} | 60 % \rm 60\% 60% |
最终得出结果 :
频繁
项集 :
频繁
项集 :
频繁
项集 :
( 2 ) 写出关联规则 ;
置信度大于等于
就说明有关联规则 ;
基于 频繁
项集
的关联规则 :
置信度 | |
---|---|
E ⇒ K \rm E \Rightarrow K E⇒K | E K E = 4 4 = 1 \rm \cfrac{EK}{E} = \cfrac{4}{4} = 1 EEK=44=1 |
K ⇒ E \rm K \Rightarrow E K⇒E | E K K = 4 5 = 0.8 \rm \cfrac{EK}{K} = \cfrac{4}{5} = 0.8 KEK=54=0.8 |
E ⇒ O \rm E \Rightarrow O E⇒O | E O E = 3 4 = 0.75 \rm \cfrac{EO}{E} = \cfrac{3}{4} = 0.75 EEO=43=0.75 |
O ⇒ E \rm O\Rightarrow E O⇒E | E O O = 3 3 = 1 \rm \cfrac{EO}{O} = \cfrac{3}{3} = 1 OEO=33=1 |
K ⇒ O \rm K \Rightarrow O K⇒O | K O K = 3 5 = 0.6 \rm \cfrac{KO}{K} = \cfrac{3}{5} = 0.6 KKO=53=0.6 |
O ⇒ K \rm O \Rightarrow K O⇒K | K O O = 3 3 = 1 \rm \cfrac{KO}{O} = \cfrac{3}{3} = 1 OKO=33=1 |
K ⇒ Y \rm K \Rightarrow Y K⇒Y | E K E = 3 5 = 0.6 \rm \cfrac{EK}{E} = \cfrac{3}{5} = 0.6 EEK=53=0.6 |
Y ⇒ K \rm Y \Rightarrow K Y⇒K | E K E = 3 3 = 1 \rm \cfrac{EK}{E} = \cfrac{3}{3} = 1 EEK=33=1 |
基于 频繁
项集
的关联规则 :
置信度 | |
---|---|
E ⇒ K , O \rm E \Rightarrow K,O E⇒K,O | E K O E = 3 4 = 0.75 \rm \cfrac{EKO}{E} = \cfrac{3}{4} = 0.75 EEKO=43=0.75 |
K , O ⇒ E \rm K,O \Rightarrow E K,O⇒E | E K O K O = 3 3 = 1 \rm \cfrac{EKO}{KO} = \cfrac{3}{3} = 1 KOEKO=33=1 |
K ⇒ E , O \rm K \Rightarrow E,O K⇒E,O | K E O K = 3 5 = 0.6 \rm \cfrac{KEO}{K} = \cfrac{3}{5} = 0.6 KKEO=53=0.6 |
E , O ⇒ K \rm E,O\Rightarrow K E,O⇒K | E O K E O = 3 3 = 1 \rm \cfrac{EOK}{EO} = \cfrac{3}{3} = 1 EOEOK=33=1 |
O ⇒ E , K \rm O \Rightarrow E,K O⇒E,K | O E K O = 3 4 = 0.75 \rm \cfrac{OEK}{O} = \cfrac{3}{4} = 0.75 OOEK=43=0.75 |
E , K ⇒ O \rm E,K \Rightarrow O E,K⇒O | E K O E K = 3 4 = 0.75 \rm \cfrac{EKO}{EK} = \cfrac{3}{4} = 0.75 EKEKO=43=0.75 |
根据置信度
关联规则有 :
关联规则 :
,
,
,
,
;
关联规则 :
,
;
相关文章
- CSS @media 规则
- mysql联合索引的使用规则
- SAP UI5 的规则构建器控件介绍
- 关联规则算法Apriori algorithm详解以及为什么它不适用于所有的推荐系统
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
- 市场监督总局、国家网信办发布《个人信息保护认证实施规则》
- R语言关联规则挖掘apriori算法挖掘评估汽车性能数据
- java的冒泡排序规则详解编程语言
- Java使用log4j打印日志记录的5条规则详解编程语言
- 《Drools7.0.0.Final规则引擎教程》结果条件详解编程语言
- Linux文件名命名规则(linux文件名命名)
- Java异常处理规则
- 深入理解Oracle存储过程命名规则,提升代码执行效率(oracle存储过程命名)
- Linux防火墙如何配置域名过滤规则?(linux防火墙域名)
- MySQL中的中文排序规则及使用方法(mysql中中文排序规则)
- 掌握MySQL三范式规则,打造高效数据库系统(mysql三范式怎么用)
- Oracle中的乘法运算规则探究(oracle中的乘法公式)