zl程序教程

您现在的位置是:首页 >  其他

当前栏目

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

规则算法 支持 关联 挖掘 数据挖掘 频繁 性质
2023-06-13 09:17:48 时间

文章目录

参考博客 :

一、 非频繁项集超集性质


关联规则 性质 1 : 非频繁项集 的 超集 一定是 非频繁的 ;

超集 就是 包含 该集合的集合 ;

项集

\rm X

是 非频繁项集 ,

项集

\rm Y

是 项集

\rm X

的超集 ,

( 使用集合表示 :

\rm X \subseteq Y , X \not= \varnothing

, 项集

\rm Y

包含 项集

\rm X

, 并且 项集

\rm X

不为空集 )

则 项集

\rm Y

一定是 非频繁的 ;

举例 :

数据集

\rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

1

项集

\{ 甜菜 \}
2

项集

\{ 甜菜 , 啤酒 \}

上述

\{ 甜菜 , 啤酒 \}

就是

\{ 甜菜 \}

的 超集 ,

1

项集

\{ 甜菜 \}

其支持度是

\rm 0.2

, 小于最小支持度

\rm minsup = 0.6

, 是 非频繁项集

那么

\{ 甜菜 , 啤酒 \}

也是 非频繁项集 ;

在具体算法中会使用该性质 , 用于进行 “剪枝” 操作 ;

计算支持度时 , 按照

1

项集 支持度 ,

2

项集 支持度 ,

\cdots

顺序进行计算 ,

如果发现

1

项集 中有 非频繁项集 , 则包含该

1

项集的

\rm n

项集 肯定是 非频繁项集 ;

然后使用 频繁

1

项集 组合成

2

项集 , 然后再计算这些

2

项集是否是频繁项集 ;

“剪枝” 操作 减少了不必要的计算量 ;

二、 频繁项集子集性质


频繁项集 的 所有非空子集 , 一定是 频繁项集 ;

项集

\rm Y

是 频繁项集 ,

项集

\rm Y

是 项集

\rm X

的超集 ,

( 使用集合表示 :

\rm X \subseteq Y , X \not= \varnothing

, 项集

\rm Y

包含 项集

\rm X

, 并且 项集

\rm X

不为空集 )

则 项集

\rm X

一定是 频繁的 ;

举例 :

数据集

\rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

1

项集

\{ 尿布 \}

,

\{ 啤酒 \}
2

项集

\{ 尿布 , 啤酒 \}
2

项集

\{ 尿布 , 啤酒 \}

其支持度是

\rm 0.6

, 等于最小支持度

\rm minsup = 0.6

, 是 频繁项集

那么

2

项集

\{ 尿布 , 啤酒 \}

的子集是

1

项集

\{ 尿布 \}

,

\{ 啤酒 \}

,

根据上述性质 ,

1

项集

\{ 尿布 \}

,

\{ 啤酒 \}

都是 频繁项集 ;

三、 项集与超集支持度性质


任意一个 项集 的 支持度 , 都 大于等于 其 超集 支持度 ;

超集 就是 包含 该集合的集合 ;