您现在的位置是：首页 > 后端

当前栏目

频繁项集挖掘算法之FPGrowth

算法挖掘频繁

2023-09-11 14:20:07 时间

频繁项集挖掘算法用于挖掘经常一起出现的item集合（称为频繁项集），通过挖掘出这些频繁项集，当在一个事务中出现频繁项集的其中一个item，则可以把该频繁项集的其他item作为推荐。比如经典的购物篮分析中啤酒、尿布故事，啤酒和尿布经常在用户的购物篮中一起出现，通过挖掘出啤酒、尿布这个啤酒项集，则当一个用户买了啤酒的时候可以为他推荐尿布，这样用户购买的可能性会比较大，从而达到组合营销的目的。常见的频繁项集挖掘算法有两类，一类是Apriori算法，另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。FPGrowth算法则只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。
FPGrowth算法主要分为两个步骤：FP-tree构建、递归挖掘FP-tree。FP-tree构建通过两次数据扫描，将原始数据中的事务压缩到一个FP-tree树，该FP-tree类似于前缀树，相同前缀的路径可以共用，从而达到压缩数据的目的。接着通过FP-tree找出每个item的条件模式基、条件FP-tree，递归的挖掘条件FP-tree得到所有的频繁项集。算法的主要计算瓶颈在FP-tree的递归挖掘上，下面详细介绍FPGrowth算法的主要步骤。
FPGrowth的算法步骤： FP-tree构建

对每个transaction，过滤不频繁集合，剩下的频繁项集按L顺序排序把每个transaction的频繁1项集插入到FP-tree中，相同前缀的路径可以共用同时增加一个header table，把FP-tree中相同item连接起来，也是降序排序

顺着header table中item的链表，找出所有包含该item的前缀路径，这些前缀路径就是该item的条件模式基（CPB）所有这些CPB的频繁度（计数）为该路径上item的频繁度（计数）如包含p的其中一条路径是fcamp，该路径中p的频繁度为2，则该CPB fcam的频繁度为2

FP-Growh：递归的挖掘每个条件FP-tree，累加后缀频繁项集，直到找到FP-tree为空或者FP-tree只有一条路径（只有一条路径情况下，所有路径上item的组合都是频繁项集）
更多的共用前缀：频繁的item会在树的上层，可以被更多的共享；升序排序会造成那些频繁出现的item出现在树的分支中，不能更多的共用前缀

天池学习赛——基于Apriori算法的商品频繁项集与关联规则的挖掘赛题以购物篮分析为背景，要求选手对品牌的历史订单数据，挖掘频繁项集与关联规则。通过这道赛题，鼓励学习者利用订单数据，为企业提供销售策略，产品关联组合，为企业提升销量的同时，也为消费者提供更适合的商品推荐。

猜你喜欢

混合云VPC组网场景和方案分享（一）
手机应用：史密斯圆图工具
《C++ AMP：用Visual C++加速大规模并行计算》——3.8　在CPU和GPU之间复制数据
安卓手机自动化测试工具是什么
delphi 中record 的类操作符重载简介
关于选择
华为OD机试 - 最长连续交替方波信号（JavaScript） | 机试题+算法思路+考点+代码解析【2023】
架构师技术要求
【.Net Core】程序相关各种全局文件
智能电表变炸弹：物联网时代供电设施安全性引关注
【AGC】开放式测试示例
【算法】【栈和队列模块】只用一个栈来排序另一个栈
阿里社交突围，根源在互联网向大脑结构进化产生压力
redis session共享中的序列化问题
32位与64位下各数据类型字节长度
iOS 9应用开发教程之使用开关滑块控件以及滚动部署视图

相关主题

Apriori 算法
hash算法
算法 - KMP算法
《算法导论》
python算法24点
二叉树算法

zl程序教程

当前栏目

频繁项集挖掘算法之FPGrowth

相关文章