您现在的位置是：首页 > Python

当前栏目

Python基础原理：FP-growth算法的构建

Python 算法基础数据原理

2023-03-07 09:52:34 时间

和Apriori算法相比，FP-growth算法只需要对数据库进行两次遍历，从而高效发现频繁项集。对于搜索引擎公司而言，他们需要通过查看互联网上的用词，来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法，FP-growth算法就可以完成此重任。

FP-growth算法是基于Apriori原理的，通过将数据集存储在FP（Frequent Pattern)树上发现频繁项集。

FP-growth算法只需要对数据库进行两次扫描，而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集，所以说FP-growth算法是高效的。

FP算法发现频繁项集的过程是：

(1)构建FP树；

(2)从FP树中挖掘频繁项集

FP表示的是频繁模式，其通过链接来连接相似元素，被连起来的元素可看成是一个链表

将事务数据表中的各个事务对应的数据项，按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中，同时在每个结点处记录该结点出现的支持度。

假设存在的一个事务数据样例为,构建FP树的步骤如下：

结合Apriori算法中最小支持度的阈值，在此将最小支持度定义为3，结合上表中的数据，那些不满足最小支持度要求的将不会出现在***的FP树中。

据此构建FP树，并采用一个头指针表来指向给定类型的***个实例，快速访问FP树中的所有元素，构建的带头指针的FP树如图：

结合绘制的带头指针表的FP树，对表中数据进行过滤，排序如下：

在对数据项过滤排序了之后，就可以构建FP树了，从NULL开始，向其中不断添加过滤排序后的频繁项集。过程可表示为：

这样，FP树对应的数据结构就建好了，现在就可以构建FP树了，FP树的构建函数参见Python源代码。

在运行上例之前还需要一个真正的数据集，结合之前的数据自定义数据集。这样就构建了FP树，接下来就是使用它来进行频繁项集的挖掘。

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

Python基础原理：FP-growth算法的构建

相关文章